реши здесь обе задачи

Question

Answer 1

1) ДП-3п2 (динамическое программирование для выпуска K видов при 2 ресурсах)

Постановка (как задача оптимизации):
Найти целые $x_i\ge 0$ (выпуск i-го вида), чтобы

\max \sum_{i=1}^{K} P_i(x_i)

при ограничениях по сырью

\sum_{i=1}^{K} a_i x_i \le A,\qquad \sum_{i=1}^{K} b_i x_i \le B.

(а) Форма ДП: управление, состояние, динамика, ограничения, доход

Разобьём на этапы $i=1,2,\dots,K$ (на каждом этапе выбираем выпуск одного вида продукции).

Состояние: остатки сырья перед этапом $i$ : $s_i=(A_i,B_i),\qquad A_1=A,\ B_1=B.$
Управление (решение на этапе i): $u_i=x_i \in \mathbb{Z}_{\ge 0}.$
Динамика (переход состояния): $A_{i+1}=A_i-a_i x_i,\qquad B_{i+1}=B_i-b_i x_i.$
Ограничения на управление (допустимые $x_i$ ): $a_i x_i \le A_i,\qquad b_i x_i \le B_i,\qquad x_i\in\mathbb{Z}_{\ge 0}.$ Эквивалентно: $0\le x_i \le \left\lfloor \min\left(\frac{A_i}{a_i},\frac{B_i}{b_i}\right)\right\rfloor .$
Доход на итерации $i$ : $g_i(s_i,x_i)=P_i(x_i).$
Терминальный доход: $0$ .

(б) Рекуррентные уравнения Беллмана (“от конца”)

Обозначим $S_i(A,B)$ — максимальный суммарный доход, который можно получить, выпуская виды $i,i+1,\dots,K$ при остатках сырья $(A,B)$ перед этапом $i$ .

Тогда:

S_{K+1}(A,B)=0,

и для $i=K,K-1,\dots,1$ :

S_i(A,B)=\max_{\substack{x\in\mathbb{Z}_{\ge 0}\\ a_i x\le A,\ b_i x\le B}} \Bigl[P_i(x)+S_{i+1}\bigl(A-a_i x,\ B-b_i x\bigr)\Bigr].

(в) Конкретизация для $K=3$ ,

(a_1,a_2,a_3)=(2,4,1),\quad (b_1,b_2,b_3)=(4,2,3),\quad A=10,\ B=12.

Терминал:

S_4(A,B)=0.

Этап 3:

S_3(A,B)=\max_{\substack{x_3\in\mathbb{Z}_{\ge 0}\\ x_3\le A,\ 3x_3\le B}} \Bigl[P_3(x_3)+S_4(A-x_3,\ B-3x_3)\Bigr] =\max_{x_3\le \min(A,\lfloor B/3\rfloor)} P_3(x_3).

Этап 2:

S_2(A,B)=\max_{\substack{x_2\in\mathbb{Z}_{\ge 0}\\ 4x_2\le A,\ 2x_2\le B}} \Bigl[P_2(x_2)+S_3(A-4x_2,\ B-2x_2)\Bigr].

Этап 1:

S_1(A,B)=\max_{\substack{x_1\in\mathbb{Z}_{\ge 0}\\ 2x_1\le A,\ 4x_1\le B}} \Bigl[P_1(x_1)+S_2(A-2x_1,\ B-4x_1)\Bigr].

Искомый максимум для исходных запасов: $\;S_1(10,12)$ .
(Решать численно нельзя без конкретных $P_i(\cdot)$ , как и сказано в билете.)

2) ОУ-3п6 (быстрейшее “мягкое” приведение к $x=0$ при $u\in[-5,10]$ )

Дано:

\dot x -2x=u(t)\quad\Longleftrightarrow\quad \dot x =2x+u,\qquad u\in[-5,10].

Нужно за минимальное время попасть в $x=0$ и “с нулевой скоростью”, т.е.

x(t_f)=0,\qquad \dot x(t_f)=0.

Но $\dot x(t_f)=2x(t_f)+u(t_f)=u(t_f)$ , значит дополнительно требуется

u(t_f)=0.

Область управляемости (из каких $x_0$ вообще можно попасть в 0)

Если $x>2.5$ , то даже при самом “тормозящем” управлении $u=-5$ : $\dot x_{\min}=2x-5>0,$ то есть $x(t)$ не убывает, к нулю не попасть.
Если $x<-5$ , то даже при самом “разгоняющем” управлении $u=10$ : $\dot x_{\max}=2x+10<0,$ то есть $x(t)$ не возрастает, к нулю не попасть.

Следовательно, область управляемости в 0:

\boxed{\;x_0\in(-5,\ 2.5)\;}

(точки $-5$ и $2.5$ недостижимы: там $\dot x=0$ только при $u=10$ или $u=-5$ , а сдвинуться к 0 нельзя).

Синтез быстрейшего управления

В 1D система аффинна по $u$ , поэтому для минимального времени нужно брать предельные значения управления, которые дают максимально быстрый ход к нулю.

1) Если $x_0\in(0,2.5)$ : берём $u=-5$ (максимально уменьшаем $\dot x$ ).
Тогда

\dot x=2x-5,\qquad x(t)=(x_0-2.5)e^{2t}+2.5.

Время прихода в ноль из $x_0$ :

0=(x_0-2.5)e^{2t_f}+2.5 \ \Rightarrow\ \boxed{\;t_f=\tfrac12\ln\!\Bigl(\frac{2.5}{2.5-x_0}\Bigr)\;}

и управление:

\boxed{\; u^*(t)= \begin{cases} -5,& 0\le t<t_f,\\ 0,& t\ge t_f, \end{cases}}

что обеспечивает “мягкость”: в момент достижения $x(t_f)=0$ ставим $u(t_f)=0\Rightarrow \dot x(t_f)=0$ .

2) Если $x_0\in(-5,0)$ : берём $u=10$ (максимально увеличиваем $\dot x$ ).
Тогда

\dot x=2x+10,\qquad x(t)=(x_0+5)e^{2t}-5.

Время прихода в ноль:

0=(x_0+5)e^{2t_f}-5 \ \Rightarrow\ \boxed{\;t_f=\tfrac12\ln\!\Bigl(\frac{5}{x_0+5}\Bigr)\;}

и управление:

\boxed{\; u^*(t)= \begin{cases} 10,& 0\le t<t_f,\\ 0,& t\ge t_f. \end{cases}}

3) Если $x_0=0$ : $\boxed{u^*(t)\equiv 0}$ .

Можно записать как обратную связь (внутри области управляемости):

\boxed{\; u^*(x)= \begin{cases} -5,& x>0,\\ 0,& x=0,\\ 10,& x<0, \end{cases} \qquad x\in(-5,2.5)}

Проверка достаточности управления

Для $x_0\in(0,2.5)$ при $u=-5$ : $\dot x=2x-5<0$ пока $x<2.5$ , значит $x(t)$ монотонно убывает и за конечное $t_f$ попадает в 0 (формула выше).
Для $x_0\in(-5,0)$ при $u=10$ : $\dot x=2x+10>0$ пока $x>-5$ , значит $x(t)$ монотонно возрастает и за конечное $t_f$ попадает в 0.
В момент попадания ставим $u=0$ , поэтому $\dot x(t_f)=0$ и далее $x\equiv 0$ .

Вне $(-5,2.5)$ попасть в 0 невозможно из-за знака $\dot x$ при любых допустимых $u$ .

Если хочешь, могу ещё нарисовать схематично “область управляемости” на оси и графики $x(t)$ для обоих режимов (по формулам).

реши здесь обе задачи

Frage

Python

Python

Python

Gedanke

Formulating dynamic programming for resource allocation

Clarifying optimal control for smooth arrival

Clarifying time-optimal control with constraints

Interpreting "soft landing" control for stability

Determining controllability region and time-optimal control

Considering optimal control with constraints

Synthesizing time-optimal control

Determining controllability region

Exploring the dynamic programming formulation

Formulating dynamic programming recursion and control problem

Antwort

1) ДП-3п2 (динамическое программирование для выпуска K видов при 2 ресурсах)

(а) Форма ДП: управление, состояние, динамика, ограничения, доход

(б) Рекуррентные уравнения Беллмана (“от конца”)

(в) Конкретизация для $K=3$ ,

2) ОУ-3п6 (быстрейшее “мягкое” приведение к $x=0$ при $u\in[-5,10]$ )

Область управляемости (из каких $x_0$ вообще можно попасть в 0)

Синтез быстрейшего управления

Проверка достаточности управления

Diesen Q&A teilen

Frage

Python

Python

Python

Gedanke

Formulating dynamic programming for resource allocation

Clarifying optimal control for smooth arrival

Clarifying time-optimal control with constraints

Interpreting "soft landing" control for stability

Determining controllability region and time-optimal control

Considering optimal control with constraints

Synthesizing time-optimal control

Determining controllability region

Exploring the dynamic programming formulation

Formulating dynamic programming recursion and control problem

Antwort

1) ДП-3п2 (динамическое программирование для выпуска K видов при 2 ресурсах)

(а) Форма ДП: управление, состояние, динамика, ограничения, доход

(б) Рекуррентные уравнения Беллмана (“от конца”)

(в) Конкретизация для K=3K=3K=3,

2) ОУ-3п6 (быстрейшее “мягкое” приведение к x=0x=0x=0 при u∈[−5,10]u\in[-5,10]u∈[−5,10])

Область управляемости (из каких x0x_0x0​ вообще можно попасть в 0)

Синтез быстрейшего управления

Проверка достаточности управления

Diesen Q&A teilen

(в) Конкретизация для $K=3$ ,

2) ОУ-3п6 (быстрейшее “мягкое” приведение к $x=0$ при $u\in[-5,10]$ )

Область управляемости (из каких $x_0$ вообще можно попасть в 0)