next up previous
Next: Метод динамического программирования Up: УРАВНЕНИЕ ГАМИЛЬТОНА-ЯКОБИ (БЕЛЛМАНА) В Previous: Постановка задачи оптимального управления

2. Функция цены

Пусть функция tex2html_wrap_inline1064, называемая в дальнейшем функцией цены, определяется равенством
displaymath1066

Теорема 2.1. Если выполнены условия (А) и (Б), то функция V непрерывна по совокупности переменных tex2html_wrap_inline1074. Кроме того, справедливы следующие оценки:
displaymath1076

Доказательство. Зафиксируем tex2html_wrap_inline1078 и точку tex2html_wrap_inline1080. Для любого tex2html_wrap_inline1082 по определению функции цены существует такое допустимое управление tex2html_wrap_inline1084 что
equation113
Далее будем для удобства считать функцию v(t) непрерывной справа на tex2html_wrap_inline1018. Будем также полагать, что tex2html_wrap_inline1090. Доказательство оценки в общем случае отличается несущественно.

Определим точку tex2html_wrap_inline1092 следующим образом:
displaymath1094
Положим
displaymath1096
Очевидно, tex2html_wrap_inline1098. Пусть tex2html_wrap_inline1100 - траектория, выпущенная в момент tex2html_wrap_inline1102 из точки tex2html_wrap_inline1104 и соответствующая управлению tex2html_wrap_inline1106 Заметим, что если tex2html_wrap_inline1108 то эти траектории совпадают. Пусть tex2html_wrap_inline1110. На интервале tex2html_wrap_inline1112 траектории также совпадают. Предположим, tex2html_wrap_inline1114 тогда из условия (А) следует, что
eqnarray123
Оценим второе слагаемое в правой части (2.2):
displaymath1118

displaymath1120
В третьем слагаемом неравенства (2.2), под знаком нормы, добавим и вычтем функцию скачков специального вида:
displaymath1122

displaymath1124

equation140
Согласно [3, с. 164,], для первой из сумм в правой части неравенства (2.3) справедлива оценка
displaymath1126

displaymath1128

eqnarray148
поскольку функции tex2html_wrap_inline1130 и tex2html_wrap_inline1132, как отмечалось выше, равномерно ограничены.

Применяя определение (1.5) функции скачков ко второй сумме в правой части (2.3), получаем
displaymath1134
Таким образом,
displaymath1136
откуда, пользуясь леммой Гронуолла, имеем
displaymath1138
Данная оценка позволяет установить, что
displaymath1140

displaymath1142
Следовательно, из (2.1) имеем
displaymath1144

displaymath1146
В силу произвольности tex2html_wrap_inline1148,
displaymath1150

Осталось доказать, что эта разность неотрицательна. Для любого tex2html_wrap_inline1082 существует tex2html_wrap_inline1154 такое, что tex2html_wrap_inline1156 Пусть tex2html_wrap_inline1158 тогда tex2html_wrap_inline1160 т.е., управление tex2html_wrap_inline1162 - допустимое. Далее, так как tex2html_wrap_inline1164 то
displaymath1166
и результат следует из произвольности tex2html_wrap_inline1168

Проверка непрерывности V по tex2html_wrap_inline1104 и tex2html_wrap_inline1174 не представляет сложности.

Докажем непрерывную зависимость V от tex2html_wrap_inline1102. Зафиксируем tex2html_wrap_inline1180 и точку tex2html_wrap_inline1182 Для любого tex2html_wrap_inline1148 подберем управление tex2html_wrap_inline1186 так, чтобы
displaymath1188
Положим
displaymath1190
если tex2html_wrap_inline1192 (случай tex2html_wrap_inline1194 рассмотрим отдельно). Тогда tex2html_wrap_inline1196 Пусть tex2html_wrap_inline1198 - траектория, выпущенная в момент tex2html_wrap_inline1024 из точки tex2html_wrap_inline1104 и соответствующая управлению tex2html_wrap_inline1204 Тогда условие (А), тождества tex2html_wrap_inline1208 оценка (2.4) и лемма Гронуолла приводят к неравенству (при tex2html_wrap_inline1210)
displaymath1212
следовательно,
displaymath1214
Таким образом,
displaymath1216
В силу произвольности tex2html_wrap_inline1148 можно заключить, что
equation193
При tex2html_wrap_inline1194 положим tex2html_wrap_inline1222 на отрезке tex2html_wrap_inline1224. Проводя аналогичные рассуждения, получим
equation196
Объединяя (2.5) и (2.6), получаем, что для любых tex2html_wrap_inline1180 справедливо неравенство
displaymath1228
В завершение доказательства Теоремы 2.1 сформулируем следующее

Предложение 2.1. Функция цены удовлетворяет краевому условию
eqnarray205
где tex2html_wrap_inline1230 и граничному условию
eqnarray210
где x(t) - решение задачи Коши
displaymath1234

Доказательство. Равенство (2.8) следует немедленно из непрерывности функции цены по переменной k, а также из того, что при k=1 весь ресурс исчерпан, и единственным допустимым управлением будет tex2html_wrap_inline1240 для всех tex2html_wrap_inline1242

Проверим краевое условие (2.7). Зафиксируем tex2html_wrap_inline1244 и tex2html_wrap_inline1246 Пусть tex2html_wrap_inline1248 определим управление tex2html_wrap_inline1250 следующим образом: tex2html_wrap_inline1252 tex2html_wrap_inline1254. Пусть tex2html_wrap_inline966 - траектория, выпущенная в момент tex2html_wrap_inline1102 из точки tex2html_wrap_inline1104 и соответствующая управлению tex2html_wrap_inline1250; тогда
displaymath1264
Если tex2html_wrap_inline1266, то tex2html_wrap_inline1268

Обратно, пусть tex2html_wrap_inline954 - произвольное. Тогда из условия (Б) мы имеем, что
displaymath1274

displaymath1276

displaymath1278

displaymath1280
Пусть tex2html_wrap_inline1266; так как v - произвольное, то tex2html_wrap_inline1286 Сравнивая два полученных неравенства, мы видим, что имеет место равенство (2.7).


next up previous
Next: Метод динамического программирования Up: УРАВНЕНИЕ ГАМИЛЬТОНА-ЯКОБИ (БЕЛЛМАНА) В Previous: Постановка задачи оптимального управления