next up previous
Next: Пример Up: УРАВНЕНИЕ ГАМИЛЬТОНА-ЯКОБИ (БЕЛЛМАНА) В Previous: Метод динамического программирования

4. Уравнение Гамильтона-Якоби (Беллмана)

Определим гамильтонианы tex2html_wrap_inline1352 (i=1,2), где tex2html_wrap_inline1356 следующим образом:
displaymath1358

displaymath1360

displaymath1362
и функцию tex2html_wrap_inline1364
displaymath1366
Далее будет доказано, что функция цены V является единственным вязким решением на множестве tex2html_wrap_inline1370 уравнения
equation277
(где tex2html_wrap_inline1372 - градиент функции V), называемого уравнением Гамильтона-Якоби (Беллмана) (далее для краткости будем называть его уравнением Гамильтона-Якоби). Аппарат вязких решений, используемый ниже, восходит к работам [5], [8]. Аналогичный подход к задачам оптимизации используется в [7], [9]. Существенным отличием данной работы являются более общий вид функционала, а также возможность отказа от вспомогательнной задачи импульсного расширения (см. [9]).

Приведем из [8] определение вязкого решения. Нам понадобятся следующие обозначения: если tex2html_wrap_inline1376 то
displaymath1378
если tex2html_wrap_inline1380 (соответственно tex2html_wrap_inline1382), то
displaymath1384
(Множества tex2html_wrap_inline1386 и tex2html_wrap_inline1388 называются, соответственно, супер- и субдифференциалами функции tex2html_wrap_inline1390 в точке tex2html_wrap_inline1392, а их элементы - супер- и субградиентами).

Определение 4.1. Непрерывная на множестве tex2html_wrap_inline1370 функция tex2html_wrap_inline1390 называется вязким верхним (нижним) решением уравнения tex2html_wrap_inline1395, если
equation297

equation300
функция tex2html_wrap_inline1376 удовлетворяющая одновременно tex2html_wrap_inline1399 и tex2html_wrap_inline1401, называется вязким решением tex2html_wrap_inline1403.

Теорема 4.1. Пусть выполнены условия (А) и (Б). Тогда

tex2html_wrap_inline1412 функция цены V есть единственное вязкое решение на множестве tex2html_wrap_inline1370 уравнения tex2html_wrap_inline1415;

tex2html_wrap_inline1420 V удовлетворяет краевым условиям tex2html_wrap_inline1421 и tex2html_wrap_inline1423.

Доказательство. Покажем сначала, что V - нижнее решение. Пусть tex2html_wrap_inline1430 tex2html_wrap_inline1432 и tex2html_wrap_inline1434 т.е., существуют число tex2html_wrap_inline1436 и непрерывная на tex2html_wrap_inline1438 функция tex2html_wrap_inline1148 tex2html_wrap_inline1442 такие, что
displaymath1444
для всех tex2html_wrap_inline1446 Ясно, что функция F(y) дифференцируема в точке tex2html_wrap_inline1450 и tex2html_wrap_inline1452

Из второго равенства метода динамического программирования мы имеем для всех tex2html_wrap_inline1454 tex2html_wrap_inline1456
displaymath1458
Перенесем tex2html_wrap_inline1460 в правую часть неравенства, разделим обе части на tex2html_wrap_inline1462 и устремим tex2html_wrap_inline1296 к нулю. Нетрудно убедиться в том, что tex2html_wrap_inline1466 при tex2html_wrap_inline1468 для всех tex2html_wrap_inline1470 В силу дифференцируемости функции F в точке tex2html_wrap_inline1474 получаем:
displaymath1476

displaymath1478

Осталось показать, что tex2html_wrap_inline1480 Пусть tex2html_wrap_inline1482 на tex2html_wrap_inline1484. Из (3.1) для любого tex2html_wrap_inline1486 мы имеем:
eqnarray317
Заметим, что для подобных управлений tex2html_wrap_inline1250 траектория tex2html_wrap_inline966 есть решение задачи Коши
displaymath1492
Разделим неравенство (4.4) на s и устремим s к нулю, получая
displaymath1498
что и требовалось доказать.

Остается проверить, что V - верхнее решение уравнения (4.1). Пусть tex2html_wrap_inline1502 tex2html_wrap_inline1504 и пусть tex2html_wrap_inline1506 т.е., существуют число tex2html_wrap_inline1436 и непрерывная на tex2html_wrap_inline1438 функция tex2html_wrap_inline1148 tex2html_wrap_inline1442 такие, что
displaymath1516
для всех tex2html_wrap_inline1446 Требуется доказать, что либо tex2html_wrap_inline1520 либо tex2html_wrap_inline1522

Из (3.2) мы имеем:
displaymath1524
для некоторых tex2html_wrap_inline1526 Допустим, tex2html_wrap_inline1528 т.е. импульсное управление оптимально. Пользуясь следствием 1 из Леммы 3.1, получаем для всех tex2html_wrap_inline1530
displaymath1532
Следовательно,
displaymath1534
Как и раньше, разделим на tex2html_wrap_inline1296 и в пределе при tex2html_wrap_inline1468 получим:
displaymath1540

displaymath1542

displaymath1478

Используя обратный ход рассуждений, из неравенства
equation333
получаем
displaymath1546
для всех tex2html_wrap_inline1548 Иными словами, оптимальное управление непрерывно на интервале tex2html_wrap_inline1550 для некоторого tex2html_wrap_inline1552

Покажем, что если справедливо (4.5), то
displaymath1554
Предположим противное, т.е.
equation338
Пусть tex2html_wrap_inline1556 tex2html_wrap_inline1250 - оптимальное непрерывное на tex2html_wrap_inline1560 управление; введем обозначение tex2html_wrap_inline1562 и рассмотрим разность tex2html_wrap_inline1564 Согласно (4.6) и свойствам интеграла Лебега-Стилтьеса [4], справедливо следующее:
displaymath1566

displaymath1568
Введем обозначения: пусть
displaymath1570
и
displaymath1572
Рассмотрим интеграл
displaymath1574
Разобьем интервал tex2html_wrap_inline1560 на подинтервалы tex2html_wrap_inline1578 так, чтобы на каждом из указанных подинтервалов tex2html_wrap_inline1580 все компоненты tex2html_wrap_inline1582 tex2html_wrap_inline1584 вектор-функции tex2html_wrap_inline1586 были монотонны. Тогда для всех tex2html_wrap_inline1588 мы имеем:
displaymath1590
где tex2html_wrap_inline1592 если tex2html_wrap_inline1582 не убывает на tex2html_wrap_inline1580 (tex2html_wrap_inline1598 если tex2html_wrap_inline1582 не возрастает на tex2html_wrap_inline1580), и tex2html_wrap_inline1604

Справедливо следующее равенство:
displaymath1606
где tex2html_wrap_inline1608 - некоторая непрерывная функция, причем tex2html_wrap_inline1610 для всех tex2html_wrap_inline1612

Положим tex2html_wrap_inline1614 Тогда
displaymath1616
Следовательно,
eqnarray404
Нетрудно проверить, что обе суммы в (4.7) неотрицательны. Таким образом,
displaymath1618

displaymath1620
Поскольку tex2html_wrap_inline1622 то
displaymath1624

displaymath1626
Данное неравенство противоречит оптимальности управления tex2html_wrap_inline1250 на tex2html_wrap_inline1630 т.е. tex2html_wrap_inline1520 что и требовалось доказать.

Остается отметить, что уравнение (4.1) удовлетворяет требованиям теорем единственности решения уравнения Гамильтона-Якоби (см., например, [5], [6], [8]).

Теорема доказана.

Предложение 4.1. Уравнение tex2html_wrap_inline1631 эквивалентно в смысле теории вязких решений уравнению
equation431
где
displaymath1636

Доказательство. Далее будем пользоваться эквивалентным определением вязкого решения, использующим приближение с помощью гладких функций (см., например, [7], [9]).

Пусть функция V - вязкое решение (4.1) на множестве tex2html_wrap_inline1370. Очевидно, что в этом случае V является нижним решением для (4.8) на tex2html_wrap_inline1370. Остается проверить, что V есть верхнее решение (4.8). Итак, пусть функция tex2html_wrap_inline1648 - гладкая и tex2html_wrap_inline1650 достигает локального минимума, равного нулю, в точке tex2html_wrap_inline1652 Тогда по определению вязкого решения,
displaymath1654
где
displaymath1656

displaymath1658
Если tex2html_wrap_inline1660 то tex2html_wrap_inline1662 Значит, по определению гамильтониана tex2html_wrap_inline1664 V - верхнее решение в точке tex2html_wrap_inline1668 уравнения (4.8). С другой стороны, пусть tex2html_wrap_inline1670 Тогда исходя из (4.8), мы имеем: tex2html_wrap_inline1672 Следовательно, V - вязкое верхнее решение (4.8) на всем множестве tex2html_wrap_inline1676

Тот факт, что вязкое решение (4.8) является вязким решением (4.1), доказывается аналогично.

Поскольку решения V и W уравнений (4.1) и (4.8) единственны на множестве tex2html_wrap_inline1682 они тождественно совпадают в этой области.

Предложение 4.1 доказано.

Следствие 1. Помимо tex2html_wrap_inline1681 и tex2html_wrap_inline1683, функция цены V удовлетворяет в смысле теории вязких решений уравнению
equation459
где tex2html_wrap_inline1690 и tex2html_wrap_inline1692

Уравнение (4.9) подробно изучалось в работе [9].

Замечание. Уравнения (4.1), (4.8) и (4.9) позволяют в некоторых случаях судить об оптимальности того или иного управления. Допустим W(y)=W(t,x,v,k) - произвольное вязкое решение уравнения Гамильтона-Якоби на множестве tex2html_wrap_inline1370, удовлетворяющее краевому и граничному условиям (2.7) и (2.8).

a) Пусть tex2html_wrap_inline1698 - точка дифференцируемости функции W(y). Если tex2html_wrap_inline1702 то постоянное управление оптимально на некотором интервале tex2html_wrap_inline1704 s>0. Если tex2html_wrap_inline1708 то скачок управления в момент tex2html_wrap_inline1710 является оптимальным.

б) Пусть tex2html_wrap_inline1698 - точка субдифференцируемости функции W(y), tex2html_wrap_inline1716 - субградиент. Если tex2html_wrap_inline1520 то постоянное управление является оптимальным на некотором интервале tex2html_wrap_inline1704 s>0; если tex2html_wrap_inline1724 то импульсное управление оптимально.

в) Наконец, пусть tex2html_wrap_inline1698 - точка супердифференцируемости функции W(y), и tex2html_wrap_inline1716 - суперградиент. Тогда можно судить о неоптимальности импульсного и постоянного управлений (соответственно, при tex2html_wrap_inline1732 и tex2html_wrap_inline1734)

Более детально связь между решением уравнения Гамильтона-Якоби (4.9) и оптимальностью данного конкретного управления рассматривается в работе [9].

Присутствие бесконечности в уравнении (4.8) объясняется скачками управления: мгновенное изменение влечет бесконечную производную по времени.


next up previous
Next: Пример Up: УРАВНЕНИЕ ГАМИЛЬТОНА-ЯКОБИ (БЕЛЛМАНА) В Previous: Метод динамического программирования