Том 6 N 1 2000
А.И.Субботин родился 16 февраля 1945 г. в городе Кирове в семье военнослужащего. В 1962 г. он поступил на математико-механический факультет Уральского государственного университета, где и началась его научная деятельность. В то время на факультете работали крупные ученые старшего поколения профессора В.К.Иванов, П.Г.Конторович, С.Н.Шиманов. Благотворная обстановка на факультете способствовала развитию научного творчества. На факультете создавались новые кафедры и развивались новые научные направления, отвечающие потребностям времени. Так, в 1965 году профессором Н.Н.Красовским была создана новая кафедра прикладной математики. На кафедре сформировался коллектив успешно работающих молодых ученых - в основном, выпускников университета. В их числе - Э.Г.Альбрехт, А.Б.Куржанский, Ю.С.Осипов, В.Е.Третьяков, Г.С.Шелементьев.
Научные приоритеты кафедры определялись, прежде всего, ее заведующим - Н.Н.Красовским и лежали в области теории устойчивости движения, качественной теории дифференциальных уравнений, в том числе дифференциальных уравнений с последействием, теории стабилизации и теории оптимального управления. Работы коллектива кафедры были хорошо известны и высоко оценивались в научных кругах. Эти работы составили солидную базу для новых исследований.
Отметим, что 50-е и 60-е годы ознаменовались интенсивным развитием естественных и прикладных наук. В эти годы формируются основы математической теории оптимального управления: создаются такие мощные методы как принцип максимума Л.С.Понтрягина [1*] и метод динамического программирования Р.Беллмана [2*], влияние которых на выбор приоритетных направлений кафедры прикладной математики было весьма сильным. К этому времени на кафедре уже сложилось ясное понимание задач программного управления, управления по принципу обратной связи, стохастических задач управления и задач управления системами с запаздыванием. В том числе, стало ясным понимание различных задач, приводящих к постановкам линейно-квадратичных игр.
На кафедре развивались и свои собственные концепции в теории управления. Так, Н.Н.Красовский предложил оригинальный подход к решению задач оптимального управления, основанный на идеях и методах функционального анализа [3*-6*]. В рамках созданной им теории управления линейными системами были получены эффективные условия существования решений и выявлено экстремальное свойство сопряженной системы принципа максимума Л.С. Понтрягина, что открыло прямой выход к методам математического программирования и выпуклого анализа. Важную роль в становлении математической теории управления и подготовке специалистов сыграла монография Н.Н.Красовского "Теория управления движением", 1968 [7*]. Исследования в этом направлении были продолжены А.Б.Куржанским, Ю.С.Осиповым и их сотрудниками в работах [8*-16*], посвященных изучению задач управления и наблюдения в линейных системах.
В ходе исследований возникали постановки новых задач, в решении которых могли бы попробовать свои силы и одаренные студенты. Несомненно, А.И.Субботин был одним из таких студентов. Его способности были замечены практически сразу, с первых дней его учебы на математико-механическом факультете. Андрей выделялся среди студентов ясностью и быстротой мышления, умением говорить просто и понятно о сложных математических фактах. Он обладал редким даром проникать в суть предметов и явлений. Уже в первые годы учебы Андрей пользовался уважением преподавателей и студентов. Талантливый студент был привлечен Э.Г.Альбрехтом, в ту пору преподавателем кафедры прикладной математики университета, к научной работе. Под его руководством А.И. Субботин писал курсовую работу, посвященную построению оптимальных управлений в квазилинейных системах. По результатам этой работы А.И. Субботиным была затем опубликована первая его научная статья "Об управлении движением квазилинейной системы" в журнале "Дифференциальные уравнения", 1967, т. 3 N7 [1]. Э.Г.Альбрехт предложил А.И.Субботину включиться в научно-исследовательскую работу кафедры прикладной математики.
В это время основные интересы кафедры концентрировались уже вокруг новых задач конфликтного управления и управления в условиях неопределенности, формализуемых как дифференциальные игры. В этой мало разработанной области проявилась способность Андрея Измайловича не только быстро воспринимать существо проблем, но и особый дар идти к их решению собственными новыми путями.
Теория дифференциальных игр возникла в результате математической идеализации новых задач техники, экономики, радиоэлектроники, биологии [17*-36*]. В этих задачах, наряду с управлением, воздействующим на управляемую систему, присутствуют факторы, которые вносят неопределенность в ее поведение. Очень часто бывает удобно трактовать эти факторы как помехи, действующие на систему. Очень часто известны только границы, в которых заключены эти помехи. Например, в задаче о посадке самолета при наличии ветровых помех, как правило, можно указать граничные значения для скоростей ветра; эти значения определяются специфическими условиями атмосферы. В некоторых задачах, таких, например, как дуэль двух самолетов, роль возмущений играют управляющие воздействия противника. При формализации подобных задач является важным предположение о характере информированности игроков относительно текущей игровой ситуации. Существуют несколько подходов к тому, какие предположения следует накладывать на характер информированности игроков. Остановимся подробнее на том подходе, который развивался в Свердловске Н.Н.Красовским и его сотрудниками. Н.Н. Красовскому представлялось вполне естественным при формализации дифференциальных игр ограничить информированность игроков знанием позиции, сложившейся к настоящему моменту времени. При такой формализации дифференциальных игр во главу ставилось понятие позиционного управления - управления по принципу обратной связи.
В середине 60-х годов Н.Н.Красовский сформулировал правило
экстремального прицеливания, сыгравшее важную роль в формировании
позиционного подхода в дифференциальных играх. Концепция позиционной
дифференциальной игры и правило экстремального прицеливания были подробно
изложены в работах [21*, 22*, 37*-39*] и монографии
Н.Н.Красовского "Игровые
задачи о встрече движений", 1970 [41*]. Правило экстремального прицеливания
реализует переход от задач программного управления к задаче позиционного
управления в минимаксной постановке. Прямое сведение последней к чисто
программным конструкциям не всегда правомерно, поэтому одной из
центральных задач того времени стало выяснение условий, при которых это
сведение возможно - так называемых условий регулярности.
Первые исследования А.И.Субботина в этом новом направлении - теории позиционных дифференциальных игр - были посвящены изучению дифференцальных игр при наличии условий регулярности [2-13]. Часть из них [4, 5, 8, 9, 11, 13] выполнена совместно с Н.Н.Красовским. В [2-4, 6-7, 10] была рассмотрена популярная в то время задача об игровой встрече линейных однотипных объектов, изучены вопросы построения оптимальных позиционных стратегий на основе правила экстремального прицеливания или его регуляризации. В [4] был предложен оригинальный подход к построению управления, обеспечивающего оптимальное уклонение в задаче об игровой встрече движений с геометрическими ограничениями на управления. Оптимальное управление определялось из условия невозрастания вдоль движений системы некоторого интеграла, играющего роль своеобразного функционала Ляпунова. В работах [8, 11, 12] были изучены нелинейные дифферециальные игры в предположении стабильности множеств программного поглощения. Здесь правило экстремального прицеливания формулировалось как правило прицеливания на стабильную систему множеств программного поглощения.
В 1969 году Н.Н.Красовский предложил А.И.Субботину представить
результаты совместных исследований в позиционных дифференциальных играх
на семинаре академика Л.С.Понтрягина, одного из создателей теории
оптимального управления. Доклад, сделанный А.И.Субботиным, произвел на
Льва Семеновича, по словам участников семинара, сильное впечатление. После
доклада состоялась продолжительная беседа
Л.С.Понтрягина с Н.Н.Красовским и
А.И.Субботиным. Высокая оценка им научных результатов, представленных в
докладе, означала признание научного направления, складывающегося в теории
дифференциальных игр. Андрей Измайлович тепло вспоминал об этой
встрече. Для него эта встреча и высокая оценка знаменитого математика были
важным моральным стимулом к дальнейшим исследованиям.
В 1969 году А.И.Субботин защищает кандидатскую диссертацию "Задачи о встрече и уклонении в дифференциальных играх" [6], в которой были подведены итоги первого этапа его исследований в области теории позиционных дифференциальных игр. В том же году группа сотрудников кафедры прикладной математики Уральского государственного университета, в том числе и А.И.Субботин, была переведена в Свердловское отделение математического института им. В.А.Стеклова (с 1971 года - Институт математики и механики). Институт стал основным местом работы А.И.Субботина после окончания им университета.
В 70-е годы А.И.Субботин продолжает исследования в области дифференциальных игр. Н.Н.Красовский привлекает его для разработки теоретических конструкций в позиционных дифференциальных играх при более общих предположениях, уже не требующих выполнения условий регулярности. Так, в работах [11, 15, 16, 17], посвященных выявлению структуры дифференциальных игр, учтены наиболее существенные особенности прикладных задач динамики, в которых разрешающее управление строится по принципу обратной связи. При математической формализации этих задач было важно определить класс позиционных процедур управления, который неулучшаем с точки зрения достижения оптимального гарантированного результата, и, кроме того, допускает физическую реализацию. В этом классе надлежало затем найти оптимальный закон управления, который весьма часто оказывался нерегулярным (разрывным). Потребовалось разработать принципиально новый подход при определении движений, порожденных управлениями, действующими по принципу обратной связи. Были введены аппроксимационные стратегии и предложены аппроксимационные схемы, удобные для физической реализации и допускающие переход к математическим конструкциям, содержащим элементы идеализации [11, 15, 16, 17]. Формирование движений в соответствии с этими схемами основывается на использовании информации о фазовом векторе управляемой системы в дискретные моменты времени. Это соответствует естественной логике применения цифровых вычислительных устройств в контуре обратной связи, что типично для многих задач управления техническими системами. При таком подходе отпадает необходимость налагать на управления, действующие по принципу обратной связи, ограничительное условие непрерывной зависимости от позиции. В рамках данного подхода Н.Н.Красовским и А.И.Субботиным был рассмотрен широкий круг нелинейных дифференциальных игр при общих предположениях на управляемую систему. Так, в [15, 16, 17] для дифференциальных игр наведения, не удовлетворяющих так называемому условию седловой точки в маленькой игре (условие Айзекса), был предложен класс обобщенных стратегий игроков, и было доказано существование в этом классе стратегий, доставляющих ситуации типа седловой точки.
При разработке теоретической базы позиционных дифференциальных игр в работе А.И.Субботина и Н.Н.Субботиной [14] был установлен следующий принципиальный факт: при реализации непрерывных позиционных стратегий информация игроками используется, как правило, не лучшим образом, и достигаемый в этом классе результат может быть улучшен, вообще говоря, в классе разрывных позиционных стратегий. Позже, в [18], ими было показано, что классическое определение движений через контингенции недостаточно для построения формализации, обеспечивающей достижение наилучшего гарантированного результата.
Так зарождалось новое направление в теории позиционных дифференциальных игр, ориентированное на решение задач в общей постановке. Центральным пунктом здесь является предложенный Н.Н.Красовским принцип конструирования стратегий, обеспечивающих в каждой позиции экстремальный сдвиг управляемой системы на стабильный мост, представляющий собой множество в пространстве позиций, ведущее к цели. Выбор управления в соответствии с этим принципом обеспечивает близость к мосту движений, начинающихся вблизи моста. Предложенный принцип формирования позиционных стратегий и движений, выводящий из класса непрерывных стратегий кардинально отличается от подходов, применявшихся до этого в дифференциальных играх. В рамках конструкций, основанных на принципах экстремального сдвига на стабильный мост, Н.Н.Красовский и А.И.Субботин получили ряд важных теоретических результатов. Применение этих конструкций позволило им доказать ключевое для теории дифференциальных игр утверждение - теорему об альтернативе и, тем самым, установить существование равновесных решений в соответствующих классах позиционных стратегий.
Направление исследований, которое объединяет экстремальное прицеливание и экстремальный сдвиг, было названо авторами экстремальным подходом.
В дополнение к исследованиям по дифференциальным играм, в которых характер информированности обоих игроков о состоянии системы - чисто позиционный, А.И.Субботиным с соавторами в работах [20, 21, 37, 40] был изучен ряд игровых задач управления при иных информационных предположениях. Общим для этих работ является то, что они группируются вокруг экстремального подхода. Охарактеризуем эти работы несколько подробнее.
В 1971 году в журнале "Прикладная математика и механика" была
опубликована статья Н.Н.Красовского [42*], посвященная минимаксному
поглощению в играх сближения. В ней рассматривалась конфликтно-
управляемая
система без традиционного предположения о существовании седловой точки в так
называемой маленькой игре. В предложенной формализации игры не
исключалось, что выбор значения второго игрока может опираться на
информацию о значении управления первого игрока. Тем самым, к
управлению второго игрока допускались функции - контр-управления. В
статье было дано обоснование правила минимаксного прицеливания первого
игрока в регулярном случае. Для обоснования этого правила были введены
функции ,
экстремальные на направлениях ( - векторы сопряженного
пространства). Введение этих функций явилось, на наш взгляд, той точкой
отсчета, с которой начинается развитие методов унификации в
дифференциальных играх. Вслед за этим в статье [20] была рассмотрена игровая
задача сближения-уклонения при достаточно общих предположениях на систему.
Предполагалось, что стратегии первого игрока выбираются как позиционные
стратегии , а для второго игрока не исключалась возможность применения
контр-стратегий . Была доказана теорема об альтернативе в этой игре.
В начале 70-х годов А.И.Субботин изучает также позиционные дифференциальные игры, в которых платой является полунепрерывный (сверху или снизу) функционал, вычисляемый на движениях управляемой системы [21]. В предположении, что игроки обладают полной памятью о фазовых состояниях системы, описаны конструкции, с помощью которых обосновывается существование оптимальных стратегий игроков.
Еще одну группу работ составляют исследования А.И.Субботина по дифференциальным играм с неполной информацией. Так, в работе [37] рассмотрена задача о приведении управляемой системы на целевое множество в предположении, что фазовые состояния измеряются неточно. В работе дано описание процедуры управления с поводырем на основе информационных областей, определяемых в форме параллелепипеда. Сформулированы условия разрешимости задач об управлении. В другой работе [40] А.И.Субботин изучает игровую задачу преследования в условиях неполной информации о преследуемой системе. Получены альтернативные условия разрешимости задачи.
К середине 70-х годов А.И.Субботин сформировался как ученый, был уже хорошо известен в нашей стране и за рубежом. В 1973 году он защитил докторскую диссертацию "Экстремальные стратегии в дифференциальных играх" [25]. Диссертация содержит основные результаты, полученные А.И.Субботиным в рамках экстремального подхода. В ней рассмотрены различные игровые задачи динамики, для которых доказана теорема об альтернативе. Показано, что предлагаемая в рамках экстремального подхода формализация является полной в том смысле, что любой способ поведения игрока (даже при расширении его информационных возможностей) не может обеспечить ему результат лучше, чем результат, который гарантирован стратегией, оптимальной в рамках избранной формализации. В диссертации рассмотрены задачи как в предположении о наличии седловой точки в маленькой игре, так и без этого предположения. Во втором случае доказаны соответствующие альтернативные условия разрешимости в классах смешанных стратегий игроков. Также рассмотрены стохастические процедуры, аппроксимирующие смешанные стратегии и доказана теорема об альтернативе для этих стохастических процедур.
В 1973 году А.И.Субботин становится лауреатом Золотой медали АН СССР для молодых ученых. К этому времени он приобретает большой опыт в руководстве научной молодежью; руководит работой аспирантов и молодых научных сотрудников. В 1974 году Андрей Измайлович был приглашенным лектором на Международный конгресс математиков, Ванкувер, Канада, на секцию "Control Theory and Related Optimization Problems" с докладом "Управление в условиях конфликта и неопределенности" [29]
Наиболее существенные результаты исследований Н.Н.Красовского и А.И.Субботина составили монографию "Позиционные дифференциальные игры", опубликованную в 1974 году [30]. В монографии было дано подробное изложение концепции позиционных дифференциальных игр, предложенной Н.Н.Красовским, в частности - экстремального подхода. Было дано описание основных прикладных задач, ставших источником возникновения теории; предложена строгая математическая модель позиционных дифференциальных игр, а также метод исследования этих игр, базирующийся на понятии стабильных мостов и функций. Понятия стабильных мостов и функций оказались удобным средством, позволяющим привлекать разнообразный математический аппарат для исследования игровых задач динамики. Была изучена общая структура оптимальных решений и проведен качественный анализ этих решений (корректность, устойчивость и т.д.). В целях регуляризации неустойчивых решений дифференциальных игр были сконструированы процедуры управления с поводырем. Была изучена связь предлагаемых позиционных конструкций с методом динамического программирования Р.Беллмана. Отличительной чертой теории позиционных игр, представленной в монографии, является ее конструктивный характер. Cотрудниками Н.Н.Красовского и А.И.Субботина на основе изложенной теории были разработаны вычислительные методы и алгоритмы решения задач управления с гарантированным результатом [43*-47*]. Монография стала важной вехой в развитии математической теории управления; задачи и проблемы, сформулированные в ней, стимулировали поиск новых конструкций и путей решения игровых задач управления. Впоследствии существенно переработанный и дополненный новыми результатами вариант "Game-theoretical control problems", 1988 [67], монографии был издан за рубежом.
Отметим, что предложенный Н.Н.Красовским и А.И.Субботиным в [27] и подробно описанный в монографии "Позиционные дифференциальные игры" способ формирования устойчивых по отношению к помехам разрешающих позиционных процедур - процедур управления с поводырем, вызвал серию публикаций [33-37, 46, 48*, 49*], в которых устанавливалось существование ситуации равновесия в различных дифференциальных играх в классах процедур управления с поводырем. Cпособ формирования управления в виде процедур управления с поводырем оказался наиболее удобным с точки зрения его реализации при моделировании на ЭВМ конкретных дифференциальных игр.
В середине 70-х годов в теории дифференциальных игр зарождается новое направление - унификация дифференциальных игр. Здесь, прежде всего, следует отметить исследования Н.Н.Красовского [50*, 51*], в которых было дано определение унификационных моделей, изучены их свойства и указаны перспективы применения в различных классах дифференциальных игр. Суть унификации состоит в том, что ключевое в позиционных дифференциальных играх свойство стабильности может быть выражено в терминах векторов сопряженных переменных и гамильтониана управляемой системы. В дальнейшем исследования в этом направлении были продолжены в отделе динамических систем Института математики и механики УрО РАН [52*, 53*]. Следует отметить, что подобные исследования проводились и другими авторами [54*, 55*]. А.И.Субботин активно поддерживал эти исследования, хорошо понимая их важность: ставил задачи, указывал направления, в которых могла бы развиваться тематика унификации. Во многом благодаря его активному участию, эта тематика продолжается в Институте: созданы более общие схемы унификации, разработаны алгоритмы и программы построения решений дифференциальных игр на основе этих схем.
Важное значение А.И.Субботин придавал вопросам, связанным с описанием центральной для теории дифференциальных игр функции - цены дифференциальной игры. В случае, когда эта функция дифференцируема, она является решением основного в теории дифференциальных игр уравнения Айзекса-Беллмана, представляющего собой уравнение в частных производных первого порядка. В случае, когда цена не является дифференцируемой функцией, стоял важный вопрос о нахождении тех соотношений, которые являются определяющими для этой функции и имеют инфинитезимальный характер. Этот вопрос, давно обсуждавшийся в научных кругах, привлек в конце 70-х годов внимание А.И.Субботина и был изучен А.И.Субботиным и Н.Н.Субботиной сначала для игровых задач динамики, в которых цена игры есть кусочно-гладкая функция, а затем и для более общих задач. Статья [38] является одной из первых статей, посвященных выводу инфинитезимальных соотношений для кусочно-гладкой функции цены. В ней для игровых задач с терминальной платой было получено представление решения при помощи пары дифференциальных неравенств, позволяющее по-новому трактовать принцип оптимальности.
В работе А.И.Субботина "Обобщение основного уравнения теории
дифференциальных игр", Доклады АН СССР, т.254, N 2, 1980 [42] были получены
необходимые и достаточные условия, описывающие свойства стабильности
функции цены при помощи пары дифференциальных
неравенств для
производных по направлениям. С этой работы началось построение теории
минимаксных решений уравнений в частных производных. В [44, 50] этот подход
был распространен на более общие классы дифференциальных игр. В [44] был
введен в рассмотрение класс регулярных функций, включающий в себя
кусочно-гладкие функции.
В [50] определяющие цену дифференциальной игры инфинитезимальные соотношения были получены в форме неравенств, в которых участвует пара семейств дифференциальных включений. Параллельно с этим были рассмотрены нелинейные дифференциальные игры с интегрально-терминальной платой [51]. Описанию функции цены при помощи пары дифференциальных неравенств посвящены также работы [39, 54]. Итоги исследований А.И.Субботина свойств функции цены дифференциальных игр подведены в большой статье "Условия оптимальности гарантированного результата в игровых задачах управления", помещенной в сборнике трудов МИАН СССР, том 167, 1985, посвященном академику Л.С.Понтрягину к его 75-летию (см. [61]).
В тесной связи с упомянутыми исследованиями находятся работы [49, 52, 60], посвященные вопросу обоснования метода динамического программирования в задачах оптимального управления. Так, в работах [49, 52] исследуются необходимые и достаточные условия, которым удовлетворяет функция оптимального результата в задаче управления с терминальной платой. Базой этих условий является обобщенная форма уравнения Беллмана, в которой вместо обычных производных используются производные по направлениям. Это обобщенное уравнение получено как следствие соответствующих результатов в теории дифференциальных игр [42], а также результатов из [59*, 60*].
Отметим также исследования в [58] необходимых и достаточных условий для цены стохастической дифференциальной игры с частично вырожденным шумом.
Результаты исследования А.И.Субботина, посвященные изучению
структуры позиционных дифференциальных игр и обобщению основного
уравнения теории дифференциальных игр, отражены в первых трех главах
монографии А.И.Субботина, А.Г.Ченцова "Оптимизация гарантии в задачах
управления", 1981 [43].
Продолжением исследований [38, 42-44] по обобщению основного
уравнения теории дифференциальных игр стали работы А.И.Субботина,
Х.Г.Гусейнова и В.Н.Ушакова [56, 59], выполненные в первой половине 80-х
годов. В этих работах предложено новое определение стабильного моста,
представляющего собой множество Лебега функции цены дифференциальной
игры. Определяющие стабильный мост соотношения выражены в терминах
конусов Булигана для многозначных отображений, в которых аргумент - время, а
значения - соответствующие сечения моста. В этих соотношениях со стороны
управляемой системы присутствуют лишь полупространства, определяемые
гамильтонианом системы. В этих работах было достигнуто полезное сочетание
унификационных (связанных с гамильтонианом) и инфинитезимальных
конструкций.
Эти конструкции были применены позже
при исследовании уравнений Гамильтона-Якоби.
Обзор исследований А.И.Субботина, посвященных поиску обобщений
основного уравнения теории дифференциальных игр показывает,
что он своевременно
оценил целесообразность использования конструкций негладкого и выпуклого
анализа и внес, в свою очередь, весомый вклад в разработку такого рода
конструкций. Позже они были применены
А.И.Субботиным при исследовании
уравнений в частных производных первого порядка и более общих классов
уравнений в частных производных.
В 50-70-е годы проблемой построения решений уравнений в частных
производных первого порядка занимались многие отечественные и зарубежные
математики. А.И.Субботин интересовался прежде всего проблемой построения
решений уравнений Гамильтона-Якоби, поскольку к уравнениям этого типа
относится основное уравнение теории дифференциальных игр. Среди
исследователей, занимавшихся проблемой построения решений уравнений в
частных производных первого порядка,
А.И.Субботин выделял
С.Н.Кружкова [61*, 62*], влияние которого сказалось на последующих
исследованиях обобщенных решений уравнений в частных производных первого
порядка. А.И.Субботин внимательно следил за работами В.П.Маслова и его
сотрудников, исследующих уравнения Гамильтона-Якоби-Беллмана методами
идемпотентного анализа [63*-66*].
В середине 80-х годов научные интересы А.И.Субботина смещаются в сторону теории обобщенных решений уравнений Гамильтона-Якоби общего вида. К этому времени в дифференциальных играх им был накоплен значительный опыт в исследовании функции цены игры, являющейся обобщенным решением основного уравнения теории дифференциальных игр. Этот опыт состоял в том, что, с одной стороны, был выделен необходимый набор инфинитезимальных конструкций для описания функции цены и ее свойств, с другой стороны, было установлено, что в определяющих цену соотношениях управляемая система может быть представлена исключительно своим гамильтонианом. Наконец, на основе инфинитезимальных и унификационных конструкций А.И.Субботин предложил понятие обобщенных решений уравнений Гамильтона-Якоби-Беллмана-Айзекса, которое позволило ему рассмотреть функцию цены как такое решение и доказать существование и единственность функции цены при общих предположениях на управляемую систему.
Таким образом, в середине 80-х годов А.И.Субботин располагал необходимым набором средств для эффективного исследования уравнений Га-ильтона-Якоби, на которые он распространяет свой подход к определению функции цены игры. Для этих уравнений им введено обобщенное (негладкое) решение. Приоритетным в этом определении обобщенного решения является привлечение понятия инвариантности. Обобщенное решение определяется с помощью пары дифференциальных неравенств, заменяющих уравнение Гамильтона-Якоби в точках недифференцируемости решений. Эти обобщенные решения А.И.Субботин назвал минимаксными, так как операции минимума и максимума являются характерными в их определении. В работах А.И.Субботина, А.М.Тарасьева [55, 57, 63] пара дифференциальных неравенств определяется через введенное авторами понятие сопряженных производных. Доказаны теоремы единственности и существования непрерывных минимаксных решений задач Коши для уравнения Гамильтона-Якоби. Доказательство единственности опирается на метод функций Ляпунова. Прототипом доказательства существования решения является схема доказательства теоремы об альтернативе из теории дифференциальных игр.
В первой половине 80-х годов были опубликованы статьи
М.Дж.Крэндалла, П.-Л.Лионса [67*] и М.Дж.Крэндалла, Л.С.Эванса,
П.-Л.Лионса[68*],
в которых был предложен другой подход
к определению обобщенных решений
краевых задач для уравнений Гамильтона-Якоби общего вида.
Понятие решения было
введено путем замены уравнения парой дифференциальных неравенств для
субградиентов и суперградиентов. Для доказательства теорем существования
введенных таким путем решений был использован метод исчезающей вязкости, и,
в связи с этим, решения получили названия вязкостных решений. Этот подход к
исследованию уравнений Гамильтона-Якоби имеет в своей основе конструкции
классического анализа и математической физики.
Остановимся на сопоставлении понятий минимаксного и вязкостного решений.
Определения минимаксного и вязкостного решений отличаются по форме друг от друга, и эквивалентность их была неочевидна. Сначала эквивалентность этих определений была установлена через совпадение минимаксного и вязкостного решений уравнения Айзекса-Беллмана с функцией цены, соответствующей задаче оптимального гарантированного управления [42, 55-57, 63, 68*]. Затем было получено прямое доказательство эквивалентности минимаксных и вязкостных решений [81, 87]. В этом доказательстве А.И.Субботиным [81, 91] было использовано свойство субдифференциала негладкой функции, а, следовательно, нормалей к ее множествам Лебега, близкое свойству инвариантных множеств, полученному В.Н.Ушаковым в [56].
Отметим, что минимаксный и вязкостный подходы удачно дополняют друг друга, привлекая к изучению проблемы обобщенных решений уравнений Гамильтона-Якоби широкий набор средств из классического и негладкого анализа.
Исследованию минимаксных решений уравнений Гамильтона-Якоби посвящены также работы [68-73].
Итоги исследований по теории минимаксных решений уравнений Гамилтона-Якоби в 80-х годах были подведены А.И.Субботиным в его монографии "Минимаксные неравенства и уравнения Гамильтона-Якоби", 1991 [74]. Монография содержит подробное изложение минимаксного подхода в теории обобщенных решений уравнений Гамильтона-Якоби. В ней, в частности, содержится обоснование перехода от уравнения Гамильтона-Якоби к дифференциальным неравенствам, доказаны теоремы существования, единственности и корректности минимаксных решений, изучены их свойства. Аппарат дифференциальных неравенств применен для решения задач теории дифференциальных игр и исследования различных вопросов теории оптимального управления и дифференциальных включений. Значительное внимание в монографии уделено сопоставлению минимаксных и вязкостных решений уравнений Гамильтона-Якоби и обоснованию их эквивалентности. Последняя глава монографии посвящена вопросам вычисления минимаксных решений: рассмотрена локальная аппроксимация обобщенных решений кусочно-линейными функциями, разработан вычислительный алгоритм такой аппроксимации. Исследования этой главы получили продолжение в работах [79, 82].
А.И.Субботин уделял много внимания разработке методов вычисления минимаксных решений. По его инициативе в Институте математики и механики УрО РАН была начата разработка численных методов построения минимаксных решений на основе попятных пошаговых процедур. При этом применялись различные формы реализации попятных процедур [69*-75*]. Одни методы основаны на применении на каждом шаге итерации операций объединения и пересечения многогранников, другие, сеточные методы, - на применении операторов локального овыпукления и локальной линеаризации. В свою очередь, в теории вязкостных решений М.Дж.Крэндаллом, П.-Л.Лионсом и П.Е.Соуганидисом были рассмотрены явные и неявные схемы приближенного вычисления решений с конечно-разностным оператором Лакса-Фридрихса, предложен общий метод обоснования сходимости и указаны оценки сходимости [76*, 77*]. Вычислительным аспектам построения решений уравнений Гамильтона-Якоби посвящены также работы I.Capuzzo-Dolcetta [78*], S.Osher, Shu C.-W. [79*], M.Bardi, M.Falcone [80*], M.Bardi, I.Capuzzo-Dolcetta [81*] и другие.
Для некоторых типов краевых задач в работах А.И.Субботина [91, 94] показана возможность построения минимаксных решений с помощью репрезентативных формул типа формулы Хопфа.
В середине 70-х годов А.Г.Ченцовым было установлено, что для широкого круга дифференциальных игр функция цены может быть представлена как предел итерационной последовательности функций программного максимина, отвечающих некоторой последовательности вспомогательных программных задач. Этот метод программных итераций был изложен в статьях А.Г.Ченцова [82*, 83*], а также в монографии А.И.Субботина, А.Г.Ченцова "Оптимизация гарантий в задачах управления" [43]. В 1997 году А.И.Субботин и А.Г.Ченцов применили метод итераций для построения минимаксных решений уравнений Гамильтона-Якоби в форме метода итераций в семействе надграфиков и подграфиков. Была обоснована сходимость последовательности множеств, получающихся в результате итераций, к минимаксному решению. Подробно результаты, полученные в этом направлении, опубликованы в работах [96, 104].
В настоящее время интерес к теории обобщенных решений уравнений Гамильтона-Якоби не угасает: ведутся теоретические исследования и развиваются методы приближенных вычислений. По этой тематике проводятся научные симпозиумы, растет число публикаций. Она привлекает к себе внимание все новых групп исследователей в нашей стране и за рубежом.
В первой половине 90-х годов теория минимаксных решений получила дальнейшее развитие в работах А.И.Субботина, его сотрудников и учеников. К исследованиям уравнений Гамильтона-Якоби добавились исследования, посвященные проблеме построения обобщенных (минимаксных) решений уравнений в частных производных первого порядка [75-87]. Результаты этих исследований А.И.Субботина отражены в его монографии "Generalized solutions of first-order PDEs. The dynamical optimization perspective", 1995 [91]. В этой монографии подробно представлена теория непрерывных и разрывных минимаксных решений уравнений в частных производных первого порядка. В нее включены результаты, относящиеся к вопросам существования и единственности минимаксного решения, подходы к численному моделированию, а также приложения к теории управления и дифференциальным играм. Исследование минимаксных решений уравнений в частных производных первого порядка опирается на методы негладкого анализа, функции Ляпунова, динамическую оптимизацию теорию дифференциальных игр. Во введении автор отмечает, что на уровне инфинитезимальных конструкций имеет место двойственность различных подходов к определению обобщенных решений уравнений в частных производных первого порядка, и определение минимаксного решения, таким образом, родственно идеям упомянутой выше двойственности, преобразованию Лежандра и некоторым конструкциям динамической оптимизации, введенным в публикациях Кларка, Флеминга, Красовского, Кротова и Рокафеллара. Из результатов, представленных в монографии и относящихся к теории дифференциальных игр, отметим построение субоптимальных стратегий.
Конструкции субоптимальных стратегий - субоптимальных управлений по принципу обратной связи - были развиты А.И.Субботиным [88, 91, 92] в дополнение предложенных Н.Н.Красовским конструкций экстремального сдвига. Эти стратегии являются универсальными в том смысле, что они гарантируют решение, близкое к оптимальному, для любого начального положения из заданной ограниченной области. Конструкции субоптимальных стратегий подобны известному определению оптимальной стратегии в рамках классического метода динамического программирования в случае, когда цена дифференциальной игры является гладкой. Отличие состоит в том, что градиент функци цены (который может не существовать) заменяется квазиградиентом. Для определения квазиградиента используются аппроксимации обобщенных (минимаксных и вязкостных) решений основного уравнения теории дифференциальных игр. Эти аппроксимациии типа регуляризаций Иосиды-Моро для выпуклых функций являются инфимальными конволюциями функции цены (обобщенного решения основного уравнения теории дифференциальных игр) и подходящих гладких штрафных функций.
В работе [88] рассмотрены субоптимальные стратегии в дифференциальных играх с фиксированным моментом окончания и функцоналом типа Больца.
В работе [92] конструкции субоптимальных стратегий модифицированы для задачи оптимального быстродействия, в которой функция цены разрывна. Предложенная модификация состоит в замене градиента функции оптимального быстродействия ее квазиградиентом, который определен с помощью квадратичной инфимальной конволюции Иосиды-Моро.
В работе [98] рассмотрена модификация субоптимальной стратегии, которая базируется на квадратичной инфимальной конволюции суперрешений (обобщенных верхних решений) уравнения Айзекса-Беллмана в задаче оптимального быстродействия. Стратегия конструируется с помощью прицеливания по проксимальным градиентам регуляризованныхверхних решений. Показано, что любое суперрешение можно использовать для построения такой позиционной стратегии и при этом гарантировать (с любой заданой точностью) попадание на целевое множество за время, не превосходящее значения суперрешения. Эта конструкция обладает свойством ``универсальности'', т.е. предлагаемая позиционная стратегия равномерно эффективна на компактном множестве начальных позиций.
Конструкции прицеливания по проксимальным градиентам регуляризации Иосиды-Моро для негладких функций Ляпунова оказались также эффективными при решении задач стабилизации ассимптотически управляемых нелинейных систем с помощью позиционных (не зависящих от времени) управлений по принципу обратной связи. В работе [97] приведена конструкция такой позиционной разрывной стратегии, итерационно переводящей траектории нелинейной автономной системы во все более малые и малые окрестности состояния равновесия. В этих исследованиях новым и существенным для теории стабилизации моментом было применение развитого в теории позиционных дифференциальных игр [30] понятия решения системы, управляемой разрывным позиционным управлением.
В работе [86] показано, что кусочно-гладкие минимаксные решения уравнений в частных производных первого порядка на каждом из подмногообразий гладкости являютя классическими решениями некоторых уравнений в частных производных первого порядка, построенных по исходному уравнению.
К числу последних относятся исследования А.И.Субботина уравнений с частными производными первого порядка, разывных по фазовым переменным, в которых предложена и развита концепция многозначного решения (М-решения). Понятие М-решения впервые было введено в работе [95]. Эта работа продолжает исследования разрывных решений, теория которых была построена в работах [68, 77, 78, 83, 90, 91, 94]. Ситуация, когда не существует непрерывного мииимаксного решения, является весьма распространенной в теории оптимального управления и дифференциальных игр. Так, например, она типична для краевой задачи для уравнения Айзекса-Беллмана, которая возникает при исследовании классической задачи оптимального быстродействия. В тех случаях, когда краевые задачи и задачи Коши для уравнений с частными производными первого порядка не удовлетворяют условиям, при которых непрерывные минимаксные решения существуют и единственны, введены понятия многозначных решений (гипорешений, эпирешений, М-решений). В работе [95] рассматривается краевая задача типа Дирихле для уравнений с частными производными первого порядка. В работе [101] в качестве иллюстрации применения понятия М-решения приведена задача Коши для уравнения Гамильтона-Якоби. В отличие от традиционных постановок, здесь не требуется, чтобы непрерывный гамильтониан удовлетворял условию Липшица по фазовой переменной или его модификациям. В дальнейшем, в работах [100, 105], теория М-решений была развита для уравнений с частными производными первого порядка, разрывных по фазовым переменным. В этом случае доказана теорема существования, изучены свойства М-решений и возможность применения к их исследованию аппарата теории минимаксных решений и теории вязкостных решений. Метод программных итераций, разработанный ранее для непрерывных минимаксных решений, оказался эффективным при построении многозначных М-решений.
В заключение отметим, что свою научную работу А.И.Субботин
успешно совмещал с исполнением должностных обязанностей.
В 1983 году
А.И.Субботин стал, по предложению Н.Н.Красовского, заведующим отделом
динамических систем Института математики и механики. Хотя
А.И.Субботин по
состоянию здоровья работал дома, он всегда был в курсе событий, происходящих
не только в отделе, но и в Институте. Он внимательно следил за научными
успехами своих сотрудников, многим из которых он формулировал научные
темы, а затем и руководил ими. Это руководство состояло в том, что Андрей
Измайлович регулярно встречался с сотрудником, обсуждал результаты его
работы;
затем оценивались итоги и намечался дальнейший план исследований.
Андрей Измайлович очень внимательно изучал работы, которые приносили ему
его сотрудники и ученики, а также работы, приходившие на рецензирование, в
том числе, диссертации и монографии. Нередко случалось, что при
рецензировании Андрей Измайлович обнаруживал существенные ошибки, но при
этом он всегда пытался найти способы исправить их.
Андрей Измайлович Субботин был руководителем известного многим математикам научного семинара по теории оптимального управления и дифференциальных игр. На этом семинаре, проходящем регулярно по средам, выступали не только сотрудники отдела и аспиранты, но и гости: сотрудники Института, ученые из других городов России, а также зарубежные ученые. Часто на квартире у Андрея Измайловича собирались друзья и коллеги для обсуждения различных проблем. На этих встречах обсуждались направления будущих исследований, состояние дел в Институте математики и механики и в Университете, прикладная тематика Института, вопросы науки и математического образования.
А.И.Субботин читал студентам математико-механического факультета спецкурсы по теории оптимального управления, дифференциальных игр и минимаксных решений уравнений в частных производных. Андрей Измайлович постоянно руководил аспирантами и активно работал с ними.
Итоги научно-исследовательской деятельности А.И.Субботина внушительны - более 100 статей и 5 монографий в области теории дифференциальных игр, уравнений Гамильтона-Якоби, оптимального управления. Его научные достижения получили широкое признание. Он - Лауреат Ленинской премии, 1976 г.; Кавалер Ордена Трудового Красного знамени, 1976 г.; член- корреспондент Российской Академии наук, 1991 г.; Действительный член Российской Академии наук, 1997 г.
Авторы сердечно благодарят Н.Н. Субботину за ее помощь в написании этой статьи и за предоставление копий работ А.И. Субботина, а также Н.Л. Пацко и В.С. Пацко за подготовку списка литературы.
В.Н.Ушаков, А.Г.Ченцов