Принцип Максимума Понтрягина

Работа из раздела: «Разное»

                 Постановка задачи оптимального управления.
Состояние объекта управления характеризуется n -мерной вектор функцией,
например, функцией времени[pic][pic]
Так, шестимерная вектор-функция времени полностью определяет положение
самолета как твердого тела в пространстве. Три координаты определяют
положение центра масс, а три - вращение вокруг центра масс.
От управляющего органа к объекту управления поступает вектор-функция [pic].
Векторы x' и u' , обычно связаны между собой каким-то соотношением.
Наиболее развитым в настоящее время является уравнение, в котором векторы
связаны системой обыкновенных дифференциальных уравнений.
И так, пусть движение управляемого объекта описывается системой
дифференциальных уравнений
                                 [pic](1.1)
где [pic]- вектор координат объекта или фазовых координат,

[pic]- заданная вектор-функция, [pic]- вектор управлений или просто
управление.
В уравнении (1.1) векторы [pic]являются функциями переменной t,
обозначающей время, причем[pic], где[pic] - отрезок времени, на котором
происходит управление системой.

На управление обычно накладывается условие
                              [pic], [pic](1.2)
где U(t) - заданное множество в [pic]при каждом [pic].

Будем называть далее управлением кусочно-непрерывную на отрезке [pic](т. е.
имеющую конечное число разрывов первого рода) r--мерную вектор-функцию и,
непрерывную справа в точках разрыва и непрерывную в точке Т. Управление и
называется допустимым, если оно удовлетворяет ограничению (1.2).

Заметим, что ограничиться рассмотрением непрерывных управлений оказывается
невозможным, так как с их помощью трудно моделировать моменты переключения
управления такие, как, например, включение и отключение двигателей,
отделение ступеней ракеты, поворот рулей и т. д.

Иногда рассматривают и более широкие классы допустимых управлений,
например, класс всех ограниченных измеримых управлений, удовлетворяющих
условию (1.2).

Покажем, как при произвольном начальном положении [pic] и допустимом
управлении и определяется траектория управляемого объекта. Рассмотрим
задачу Коши
                               [pic][pic](1.3)
 Поскольку при разрывных правых частях классическое понятие решения системы
  дифференциальных уравнений неприменимо, поясним, что понимается в данном
   случае под решением задачи (1.3). Для этого поступим следующим образом.
  Пусть функция и имеет скачки в точках[pic] причем[pic]. Предположим, что
   задача (1.3) имеет решение х, определенное на всем отрезке [to,[pic]],
                 причем [pic]. Далее рассмотрим задачу Коши
                                 [pic][pic].
  Предполагая, что она имеет решение на отрезке [[pic]] и [pic],приходим к
                                   задаче
                              [pic][pic]и т. д.
  Если функцию х удалось определить указанным способом на всем отрезке [to.
   Т], то будем называть ее решением задачи (1.3) или фазовой траекторией
 (иногда просто траекторией), соответствующей управлению и. Отметим, что x -
     непрерывная по построению функция, удовлетворяющая на отрезке[pic]
                                  равенству
                                    [pic]
       При выполнении определенных условий на f решение задачи (1.3),
   соответствующее управлению и, существует и единственно при произвольном
      начальном положении [pic]и произвольном допустимом управлении и.
    Помимо ограничения на управление могут существовать ограничения и на
                             фазовые координаты
                               [pic][pic](1.4)
   Ограничения на концах траектории целесообразно рассматривать отдельно:
                                 [pic](1.5)

                здесь[pic], S (Т) - заданные множества из R';

      [pic]-заданные множества из R, причем inf [pic]< sup[pic], to<.T.
     Таким образом, начальный и конечный моменты времени не обязательно
   фиксированы. Случаю фиксированных to, Т соответствуют множества [pic],
   [pic], состоящие из одной точки; при этом говорят, что рассматривается
                       задача с закрепленным временем.
  Если So (to) = {[pic]} при любом[pic] ,то левый конец траектории называют
     закрепленным. Если же So (to) == R' при всех [pic], то левый конец
    траектории называют свободным. Во всех остальных случаях левый конец
     называют подвижным. В аналогичных ситуациях говорят о закрепленном,
              свободном или подвижном правом конце траектории.
   Цель управления в задаче оптимального управления состоит в минимизации
           некоторого функционала на множестве допустимых наборов.
 Если каждой функции y=f(x) определенного класса ставится в соответствии по
    некоторому закону определенное числовое значение переменной I, то эту
     переменную называют функционалом от одной функциональной переменной
                           I=I[y]=I[y(x)]=I[f(x)].
  Наиболее часто под задачами управления понимаются задачи, в которых роль
                функционала выполняет интегральный функционал
                                    [pic]
            Мы будем рассматривать задачу с целевым функционалом
                                 [pic](1.6)
         представляющим собой сумму интегрального функционала [pic]
                               и терминального
  функционала Ф(х(Т), Т). Эта задача называется задачей Больца. Ее частными
  случаями являются задача с интегральным функционалом, называемая задачей
 Лагранжа, и задача с терминальным функционалом, называемая задачей Майера.
       Задача с интегральным функционалом при [pic] называется задачей
                        оптимального быстродействия.
  Набор (to, Т, х[pic], и, х), минимизирующий функционал (1.6), называется
     решением задачи оптимального управления, управление и - оптимальным
    управлением, а траектория х - оптимальной траекторией. Часто решением
            задачи оптимального управления называют пару (ц, х).



                        Принцип максимума Понтрягина.
Эффективным средством исследования задач оптимального управления является
принцип максимума Понтрягина, представляющий собой необходимое условие
оптимальности в таких задачах.
                      Формулировка принципа максимума.
Рассмотрим задачу оптимального управления, являющуюся частным случаем
задачи, сформулированной выше
                                 [pic](2.1)

                                 [pic][pic],

                               где[pic] (2.2)

                                    [pic]
При этом предполагается, что моменты to, Т фиксированы, т. е.
рассматривается задача с закрепленным временем; множество U не зависит от
времени, фазовые ограничения отсутствуют. Положим
                                   [pic],
                          где [pic]-константа,[pic]
Функция Н называется функцией Гамильтона.

Система линейных дифференциальных уравнений [pic] относительно
переменных[pic] называется сопряженной системой, соответствующей управлению
и и траектории х. Здесь 
                                   [pic].
>В более подробной покоординатной записи сопряженная система принимает вид
                                [pic], (2.3)
Система (2.3) имеет при любых начальных условиях единственное решение[pic]
, определенное и непрерывное на всем отрезке [pic].
Следующая теорема выражает необходимые условия оптимальности в задаче
(2.1).
                   Теорема (принцип максимума Понтрягина).
Пусть функции[pic] и, Ф, g1, ..., gm имеют частные производные по
переменным х1, ..., Хn и непрерывны вместе с этими производными по
совокупности аргументов х[pic] , и [pic] U, t[pic] [to. Т]. Предположим,
что (и, х)-решение задачи (2.1). Тогда существует решение [pic] сопряженной
системы (2.3), соответствующей управлению и и траектории х, и
константа [pic] такие, что
| [pic] | + || [pic](t) || при t[pic] [to, Т], и выполняются следующие
условия:
а) (условие максимума) при каждом t[pic] [to. Т] функция Гамильтона[pic],
достигает максимума по[pic] при v=u (t), т. е.
H(x(t), u(t),[pic]=max H(x(t), v(t),[pic] (2.4)
б)(условие трансверсальности на левом конце траектории) существуют
числа[pic], такие, что
                                 [pic](2.5)
в) (условие трансверсальности на правом конце траектории) существуют
числа [pic] такие, что
                                 [pic](2.6)
Центральным в теореме является условие максимума -(2.4).

Если отказаться от предположения о том, что конечный момент времени Т
фиксирован, то теорема останется справедливой за исключением условия
трансверсальности на правом конце траектории. Условие (2.6) заменим
условием
                                    [pic]
и добавить еще одно условие трансверсальности на правом конце траектории:
                                    [pic]
                   Примеры применения принципа максимума.
1. Простейшая задача оптимального быстродействия.
Пусть точка движется по прямой в соответствии с законом
                                 [pic](3.1)
где х - координата. Требуется найти управление и, переводящее точку из
начального положения в начало координат за минимальное время Т (задача
оптимального быстродействия). При этом скорость точки в конце траектории
должна быть нулевой, а управление - удовлетворять условию
                                   [pic].
Применим к сформулированной задаче принцип максимума Понтрягина . Введем
фазовые переменные [pic]. Тогда движение управляемого объекта описывается
системой двух дифференциальных уравнений первого порядка:
                                 [pic](3.2)
Начальное положение
                                    [pic]
при t0=0 и конечное положение (0, 0) фиксированы, а конечный момент времени
Т не фиксирован.
В обозначениях п.п. 1, 2 в данной задаче U ==[-1, 1], f0=1, Ф=0, а функция
Гамильтона имеет вид
                                    [pic]
Общее решение сопряженной системы
                                 [pic][pic]
легко выписывается в явном виде  [pic]
где С, D - постоянные.
Очевидно, что максимум функции Н по и[pic] U достигается при
                                    [pic]
Таким образом, оптимальное управление и может принимать лишь два значения
+1 .
2.Определить управление u(t) , которое дает минимум интегралу
             [pic], в процессе, описываемом уравнением [pic](1).

                                  Решение.

                      Введем дополнительную переменную
                                  [pic](2)
    Для этой переменной имеем дифференциальное уравнение [pic]([pic] (3)
  с начальными условиями, получаемыми из (2), т.е. х2(0)=0. Минимизирующий
        функционал, используя (2), можно записать в виде I[T]=x2(T).
                         Построим функцию Гамильтона
                                    [pic]
                    Запишем сопряженную систему [pic] (3)
                                Запишем [pic]
                             ?1(Т)=0 (т.к. с1=0)
                                  ?2(Т)=-1
  Из [pic]поэтому ?2(е)=-1. Теперь функция Гамильтона запишется в виде H=-
                          a?1x1+?1u-0,5x12-0,5u2 .
     По принципу максимума функция Н при фиксированных х1 и ?1 достигает
                максимума по u : [pic], [pic], откуда [pic].
  Осталось решить систему уравнений (2) и (3) при условии [pic] , ?2(Т)=-1,
                  [pic], [pic] с граничными условиями [pic]
          Сведем данную систему к одному уравнению относительно U.
                                 [pic][pic]
                                    [pic]
                                    [pic]
                                    [pic]
   Добавим к этому уравнению граничные условия [pic] и решим его. Составим
         характеристическое уравнение к2 - (а2+1) =0, к1,2=+(-)[pic]
                                    [pic]
               Найдем С1 и С2. [pic] С2=-с2е[pic]. Тогда [pic]
                 Используя граничные условия найдем С2[pic]
                Таким образом, определено оптимальное решение
                                    [pic]



                   Примеры применения принципа максимума.
1. Простейшая задача оптимального быстродействия.
Пусть точка движется по прямой в соответствии с законом
                                 [pic](3.1)
где х - координата. Требуется найти управление и, переводящее точку из
начального положения в начало координат за минимальное время Т (задача
оптимального быстродействия). При этом скорость точки в конце траектории
должна быть нулевой, а управление - удовлетворять условию
                                   [pic].
Применим к сформулированной задаче принцип максимума Понтрягина . Введем
фазовые переменные [pic]. Тогда движение управляемого объекта описывается
системой двух дифференциальных уравнений первого порядка:
                                 [pic](3.2)
Начальное положение
                                    [pic]
при t0=0 и конечное положение (0, 0) фиксированы, а конечный момент времени
Т не фиксирован.
В обозначениях п.п. 1, 2 в данной задаче U ==[-1, 1], f0=1, Ф=0, а функция
Гамильтона имеет вид
                                    [pic]
Общее решение сопряженной системы
                                 [pic][pic]
легко выписывается в явном виде  [pic]
где С, D - постоянные.
Очевидно, что максимум функции Н по и[pic] U достигается при
                                    [pic]
Таким образом, оптимальное управление и может принимать лишь два значения
+1 .
2.Определить управление u(t) , которое дает минимум интегралу
             [pic], в процессе, описываемом уравнением [pic](1).

                                  Решение.

                      Введем дополнительную переменную
                                  [pic](2)
    Для этой переменной имеем дифференциальное уравнение [pic]([pic] (3)
  с начальными условиями, получаемыми из (2), т.е. х2(0)=0. Минимизирующий
        функционал, используя (2), можно записать в виде I[T]=x2(T).
                         Построим функцию Гамильтона
                                    [pic]
                    Запишем сопряженную систему [pic] (3)
                                Запишем [pic]
                             ?1(Т)=0 (т.к. с1=0)
                                  ?2(Т)=-1
  Из [pic]поэтому ?2(е)=-1. Теперь функция Гамильтона запишется в виде H=-
                          a?1x1+?1u-0,5x12-0,5u2 .
     По принципу максимума функция Н при фиксированных х1 и ?1 достигает
                максимума по u : [pic], [pic], откуда [pic].
  Осталось решить систему уравнений (2) и (3) при условии [pic] , ?2(Т)=-1,
                  [pic], [pic] с граничными условиями [pic]
          Сведем данную систему к одному уравнению относительно U.
                                 [pic][pic]
                                    [pic]
                                    [pic]
                                    [pic]
   Добавим к этому уравнению граничные условия [pic] и решим его. Составим
         характеристическое уравнение к2 - (а2+1) =0, к1,2=+(-)[pic]
                                    [pic]
               Найдем С1 и С2. [pic] С2=-с2е[pic]. Тогда [pic]
                 Используя граничные условия найдем С2[pic]
                Таким образом, определено оптимальное решение
                                    [pic]



               О методах решения задач оптимального управления
Убедимся вначале, что необходимые условия оптимальности в форме принципа
максимума дают, вообще говоря, достаточную информацию для решения задачи
оптимального управления (2.1), (2.2).
Условие максимума (2.4) позволяет, в принципе, найти управление и как
функцию параметров х, t, [pic]
[pic](2.7)
Рассмотрим систему дифференциальных уравнений
[pic](2.8)
объединяющюю систему уравнений движения объекта и сопряженную систему.
Как известно, общее решение системы (2.8), состоящей из 2n обыкновенных
дифференциальных уравнений первого порядка, зависит от 2п параметров. Кроме
того, система необходимых условий оптимальности содержит т параметров[pic]
и параметр ?0. Таким образом, общее число неизвестных равно 2n+m+1.
Для их определения мы имеем 2п условий (2.5), (2.6) и т условий (2.2). Еще
одно условие определяется из следующих соображений.
Легко понять, что, в силу линейности функции Н по переменным принцип
максимума Понтрягина определяет вектор ([pic]) с точностью до
положительного постоянного множителя. Поэтому если в конкретной задаче
удается показать, что [pic], то полагают обычно [pic] == - 1. В противном
случае накладывают какое-либо условие нормировки, например, [pic]
Таким образом, общее число условий равно 2n+m+1 и совпадает с числом
неизвестных параметров, что, в принципе, позволяет определить эти
параметры. Изложенные соображения дают возможность в простейших случаях
решить задачу оптимального управления в явном виде.
Опишем численный метод, основанный на тех же соображениях. Для этого
рассмотрим краевую задачу для системы дифференциальных уравнений (2.8) с
краевыми условиями (2.5), (2.6), а также выписанными на основе (2.2)
краевыми условиями
[pic](2.9)
Эта задача называется краевой задачей принципа максимума.
Задав произвольные начальные условия[pic]и решив каким-либо численным
методом задачу Коши для системы (2.8), можно найти х(Т),[pic](Т). При этом
на каждом шаге численного интегрирования значение [pic] находится из
решения вспомогательной оптимизационной задачи (2.7) (считаем, что
параметр [pic] задан и равен либо 0, либо -1).
Значения х (Г), [pic] являются очевидно, некоторыми функциями от а и Ь:
[pic]). Решение краевой задачи принципа максимума сводится, таким образом,
к решению полученной из (2.9), (2.5), (2.6) системы уравнений
[pic]
[pic]
[pic]
Эта система содержит 2п+т неизвестных а, Ь,[pic]и состоит из 2п+т
уравнений. Ее решение можно находить известными численными методами,
например методом Ньютона.
Отметим, что вычисление значений [pic]весьма трудоемко, так как требует при
каждом (а, b) решения задачи Коши для системы дифференциальных уравнений
(2.8). Именно в таких случаях особое значение приобретает изучение вопросов
эффективности численных методов и построения оптимальных методов .
При реализации на ЭВМ методов решения задач оптимального управления,
основанных на необходимых условиях экстремума, могут встретиться также
значительные трудности, вызванные некорректностью постановки исходной и
вспомогательных задач и некоторыми особенностями краевой задачи принципа
максимума. Это приводит к необходимости применения методов регуляризации,
учета специфики конкретной решаемой задачи, ее физического смысла и т. п.
Другие численные методы, не связанные непосредственно с принципом
максимума, основаны на редукции исходной задачи к некоторой конечномерной
задаче математического программирования. Их называют иногда прямыми
методами (впрочем, разделение вычислительных методов на прямые и непрямые
довольно условно). Конечномерные аналоги задач оптимального управления
имеют особенности, позволяющие эффективно применять некоторые методы
нелинейного, динамического программирования и т. д]. Продемонстрируем
пример такого подхода.


Рассмотрим следующую задачу оптимального управления
[pic][pic]
[pic]
где моменты времени[pic], Т фиксированы. Это задача более общего вида, чем
(2.1), ибо в (2.10) U зависит от времени и имеются фазовые ограничения
произвольного вида, которые, в частности, могут содержать ограничения на
концах траектории вида (2.2).
Зафиксируем моменты времени [pic] и заменим задачу (2.10) ее
конечноразностным аналогом
[pic]
[pic]
Положив [pic] задачу можно переписать в виде [pic] (2.11)
[pic]
Мы получили задачу математического программирования с переменными [pic]
Задав начальное состояние х0 и управление (u0, u1, ..., uN-1), по
формулам [pic] легко вычислить траекторию ( х1, ..., хN). Тем самым (2.12)
сводится к задаче с переменными х0, u0 , u1, ..., uN-1, и ее размерность,
таким образом, оказывается равной n+Nr.
Для решения задачи (2.11) часто применяют метод динамического
программирования. В данном случае этот метод выглядит следующим образом.
Ввелем функцию [pic]где минимум берется по таким [pic]что[pic](будем
предполагать, что все фигурирующие здесь и ниже минимумы достигаются). Если
множество таких наборов (uк, ..., uN-1) пусто, то значение [pic]) не
определено. Нетрудно видеть, что [pic] (2.12)
где минимум берется по таким [pic], что значение [pic] определено.
Положив [pic] и проводя вычисления по формулам (2.12) при k=N-1,N-2,...,0
можно найти решение задачи (2.11).
Действительно, пусть [pic]- значение управления, реализующее минимум в
(2.12). Ясно, что значение задачи (2.11) , т.е. минимальное значение
минимизирующей функции, равно [pic], где минимум берется по таким [pic],
что значение [pic] определено. Оптимальное управление и оптимальная
траектория находятся, очевидно, по формулам
[pic](2.13)
При численной реализации данного метода задаются сеточные аппроксимации
множеств [pic]т.е. некоторые конечные множества [pic]Затем строятся
множества [pic], которые служат сеточными аппроксимациями интересующих нас
подмножеств [pic]
Далее по формулам (2.12) вычисляются значения [pic]для [pic][pic]и т.д.,
причем при каждом k минимум в (2.12) берется по [pic] После того как
приближенно найдена точка [pic], минимизирующая [pic] решение задачи
определяется формулами (2.13).



                                 Заключение:
Отметим, что дискретные задачи оптимального управления встречаются на
практике ( например, при описании импульсных систем) и потому представляют
интерес не только как конечноразностные аналоги непрерывных задач.
Задачи оптимизации управляемых процессов, или как они будут в дальнейшем
называться, задачи оптимального управления, составляют один из широких
классов экстремальных задач и имеют важное прикладное значение.
Структурная схема задачи управления состоит из двух звеньев: управляющего
органа и объекта управления . В качестве объекта управления может служить,
например, космический эксперимент, экономика отрасли промышленности,
система машин, семейный бюджет и т. д. Управляющее звено со времени
возникновения задач управления претерпело эволюции от простейшего
регулятора до современной ЭВМ.



                 Кыргызско - Российская Академия образования



                                   Доклад



                               По дисциплине:
                                    ТУТС


                     Тема: Принцип максимума Понтрягина.


                                                                  Выполнил:
                           Бахарев Д. В.ИВТ-1-98.


                          Проверила: Жданова С. В.



                               г. Бишкек 2001