Главная страница » Электрика в театре » Свойства нелинейных систем

1 ... 19 20 21 22 23 24 25 ... 42

или вектор-строку, полученную в результате его транспонирования, перепишем соотношение (2.1-29) в виде

5 (X {П, Г) = 5 (X (/ + U), / + ДО =

= 5(х(0, 0 + т-f(x(0, u(0. t)Lt +

as(x(0.0 д^ + Оз(Д0. (2.1-30)

Подставим это выражение в правую часть формулы (2.1-26), подразумевая, что х(0 = х'(0. Так как выражения s\x{t), t) и dSdt не зависят от и (О, их можно вынести за знак минимума. Упростив полученное выражение и разделив обе части на Ы, придем к следующему соотношению:

-ъг-=т^ { Jt * (x° it), u it), t)+

+ /o(x(0, u(0, o)+-T (2.1-31)

в котором 04(ДО - остаточный член выше первого порядка малости от При Д^-0 в результате отбрасывания последнего члена в правой части получим уравнение Гамильтона - Якоби (называемое иногда уравнением Гамильтона - Якоби - Белл мана):

#Af(xO(0,u(0, 0 +

aS(x (0, t) - .у = mm dt ueu

+ /o(x (0, 11(0, о}- (2.1-32)

Это дифференциальное уравнение в частных производных является основным уравнением динамического программирования для непрерывных систем. Интересно отметить, что в результате минимизации правая часть соотношения (2.1-32) становится независимой от вектора u(t), в то время как само соотношение выполняется только для оптимального вектора u(t). Дифференциальное уравнение Гамильтона - Якоби часто используют в следующей форме:

dSixit). t) dSix4.t) j(o(,) о(,), +

-bfo(x (0, uO(0, О- (2.1-33)

Используя определение полной производной, это уравнение можно записать в виде

i 4-/о (X (0. (0. О = 0. (2.1-34)



Аналогично уравнение динамического программирования (2.1-32) иногда используют в форме соотношения

Kf- +/о (х- {i), u it), t)] = 0. (2.1-35)

min еиУ

Уравнение Гамильтона - Якоби как достаточное условие динамического программирования. Из доказательства, основанного на использовании функционального уравнения Беллмана, следует, что полученное в форме (2.1-32) или (2.1-35) уравнение Гамильтона - Якоби определяет необходимое условие оптимальности. Покажем теперь, что при определенных предположениях достаточное условие можно сформулировать аналогичным образом.

Пусть время Т свободно и конечное состояние х(Г) принадлежит некоторому множеству цели С. Для открытой области X пространства состояний определим функцию 5(х, t), удовлетворяющую следующим условиям:

1. Частная производная - непрерывная функция векторного аргумента х и времени t. Функция gradS=dS/dx является кусочно-непрерывной функцией векторного аргумента х и временя t. Для произвольного момента времени tTo, в котором одна из функций dS/dx или f{x, и, t) (или обе эти функции) претерпевает разрыв, выполняется следующее условие:

lim f=lim f. (2.1-36)

t-s.To+ ox tTo- ox

2. Для любого вектора x из открытой области X пространства состояний и произвольного момента времени i гамильтониан И = М(дЗ/дх, X, u, i) достигает абсолютного минимума при условии, что допустимое управление оптимально:

0 = M{dSldx, X, цо, t)<M(dS/dx, х, и, t). (2.1-37)

В этом случае говорят, что гамильтониан Н нормален по отношению к области X. Предполагается также, что вектор оптимального управления и (i) порождает единственную оптимальную траекторию x°(t).

3. На множестве цели С величина 5(х, )=0. Если условия 1, 2 и 3 выполняются, то

т

Six it), t) = min J /о(х(т), u(t), x)d. (2.1-38)

ueUi

Таким образом, в этом случае функция S(x, t) является минимумом по U результата интегрирования целевой функции /о(х, U, t) по переменной времени в промежутке от / до Т. Опти-



мальное управление uC переводит систему из начального состояния х(0) в конечное состояние x(t) С вдоль оптимальной траектории x°(t). Оказывается, что управление и^С^ в точности совпадает с решением функционального уравнения Гамильтона-Якоби.

Для доказательства этой теоремы запишем условия 1 и 2 в следующем виде:

/о(х, U, t) + (X, u, t) + >

>/o(x, uO, 0 + f (X, uO, i) + = 0.

(2.1-39)

Интегрируя правую часть этого неравенства вдоль оптимальной траектории x°(t), получим

/о(х ,иО)-Ь

Й5(х . х)

f(xO, цо, т) +

dS (х°, t)

dx = 0. (2.1-40)

Рассмотрим теперь интеграл

J(t) = J [/ (X. U, х) + Цх, U. х) +

dx. (2.1-41)

Докажем, что только и и х могуг минимизировать интеграл J(t) и что, как следует из выражения (2.1-40), абсолютный минимум этого интеграла равен нулю. Допустим, что это не так. Тогда найдутся управление u(t)u°(t) и траектория (t) фх(() такие, что при любом t интеграл J(t) будет равен нулю Отсюда получим, что для интеграла с переменным нижним пределом интегрирования рассматриваемое подынтегральное выражение тождественно равно нулю. Но из неравенства (2.1-39) следует, что подынтегральное выражение всегда положительно. Таким образом, не существует управления и траектории, отличных от и и х и удовлетворяющих заданным требованиям.

Пример. В примере, принадлежащем Розоноэру [20], метод динамического программирования применяется для системы дифференциальных уравнений

и целевой функции

Xi = UXi + х^ =/i, /о =/о(*ь Х2).



Основное уравнение динамического программирования запишется в виде

[ж+ + и' + /о(х„ X,)}.

Если предположить, что dSjdx2 > О, то можно найти управление и, при котором выражение в скобках достигает минимума. Из необходимого условия минимума

d du

dS . dS

найдем оптимальное управление

~ 2-1 dSldxo

Преобразовывая, получим нелинейное дифференциальное уравнение в частных производных

dt ~ dxi 4 sjdXi -гЛ

которое может быть решено при известных граничных условиях. Для функционала

/ = ср (л:, (П 2 (Т)) + о (Xi (&), Х2 (&)) db

граничное условие записывается в виде S{Xi(T), Х2(Т)) = = (p(xi(T), Х2(Т)) и не зависит от и. Если система автономна и целевая функция не зависит явно от времени t, тогда и функция S не зависит от времени и dS/dt=0 (разд. 2.2). В этом случае, как правило, задача разрешима в дискретном виде, а решение дифференциального уравнения в частных производных находится с помощью рекуррентной формулы (2.1.-16). Иногда эту задачу удается решить, применяя аналитические методы разложения в ряд [20J.

2 2. СВЯЗЬ МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ С ПРИНЦИПОМ ПОНТРЯГИНА

Принцип минимума Понтрягина можно вывести из дифференциального уравнения Беллмана [20]. Вместо переменной t будем рассматривать координату Хп+и заданную дифференциальным уравнением

=/ +1 = 1. (2.2-1)

и будем использовать обозначение dS/dx+y вместо dS/dt. Отметим, что для автономной системы вектор-функция f и целевая функция /о не зависят явно от времени t и / [ = 0, . +1 = 0. dS/dx +i = 0 и dS!dt = 0. Таким образом, в этом случае нет необходимости вводить новую переменную л: +1.



Введем еще одну координату Хо с помощью дифференциального уравнения

(2.2-2)

Если ср{х(Т), Т)=0, то задача минимизации функционала / вида (2.1-7) эквивалентна минимизации координаты Хо(Т). Введем векторы

~ т

X = [Xq, Xi, . . . , х^, An+il >

и

dS dS dS

(2.2-3) (2.2-4)

dx dXn+i .

= --4).

(2.2-5)

Используя обозначение

5 - S{xq, Xi, ... , л: , xi) - S(xi, x, ... , x, x i) + Xf,

(2.2-6)

перепишем равенство (2.2-5) в виде

dS dx

dS dS

dXo dxi

dx dx

n+lJ

(2.2-7)

(2.2-8)

Минимум положительной функции равен взятому с противоположным знаком максимуму совпадающей с ней по модулю отрицательной функции. Поэтому в результате несложных преобразований дифференциальное уравнение Гамильтона - Якоби можно записать в виде

О = min {pf} = - max

Отсюда видно, что как максимальное, так и минимальное значения равны нулю. Следовательно, знак минус в правой части последнего равенства мгкно опустить.

Введем теперь гамильтоновские функции состояния Hp и

.... НррЧ Hi, Нр = -Н^. (2.2-9)

В этом случае из равенства (2.2-8) получим, что О = min Н„ и О = max Н^.

(2.2-10)

Последние два уравнения идентичны соотношениям принципов минимума и 1иаксимума Понтрягина. Отсюда можно получить следующие выводы.



Во-первых, если оптимальный процесс существует, то для произвольного момента t оптимальное управление и (/) можно определить, решая задачу минимизации Hp или максимизируя Щ.

Отметим, что зависимость функций Hp и Н^от вектора управления и определяется зависимостью вектор-функции f от и. Так как компоненты векторов-функций р и ii являются частными производными известной по предположению функции Sjx(t), t), то для любой точки X можно найти гамильтонианы Н'р и Н' в функции векторного аргумента и (при этом частные производные следует определять вдоль оптимальной траектории) .

Во-вторых, минимум Hp и максимум Яф равны нулю в любой точке оптимальной траектории. Геометрически равенство (2.2-7) означает, что вектор 1р совпадает с градиентом

p = grad5= = - (2.2-11)

и как следствие хорошо известной теоремы получим отсюда ортогональность этого градиента к изоповерхностям S = const. Итак, в соответствии с принципом Понтрягина требуется выбрать вектор управления и таким образом, чтобы минимизировать проекцию вектора скорости

x = f (2.2-12)

на нормаль к изоповерхности S=const (или максимизировать эту проекцию на вектор отрицательной нормали), точнее обра тить эту проекцию в нуль. Следовательно, градиент функции S вдоль оптимального движения системы ортогонален в /г4-2-мерном пространстве состояний к вектору касательной x=f.

В-третьих, основное уравнение динамического программирования (2.1-32) можно представить в виде

+ Я = О, (2.2-13)

где

Яо=тшЯ =-тах ф, (2.2-14)

= * +/о Р * +/о - - т-/о) = - Я (2.2-15)

f, X, dS/dx, р, 15 -векторы размерности п (с нумерацией координат от 1 до п).

Основное и существенное преимущество принципа Понтрягина состоит в том, что при его применении не требуется решать сложного дифференциального уравнения динамического про-



граммирования, заданного в частных производных относительно функций S или S; при этом достаточно найти соответствующие оптимальной траектории решения р=- или р=-вспомогательной системы обыкновенных дифференциальных уравнений.

Пример. Рассмотрим неавтономную систему, для которой цель оптимизации состоит в получении наименьшего времени перехода. В рассматриваемом случае /о= 1 и dS/dt=0. Из соотношения (2.2-13) получим

uqU [ dx

или с учетом равенства (2.2-15)

= О, (2.2-16)

min N = 0, max = 0. (2.2-17)

Из соотношения (2.2-16) следует, что в п-мерном пространстве состояний вектор производной dS/dx не ортогонален к касательной x=f: вдоль оптимального движения системы скалярное произведение этих векторов равно -1. Для рассматриваемой задачи

т

S (х (t), t) = min J 1 rfx = 70 (2.2-18)

U£Ut

где P -минимальное время перехода. С возрастанием времени t величина 5 убывает. Уравнению S(xO(t), O = const удовлетворяют изоповерхности х=Т^ - 1 = const, которые окружают точку хСГ); вектор р направлен из области, а вектор if внутрь области, ограниченной изоповерхностью. В работе [21] эти изоповерхности названы поверхностью изохроны. Согласно принципу оптимальности динамического программирования, а также принципу Понтрягина, проекция вектора скорости х на р минимальна, а его проекция на вектор равна максимуму (рис. 2.5-1). Физически это очевидно. Любое движение по поверхности изохроны не дает вьпгрыша, так как из любой точки этой поверхности в конечное состояние х(Г) можно попасть за одно и то же время. Чем больше скорость движения, направленного по нормали к поверхности изохроны, тем скорее будет достигнута поверхность следующей изохроны, а следовательно, и конечная точка.

2..3. СВЯЗЬ МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ С ВАРИАЦИОННЫМ ИСЧИСЛЕНИЕМ

Допустим, что целевая функция зависит также от вектора скорости. Запишем основное уравнение динамического програм-



мирования (2.1-32) в несколько менее общем виде:

dS (xV). t) dS (xV). t) o() /jx (), i (0, u (/)) = 0, (2.3-1)

где u() - вектор оптимального управления, a x () = /(xo(), (/), )-скорость изменения состояния под действием управления и'(/).

Допустим, что ограничения на вектор и отсутствуют, т. е. множество и совпадает со всем пространством размерности г. Необходимость в таком условии объясняется тем, что р вариационном исчислении на вектор управления не накладывается ограничений. Продифференцируем левую часть соотноиления (2.3-1) по вектору скорости х=х (/). Для простоты записи опустим обозначения независимых переменных. Первый член в соотношении (2.3-1) не зависит от х, в то время как второй член этого выражения можно записать в виде x (d5/6x). Отсюда и из равенства (дх/дх) =1 получим, что

-g+=0, k = (2.3-2)

В сокращенных обозначениях первоначальное уравнение (2.3-1) можно записать в следующем упрощенном виде:

:Х-ь/о = 0, х = х , х = х . (2.3-3)

ахТ

Запишем полную производную функции, стоящей в левой части равенства (2.3-2), по аргументу t

dtdx

+ x-b4f) = 0. (2.3-4)

дхдх [дх )

Частная производная по x для левой части равенства (2.3-3) имеет вид

dxdt йхбхТ дх

Сравнив два последние равенства, придем к уравнению Эйлера-Лагранжа в вариационном исчислении

---(j = 0, х = х , i-io. (2.3-6)

(Это соотношение получено в предположении непрерывности всех частных производных второго порядка.)



Допустим, что в конечный момент времени Т выполняется соотношение

(2.3-7)

Тогда с учетом равенства (2.3-2) получим из соотношения (2.3-3) следующее условие:

или

[i{T)-k(T)V

dfo дх

+ /о

= 0,

(2.3-8) (2.3-9)

Это соотношение идентично граничному условию задачи с подвижным концом в вариационном исчислении. Опираясь на метод динамического программирования, можно вывести еще два известных в вариационном исчислении соотношения. Во-первых, равенство (2.3-2) определяет необходимое условие локального экстремума выражения

(2.3-10)

в точке х=х'. Действительно, взяв частную производную выражения (2.3-10) по векторной переменной х и приравняв ее нулю, придем к условию (2.3-2). Дифференцируя вторично и принимая во внимание, что частные производные второго порядка от первого слагаемого в выражении (2.3-10) равны нулю, получим еще одно необходимое условие минимума для выражения (2.3-10), которое состоит в положительной определенности матрицы частных производных второго порядка

дЧо

(2.3-11)

от функции /о по переменной х. В одномерном случае будем иметь

>0. (2.3-12)

дх i=io

Неравенства (2.3-11) и (2.3-12) совпадают с условием Лежанд-ра в вариационном исчислении.

Во-вторых, если экстремум совпадает с абсолютным минимумом, то неравенство

/о(х, i, t) + ix >/о(х, хО, t) + -хо (2.3-13)



выполняется для любых

хфх^. (2.3-14)

Преобразуем соотношение (2.3-13) к виду

/о(х, X, t) -/о (х, х , i) + 1 [X - i ] > 0. (2.3-15)

Подставляя в это выражение условие экстремума (2.3-2), получим, что

/о(х, X, t) -/о(х, хО, i) -°(- f-) (к - хО) > 0. (2.3-16)

Последнее неравенство совпадает с условием Вейерштрасса из вариационного исчисления.

Пример. Допустим, что целевая функция не зависит явно от времени. Тогда для скалярной переменной состояния будем иметь следующее выражение:

Sixit), t) = Si{xit)) + (T-t)So,

в котором 5о - постоянная величина. Следовательно, уравнения (2.3-2) и (2.3-3) не зависят от t:

°+/о-5о = 0.

Из последних двух уравнений получим дифференциальное уравнение для определения оптимальной траектории:

xO{t)= .

dfoldxo

С Другой стороны, уравнение Эйлера-Лаграннса в вариационном исчислении дает

дхо dt

,дхо )

Полная производная по времени от целевой функции fo=fo(x, О определяется равенством

/о /о , Ло I уО dt - dt дхо^

или

dfo dfo

dt dt



1 ... 19 20 21 22 23 24 25 ... 42

© 2000-2025. Поддержка сайта: +7 495 7950139 добавочный 133270.
Заимствование текстов разрешено при условии цитирования.