9.5. сравнительный анализ методов
9.5. сравнительный анализ методов
Лагранжа-Понтрягина и Гамильтона-Якоби-Беллмана
В процессе изучения курса ТОУ читатель, вероятно, заметил, что для практики наиболее важными могут быть два метода: Лагранжа-Понтрягина и Гамильтона-Якоби-Беллмана (другое название — метод динамического программирования). Поэтому в завершение проанализируем их особенности и проведем сравнительный анализ условий применения.
Метод Лангранжа-Понтрягина сводит задачу оптимального управления к краевой задаче для системы обыкновенных дифференциальных (для непрерывных процессов) или рекуррентных уравнений (для многошаговых процессов) порядка 2 п, тогда как метод Гамильтона—Якоби—Беллмана ставит в соответствие задачу Коши для уравнений в частных производных (для непрерывных процессов) или рекуррентного функционального уравнения относительно функции ф(/,х) от п + 1 переменных. В этом отношении метод Гамильтона — Якоби — Беллмана значительно сложнее.
Метод Лагранжа-Понтрягина позволяет отыскать оптимальную программу управления u*(t) и оптимальный вектор состояния системы x*(f), отвечающие заданным граничным условиям.
Метод Гамильтона-Якоби-Беллмана обеспечивает решение в форме синтеза u*(t, х) семейства оптимизационных задач с любыми начальными условиями, т.е. отвечает более общей задаче, эквивалентной семейству задач, реализуемых методом Лаг-ранжа-Понтрягина.
Процесс (x*(t), w*(0), найденный методом Лагранжа-Пон-трягина, в общем случае удовлетворяет только необходимым условиям оптимальности, будучи или не будучи оптимальным в действительности. Доказательство оптимальности требует дополнительных исследований.
Синтез оптимальных управлений и*(г, х) позволяет отыскать оптимальный процесс (x*(t), u*(t)), путем решения задачи Коши для системы п обыкновенных дифференциальных уравнений при заданном начальном условии (в векторной форме) х* (0) = х0. Вопрос об оптимуме решения при этом не возникает, потому что весь вычислительный процесс адекватен теореме о достаточных условиях оптимальности.
Метод Гамильтона—Якоби—Беллмана применим только к задаче без ограничений на состояние при t > /0, в том числе и при t= Т. Впрочем, «освобождение» правого конца траектории x(t) возможно с помощью «Л/-метода» {см. разд. 9.4). Метод Лаг-ранжа—Понтрягина не требует отсутствия ограничений на состояние при t = 71
Метод Лагранжа-Понтрягина более прост и поэтому более привлекателен для практики. В нем самое сложное — это максимизация функции Гамильтона по управлению (отсюда и название «принцип максимума»). Это же действие выполняется и в методе Гамильтона-Якоби-Беллмана, после чего предстоит решить значительно более сложное уравнение Беллмана.
Общий вывод: метод Гамильтона—Якоби—Беллмана значительно сложнее, но полученное при этом решение дает больше информации, за что, как известно, нужно платить сложностью расчетов.
Задачи для самостоятельной работы
В следующих задачах построить синтез оптимальных управлений, пользуясь методом Гамильтона-Якоби-Беллмана.
т
9.1. J2u2dt + x2(T)->min-о
dx
— = и. dt
т
J u2dt + 4x2 (П->тіп; о
dx
= x2u. dt
T
J (jc2 + u2)dt + jc, (Г) л:2(Г) -> min; 0
= w.
dt
T
Jm2^ + cjc2(7) -> min; 0
і і
= а + шг, я, b, с -const.
dt
Методом Гамильтона—Якоби—Беллмана найти оптимальные процессы:
^[2x(t) + u 2(0]->min; r=0
x(t + l) = x(t) + 2u(t) *(0) = 2;|и|</ + 1.
3
X [x(0 n(0] -*(4) -> min; /=0
jc(/ + 1) = «(/); I w(0 <1;jc(0) = 1.
з
X WO + "(01 + *(4) -> min;
t=0
x(t + l) = x(t)-u(t) x(0) = 0.
Краткий словарь терминов
Абсцисса значение некоторого показателя, измеряемое по горизонтальной оси системы координат.
Вектор состояний управляемой системы — вектор переменных (обозначается обычно х), компоненты которого входят в состав уравнений процесса как сами по себе, так и со своими производными (для непрерывных процессов) или в моменты времени / + 1 и t (для дискретных процессов).
Вектор-функция — вектор, каждая компонента которого является функцией своих аргументов.
Градиент (grad) — направление наиболее быстрого возрастания
функции. Если имеем функцию/(х,, x2,...,xj, то grad/вектор с
1-М
компонентами ^ ' * Двухточечная краевая задача — решение системы обыкновенных дифференциальных уравнений, при котором часть условий задана в начальный момент времени, а другая часть — обычно в конечный момент (возможно и в другой).
Динамическое программирование — один из разделов теории оптимального управления, связанный с решением уравнения Беллмана. Для непрерывных процессов это нелинейное дифференциальное уравнение в частных производных. Для дискретных (многошаговых) процессов конечно-разностное функциональное уравнение.
Дискретные (многошаговые) процессы процессы, в которых аргумент t (обычно время) изменяется с заданным шагом, например t, t + 1, t + 2 и т.д.
Достаточные условия оптимальности — совокупность теорем В.Ф. Кротова, определяющих признак оптимальности для непрерывных и дискретных (многошаговых) управляемых процессов.
Задача Коши — решение системы обыкновенных дифференциальных уравнений первого порядка с заданными начальными условиями.
Индикатриса — форма зависимости целевой функции от вектора управления (линейная, нелинейная, выпуклая, логическая и др.).
Инфинум (обозначается inf) точная нижняя граница изменения функции, такое значение, которого функция на заданном множестве не достигает, но стремится к нему, оставаясь больше него.
Коэффициенты эластичности производственной функции по факторам — отношение предельной эффективности ПФ по данному фактору к средней эффективности.
Метод Лагранжа — один из разделов теории оптимального управления, обеспечивающий необходимые условия оптимальности для дискретных (многошаговых) процессов.
Необходимые условия оптимальности — условия, при невыполнении которых управляемый процесс неоптимальный, при выполнении — может быть оптимальным, а может и не быть.
Непрерывные процессы — процессы, в которых аргумент / (обычно время) изменяется непрерывно в заданном интервале te [г0; Т.
Ограничения — совокупность условий, выраженных в форме математических отношений, образующих множество допустимых значений искомых состояния и управления системы.
Ордината — значение некоторого показателя, измеряемое по вертикальной оси системы координат.
Подынтегральное выражение — функция/(/, х, и), стоящая под знаком интеграла в функционале непрерывного управляемого процесса.
Принцип максимума Понтрягина — один из разделов теории оптимального управления, обеспечивающий необходимые условия оптимальности для непрерывных процессов.
Программа управления u(t) — функция управления в момент времени / при фиксированном состоянии системы х (t).
Производственная функция (ПФ) — функция, устанавливающая связи между выпуском продукции (оказанием услуг) и затрачиваемыми производственными факторами или ресурсами (чаще всего учитываются живой труд и капитал). На практике наиболее распространена ПФ Кобба—Дугласа, в основном используется в макроэкономике.
Проекция множества Vhsl множество ^(обозначается Vx) — множество всех таких значений х є Vx, для каждого из которых существует хотя бы одно значение управления и, так что пара (х, и) є V.
Сечение множества V множеством U при заданном состоянии системы X— множество всех значений управления и (обозначается Vй), которые при заданном состоянии системы х принадлежат V: (х, и) є V,ue Vй.
Синтез оптимальных управлений — функция управления и (t, х) в методе динамического программирования, задающая совокупность
всех допустимых управлений u(t) в момент времени / при текущем состоянии системы X.
Супремум (обозначается sup) — точная верхняя граница, такое значение, которого функция на заданном множестве не достигает, но стремится к нему, оставаясь меньше него.
Терминальный член — слагаемое в функционале, отражающее эффективность управляемой системы в конечный момент времени t = Т.
Точка разрыва функции первого рода — случай, когда в некоторой точке предел значения функции слева не равен пределу ее значения справа и оба предела конечны. При равенстве этих пределов функция в заданной точке непрерывна.
Уравнения процесса — совокупность условий, входящих в состав ограничений в виде системы обыкновенных дифференциальных уравнений для непрерывных систем или конечно-разностных ограничений — для дискретных систем.
Условие трансверсальности — специальное ограничение, используемое в принципе максимума (методе Лагранжа) при отсутствии связей в управляемой системе в конечный момент времени t = 71
Функционал (то же, что целевая функция) — отображение множества аргументов на числовую ось, частный случай функции.
Функция — отображение множества аргументов на множество значений: числа, векторы, матрицы, логические переменные и т.д.
Функция Гамильтона (то же, что гамильтониан) — одна из основных функций в теории оптимального управления, максимизация которой по управлению определяет синтез оптимальных управлений в теории динамического программирования.
Функция под знаком суммы — аналог подынтегрального выражения в дискретных (многошаговых) управляемых процессах.
Функция полезности — математическое выражение для оценки эффективности потребления при различных его значениях.
Рекомендуемая литература
Болтянский В.Г. Оптимальное управление дискретными системами /В.Г. Болтянский М.: Наука, 1973.
Вагнер Г. Основы исследования операций. В 3-х т. /Г. Вагнер — М. : Мир, т.1 1972; т.2 1973.
Васильков Ю.В. Компьютерные технологии вычислений в математическом моделировании /Ю.В. Васильков, Н.Н. Василькова. М. : Финансы и статистика, 2000.
Иванилов Ю.П. Математические модели в экономике / Ю.П. Иванилов, А.В. Лотов. М.: Наука, 1979.
Кротов В.Ф. Методы и задачи оптимального управления / В.Ф. Кротов, В.И. Гурман. М.: Наука, 1973.
Курицкий Б. Поиск оптимальных решений средствами Excel 7.0 /Б. Курицкий. BHV СПб., 1997.
Лагоша Б.А. Оптимальное управление в экономике /Б.А. Ла-гоша. — М. : Финансы и статистика, 2003.
Лагоша Б.А. Методы и задачи оптимального управления: учеб. пособие /Б.А. Лагоша, Т.Д. Дегтярева. М. : МЭСИ, 2000.
Математическая теория оптимальных процессов /Л.С. Понт-рягин, В.Г. Болтянский, Р.В. Гамкрелидзе, Е.Ф. Мищенко. М. : Наука, 1976.
Моделирование рисковых ситуаций в экономике и бизнесе /A.M. Дубров, Б.А. Лагоша. Е.Ю. Хрусталев, Т.П. Барановская; под общ. ред. Б.А. Лагоши. — 2-е изд., перераб. и доп. — М.: Финансы и статистика. 2001.
Тарасевич Л.С. Макроэкономика: учебник /Л.С. Тарасевич, П.И. Гребенников, А.И. Леусский. — М. : Юрайт, 2003.
Основы теории оптимального управления /В. Ф. Кротов, Б.А. Лагоша, СМ. Лобанов и др.; под общ. ред. В.Ф. Кротова. -М. : Высшая школа, 1990.
Приложения
1. Варианты заданий для курсовых работ
1. Построить календарный план оптимальной поставки продукции в дискретном варианте численным методом (см. пример 8.2) при следующих исходных данных:
Т= 5, х0 = 2, я, = 2, Ьх = 4, а2 = 4, Ь2 = 3.
Точность расчетов оценивается исходя из условий |х*(0) — х0| < < е. Значения функции r(f) приведены в следующей таблице (п — последняя цифра номера зачетной книжки):
0 | 1 | 2 | 3 | 4 | 5 | |
r(t) | п + 0 | п + 2 | п + 3 | п + 5 | п + 4 | л 46 |
2. По аналогии с примером 8.3 построить оптимальный план поставки продукции в непрерывном времени, пользуясь методом Эйлера или другим по выбору решающего (например, методом Рун-ге-Кутта) при следующих исходных данных:
Т= 3, xQ =1, а{ = 2, вх =5, а2= в2 = 3.
Значения функции r(t) приведены в следующей таблице (п — последняя цифра номера зачетной книжки):
0 | 1 | 2 | 3 | |
ко | п + 1,5 | п + 3 | п + 2,5 | п + 2 |
Шаг численного интегрирования принять равным Д/ = 0,01, оценка точности є = 0,05, |х*(0) х0| < е.
Примечание. Рекомендуется использовать ЭВМ, реализуя один из пакетов численного интегрирования систем дифференциальных уравнений (по выбору решающего).
2. Ответы к задачам для самостоятельной работы Глава 1
1.1. x*(0 = argmax/(x,O=P're[~2;"I)u(0;2];
[0,гє[-1;0].
1.2. J>c*(/) = argmax/('A:;/y)
-7,/є[0,1;1)и(2;3];
(/-!)(/-2)
,'є[1;2].
1.3. х * (t) = argmax f(x,t) =
3-/,/є[ОЛ]и[2;31; 0,f є [3;4];
р*є(і;2).
1.4. **(/) = argmaxf(x,t) =
И,/є[-2;0)и[4;5];
0,/є[0;4);
2,>є(-5;-2).
1.5. x *(t) = argmax f(x,t) =
-Ve [-5;-3)u(l;5]; 0,ґє 1; f,fe[-3;l).
1.6 x * (Г) = arg max/(Ос, 7,) =
-=-!—,/є (l;3]; Г + 0,5
--г-1— ,'є[0;1); Ґ + 0,5
0,f = 1.
1.8. х * (t) = (1 + ґ)е(1"').
1.9. x*(t) =
nn.
1.10. **(/) = l + e
-r
1.11. х*(ґ) =
V 5, 5
t + 2 4 4
V e + -/--, 4 4
1.12. **(/) =
/ 1
+ -2 4
/ 3 _, e' + -e . 4
1.13. л: *(/) =-e2'-2e'+-/ + -.
w 4 2 4
1.14. л:, (/) =—ez' 71 + — e 2 -cos/+-sin/--;
1 w 45 45 5 5 3
*/.ч -4 2/-я 10 3 1.2
jc9(/) = —e +—e 2--cos/+-sin/ .
2 w 45 45 5 5 3
1.15. /l{t) = -^<-^-^t + ^
1 w 27 27 9 27
*,v 10 3/ 15 , 1л 14. 22
x? (/) = eJ' + — e' + Г + — / + —.
2 w 27 27 3 9 27
1.16. лг*(/) = (/ + /2)2е"3'--/2.
Глава 6
6.1. х*(0 = --е3'--е12+3'+-е12-3' 9 9 9
w З з
6.2. jc * (/) =
-12
4-le12 ї 9 9
>12
A J-e
Є3' + ■ 9 9
,-12
U*(t)
4_lpl2 ^ 9 9 °
e-12-e12 ^ J-e
-12
Є3'+ 9
+ -e10-',r>10-ln9; 2 2
6.3. х*(г) = ^е10(е-'-е') + 1;
«•(0 =
0, r<10-ln9.
6.4. x*(f) =
о;
8-ln3~
3e~
-є*1' —; t є 2 2
Л 2/ 1 .
ez' +-;ґє
0; 3 In -
4^1 0;3ln-3
u*(t) =
з-І„5;з
2,5e' 2; t є 0; Г є 1;*є
2e' 1; r є
0;3-ln
6.6. X*(t) =
--e + 2 3 J
е'-3е3-' + 1;Гє 8
3-ln-;3
1;/є
с Л
0;3-bi-
«•(0 =
le3"'-1;ґє 4 3-.n-;3
-е' + 2; ґ є
0-,10-ln-
6.7. **(/) =
£e-,0-iV+-e10-' + i;/6 2 2
3^
0;10-1п
10 In ^; 10
-е10-'-і-;гє 2
101п-;10 2
6.8. x*(t) =
e' +
e' + 3e-' -2;te [0;ln3-ln2);
e-'+2;re[3-ln2;3];
3
*2 (0 =
e' -3e~' + 2;/є [0;ln3-ln2);
е-'-2;Гє[3-1п2;3];
3
e'-
«*(<) =
2;ґє [0;ln3-ln2); -2;ґє [3 1п2;3].
х*(/) = -е"2'+і.
w 2 2
х*(ґ) = е'.
е-';/е
З л
0;5-ln|
6.11. x*{t) =
з ^
1 2е 2
Є"' +2 e
5-1п|;10
V
6.12. x(t) = tu,te [ ]; х (ґ) = 0; и*(ґ) = 0.
6.13. х*(г) = -е'+1; х2*(ґ) = е'+2; i/*(f) = -l.
Глава 7 7.1.
0 | 1 | 2 | 3 | 4 | 5 | |
х*(0 | 0 | -1/8 | -1/8 | -2/8 | -3/8 | -5/8 |
u*(t) | -1/8 | -1/4 | -6/8 | -5/8 | -1 | |
1.1. | ||||||
t | 0 | 1 | 2 | 3 | 4 | 5 |
x*(t) | 1 | -3 | -1 | -1 | -3 | -1 |
u*(t) | -1 | -2 | -1 | -2 | -1 |
7.3.
0 | 1 | 2 | 3 | |
x*(t) | 2 | 551 648 | 41 648 | 163 216 |
3^ 648 | 648 | 571 648 |
7.4.
0 | 1 | 2 | 3 | 4 | |
x*(t) | 1 | -449/2617 | 77/2617 | -13/2617 | 1/2617 |
u*(t) | 1084/2617 | -186/2617 | 32/2617 | -6/2617 |
7.5.
0 | 1 | 2 | 3 | 4 | 5 | ||||||
x*«) | 1 | -8/7 | 2/7 | -3/7 | -3/7 | 2/7 | |||||
-1/14 | -3/7 | -1/14 | -3/7 | -1/14 | |||||||
0 | 1 | 2 | 3 |
| |||||||
*Г(о | 1 | 603 140 | 236 140 | 61 140 |
| ||||||
x*2(t) | 1 | 769 140 | 367 140 | 175 140 |
| ||||||
u*(t) | 0 | 1379 140 | 306 140 | -1/2 |
| ||||||
u2(t) | 769 140 | 376 140 | 0 | 0 |
| ||||||
Глава 9
9.1. u*(t,x) =
t-2-2T
9.2. u*(t) = 2
_25e2(t-T)+l_)
x.
9.3. м*(/) = |(-Зґ + ЗГ-і).
9.4. u*(t) =
{-2b)t--c-(-2b)T
9.5.
/ | 0 | 1 | 2 | 3 | 4 | ||||||
x*(t) | 2 | 0 | -4 | -6 | -6 | ||||||
-1 | -2 | -1 | 0 | ||||||||
9.6. | |||||||||||
t | 0 | 1 | 2 | 3 | 4 | ||||||
x*(t) | 1 | -1 | 0 | 0 |
Обсуждение Оптимальное управление в экономике: теория и приложенияКомментарии, рецензии и отзывы 9.5. сравнительный анализ методов: Оптимальное управление в экономике: теория и приложения, Лагоша Борис Александрович, 2008 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Исследуется теоретический и прикладной аппарат оптимального управления в экономике. Основополагающие теоремы о достаточных условиях оптимальности доводятся до вычислительных методов принципа максимума и динамического программирования.
|