Научная электронная библиотека

2.4. Принцип оптимальности Беллмана

Метод динамического программирования состоит в том, что оптимальное управление строится постепенно. На каждом шаге оптимизируется управление только этого шага. Вместе с тем на каждом шаге управление выбирается с учетом последствий, так как управление, оптимизирующее целевую функцию только для данного шага, может привести к неоптимальному эффекту всего процесса. Управление на каждом шаге должно быть оптимальным с точки зрения процесса в целом.

Каково бы ни было начальное состояние системы перед очередным шагом, управление на этом этапе выбирается так, чтобы выигрыш на данном шаге плюс оптимальный выигрыш на всех последующих шагах был максимальным.

Так, если система в начале k-го шага находится в состоянии gribov066.wmf и мы выбираем произвольное управление gribov067.wmf , то она придет в новое состояние gribov068.wmf , и последующие управления gribov069.wmf должны выбираться оптимальными относительно состояния gribov070.wmf . Последнее означает, что при этих управлениях максимизируется величина gribov071.wmf , т.е. показатель эффективности на последующих до конца процесса шагах k+1, …, n. Обозначим через gribov072.wmf .

Выбрав оптимальное управление gribov073.wmf на оставшихся n – k+1шагах, получим величину gribov074.wmf , которая зависит только от gribov075.wmf , т.е.

gribov076.wmf

Назовем величину gribov077.wmf условным максимумом. Если мы теперь выберем на k-мшаге некоторое произвольное управление gribov078.wmf , то система придет в состояние gribov079.wmf (рис.2.2). Согласно принципу оптимальности, необходимо выбирать управление gribov080.wmf так, чтобы оно в совокупности с оптимальным управлением на последующих шагах (начиная с (k+1)-го) приводило бы к общему показателю эффективности на (n – k+1)шагах, начиная с k-го и до конца. Это положение в аналитической форме можно записать в виде следующего соотношения:

gribov081.wmf

gribov082.wmf k=n – 1, n – 2,..., 1, (2.11)

получившего название основного функционального уравнения динамического программирования, или основного рекуррентного уравнения Беллмана.

pic_2_2.tif

Рис. 2.2

Из уравнения (2.11) может быть получена функция gribov083.wmf , если известна функция gribov084.wmf . Аналогично можно получить gribov085.wmf , если найдена gribov086.wmf и т.д., пока не будет определена величина gribov087.wmf , представляющая по определению максимальное значение показателя эффективности процесса в целом:

gribov088.wmf

Решая уравнение (2.4) для определения условного максимума показателя эффективности за n – k+1 шагов, начиная с k-го, мы определяем соответствующее оптимальное управление gribov089.wmf , при котором этот максимум достигается. Это управление также зависит от ξk–1; будем обозначать его через gribov090.wmf и называть условным оптимальным управлением на k-мшаге. Основное значение уравнения (2.11), в котором реализована идея динамического программирования, заключается в том, что решение исходной задачи определения максимума функции (2.10) n переменных gribov091.wmf сводится к решению последовательности n задач, задаваемых соотношениями (2.11), каждое из которых является задачей максимизации функции одной переменной gribov092.wmf .

В результате последовательного решения n частных задач на условный максимум определяют две последовательности функций: gribov093.wmf – условные максимумы и соответствующие им gribov094.wmf – условные оптимальные управления. Указанные последовательности функций в дискретных задачах получают в табличной форме, а в непрерывных моделях – аналитически. После выполнения первого этапа (условной оптимизациии) приступают ко второму этапу – безусловной оптимизации.

Если начальное состояние gribov095.wmf задано gribov096.wmf , то непосредственно определяют максимум целевой функции gribov097.wmf , а затем – искомое безусловное оптимальное управление по цепочке

gribov098.wmf (2.12)

Если задано множество S0 начальных состояний gribov099.wmf , то дополнительно решают еще одну задачу на максимум gribov100.wmf , откуда находят gribov101.wmf , а затем по цепочке (2.12) – безусловное оптимальное управление.

В рассмотренных рекуррентных соотношениях предписывают начинать вычисления с последнего этапа и затем передвигаться назад до этапа 1. Такой метод вычислений известен как алгоритм обратной прогонки. Если расчеты осуществляются в естественном порядке следования этапов, то такой метод вычислений известен как алгоритм прямой прогонки.

Приведем рекуррентные соотношения для этого случая. Уравнения состояний для прямого хода удобно записывать в виде gribov102.wmf gribov103.wmf

Введем в рассмотрение условные максимумы показателя эффективности заkшагов, от 1-го до k-говключительно, – величину gribov104.wmf . Повторив приведенные рассуждения, придем к следующей системе уравнений Беллмана:

gribov105.wmf gribov106.wmf

gribov107.wmf

В результате решения этих уравнений получим последовательности

gribov108.wmf gribov109.wmf

Далее определим безусловное оптимальное управление по цепочке

gribov110.wmf

Научная электронная библиотека

Монографии, изданные в издательстве Российской Академии Естествознания

2.4. Принцип оптимальности Беллмана

Научная электронная библиотека
Монографии, изданные в издательстве Российской Академии Естествознания