Динамическое программирование

Метод динамического программирования был предложен Беллманом. Решение задач проводится по этапам , с каждым из которых связана только одна управляемая переменная. В основу динамического программирования положен принцип оптимальности, открытый Беллманом, который позволяет получить рекуррентные соотношения, связывающие различные этапы.

Задача формулируется как процесс распределения некоторых ресурсов. Эти ресурсы могут быть употреблены различными способами из-за их ограниченности и столкновения интересов. Каждый способ распределения называется процессом. В результате употребления всех ресурсов или их части в каком-либо процессе получаем некий доход, который может быть выражен в тех же единицах, что и ресурсы или в других. Размер дохода зависит от количества потребленных ресурсов и от выбранного процесса.

Основные предположения

1) доходы, полученные от разных процессов могут быть оценены общей единицей измерения

2) доход, полученный от любого процесса не зависит от того, какие количества ресурсов были выделены для других процессов

3) общий доход равен сумме доходов, полученных от отдельных процессов .

Основная задача: распределить ресурсы так, чтобы получить максимальный доход. Пусть имеется N различных процессов, каждому процессу соответствует функция полезности, выражающая зависимость дохода при этом процессе от количества выделенных ресурсов g(xi), где x_i-количество ресурсов, выделенных для i-го процесса. Функция полезности имеет следующий вид

Рисунок 15.Функция полезности.

1) Небольшое количество выделенных ресурсов не дает доходов

2) Увеличение количества ресурсов приводит к эффекту насыщения.

Независимость процессов и аддитивность доходов позволяет записать общий доход в виде

R(x₁,x₂,...x_N)=g₁(x₁)+g₂(x₂)+...g_N(x_N) (1)

Задача максимизации возникает по причине ограниченности ресурсов.

x=x₁+x₂+x₃+...x_N, где x_i>=0. (2)

Вместо рассмотрения одной задачи с данным количеством ресурсов и фиксированным числом процессов Беллман предложил рассмотреть целое семейство задач, в которых x может принимать любое больше 0 значение x>0 и N может быть любым целым числом. Сначала какое то количество ресурсов назначается n-му процессу, затем (n-1)-му и т.д. Функция R(x₁,...x_N)=f(x,N) зависит от x и N. Выделим эту зависимость в явном виде, задав последовательность функций {f_N(x)}, определенных для N=1,2,...x>=0 следующим образом

f_N(x)=max R(x₁,x₂,..,x_N) (3)

где x_i>=0 и S_i=1^N x_i=x.

Функция f_N(x) определяет оптимальный доход, получаемый от распределения x ресурсов по N-процессам. В двух частных случаях функцию можно записать в явном виде

f_N(0)=0 при N=1,2,... (4)

Если g_i(0)=0 для любого i, то f₁(x)=g₁(x) для x>=0.

Найдем рекуррентные соотношения, связывающие f_N(x) с f_N-1(x) для любых x,N. Пусть x_N-количество ресурсов, выделенных для N-го процеса, 0<=x_N<=x. Каково бы ни было значение x_N, мы знаем, что остающееся количество ресурсов будет использованы так, чтобы получить максимальный доход от оставшихся (N-1) процессов. Это и есть принцип оптимальности Беллмана: Оптимальное поведение обладает тем свойством, что каковы бы ни были первоначальные состояния и решение в начальный момент, последующие решения должны составлять оптимальное поведение относительно состояния , получающегося в результате первого решения. Так как этот оптимальный доход от распределения количества ресурсов x-x_N по N-1 оставшихся процессов по определению есть f_N-1(x-x_N) , то назначение x_N для N-го процесса приводит к общему доходу. Ясно, что такой выбор x_N, который максимизирует эту функцию? Мы получаем основное функциональное уравнение Беллмана

f_N(x)=max[g_N(x_N)+f_N-1(x-x_N)]

n=2,3,..x>=0,0<=x_N<=x. f₁(x) определяется по формуле (5).

Основными элементами модели являются:

1) этапы 2) состояние на каждом этапе 3)варианты ,решения на этапе.

Пример:

Судно загружается предметами N-типов, каждый предмет типа i имеет вес W_i и стоимость v_i. Грузоподъемность судна- W. Определить максимальную стоимость груза, вес которого не превышает W.

W=5 i W_i V_i

N=3 1 2 65

2 3 80

3 1 30

Обозначим через k_i количество предметов i-го типа. Tогда задача сводится к типу:

v₁k₁+v₂k₂+...+v_Nk_N

w₁k₁+w₂k₂++...+w_Nk_N<=W

1) этап j (j=1...N) ставится в соответствие типу предмета.

2) состояние y_j на этапе j выражает суммарный вес предмета.

3) варианты решения k_j - описывается количеством предметов типа j.

k_j в интервале от 0 до [W/W_j].

Запишем алгоритм для прямой прогонки

f₁(x)=max[x₁/w₁]*v₁, где [ ] наибольшее целое <=w

f_n(x)=max{k_nv_n+f_n_-1(x-k_nw_n)}

k_n

где k_n пробегает по значениям 0,1,....[x/w_n].

Данная задача будет содержать 3 этапа, так как имеется три типа предметов,n=3.

Этап 1

f₁(x₁)=max[x₁/w₁]*v₁=max{k₁v₁},w₁=2,v₁=65,w=5.

k₁=0,1,...[x₁/w₁], x₁=0,1,...w

Строим таблицу

x₁	k₁=0	1	2	f₁(x₁)	k*₁
0	0	-	-	0	0
1	0	-	-	0	0
2	0	65	-	65	1
3	0	65	-	65	1
4	0	65	130	130	2
5	0	65	130	130	2

Для следующих этапов функция рассчитывается по формуле

f_n(x_n)=max{k_nv_n+f_n_-1(x_n-k_nv_n)}

k_n=0,1,...[x_n/w_n],x_n=0,1,..w

Этап 2

f₂(x₂)=max{k₂v₂+f₁(x₂-k₂v₂)}, v₂=80,w₂=3

k₂=0,1,...[x₂/w₂] x₂=0,1,...w

80k₂+f₁(x₂-3k₂)
x₂	k₂=0	1	2	f₂(x₂)	k₂
0	0+0	-	-	0	0
1	0+0	-	-	0	0
2	0+65	-	-	65	0
3	0+65	80+0	-	80	1
4	0+130	80+0	-	130	0
5	0+130	80+65	-	145	1

Этап 3

f₃(x₃)=max{k₃v₃+f₂(x₃-k₃v₃)}

k₃=0,1,...[x₃/w₃], x₃=0,1,....w w₃=1 v₃=30

30*k₃+f₂(x₃-k₃)
x₃	k₃=0	1	2	3	4	5	f₃(x₃)	k₃
0	0	-	-	-	-	-	0	0
1	0+0	30+0	-	-	-	-	30	1
2	0+65	30+0	60+0	-	-	-	65	0
3	0+80	30+65	60+0	90+0	-	-	95	1
4	0+130	30+80	60+65	90+0	120+0	-	130	0
5	0+145	30+130	60+80	90+65	120+0	150+0	160	1

Последняя таблица дает ответ, что оптимальный вариант 1 предмет первого типа и 2 предмета третьего типа.