при этом
d (3) = [2 2]'.
Заметим, что если до конца остался лишь один период времени, то неоптимально ремонтировать машину, а если до конца осталось два или три периода, то будет оптимально ее отремонтировать, если она находится в состоянии 2 (требует регулировки)1.
а) ОПТИМАЛЬНЫЕ СТАЦИОНАРНЫЕ СТРАТЕГИИ
Только что рассмотренный метод решения позволяет нам получить оптимальные решающие правила для случая, когда до конца осталось п переходов. Предположим, что мы заинтересованы в прибыльности системы в течение большого срока времени и хотели бы максимизиро вать ожидаемое вознаграждение g за период. Эта задача может быть решена повторным применением методов, описанных в параграфе 4, т. е. мы можем взять по очереди все решающие правила, вычислить соответствующие матрицы Р и R, вектор стационарных вероятностей х', вектор ожидаемого вознаграждения за следующий период q и ожи даемое стационарное вознаграждение g = x'q. Тогда простое сравне ние величин g для различных решающих правил определит оптималь ную стационарную стратегию, т. е. то решающее правило, которое максимизирует стационарное ожидаемое вознаграждение,? за период2. Например, стационарной стратегией для примера из предыдущего параграфа, максимизирующей ожидаемое вознаграждение, является «ремонтировать машину, если она этого требует», и ожидаемое вознаг раждение равно 1,33 доллара за период (см. упражнение 13).
б) ОПТИМАЛЬНЫЕ СТРАТЕГИИ С ДИСКОНТОМ
Во многих проблемах экономики при рассмотрении денежных потоков в различные моменты времени следует принимать во внима ние изменение стоимости денег с течением времени. По этой причине было бы весьма желательным иметь возможность дисконтирования будущих доходов; ктомуже привлечение соображений, связанных сдисконтированием, к нашей проблеме выбора решения приведет к тому, что полученная оптимальная стратегия будет быстрее сходиться к опти мальной стационарной стратегии при п, стремящемся к бесконечности.
Дисконтирование непосредственно дополняет рассмотренную на-
ми схему; пусть а = ^ 1 ^ — дисконтный множитель, соответствую
1Общее применение рекурсивной оптимизации, которую мы только что опи сали, называется динамическим программированием. Для предварительного ознакомления см. [3], а для более полного изучения см. [1] или [2 ].
Существуют другие методы, которые обеспечивают систематический поиск оптимальной стационарной стратегии без анализа всех возможностей, см. [5].