4.5. 动态规划

　　20世纪五十年代，由美国空军支持的兰德智库公司(RAND corporation)对多级决策很感兴趣。理查德•贝尔曼迷上了这个问题。他开创了动态规划领域，并发展了最优化原理(Bellman, 1957b)。动态规划在随机系统的情形下非常有趣，因为它以状态反馈形式提供最优策略。Howard发展了策略迭代算法(Howard, 1960)（见4.14节），该算法在状态量和动作数量有限的情况下能高效地确定最优策略。该算法在运筹学和工业工程中非常流行（见4.14节）。Blackwell (1962)进一步优化了该算法。他全面地展示了在无限时间步长情况下正、负代价函数，以及折扣代价函数带来的差别(Blackwell, 1965, 1967, 1970; Strauch, 1966)。连续时间版本的动态规划方程称为最优代价函数的哈密顿-雅可比-贝尔曼方程（HJB方程）。

　　然而动态规划计算很复杂，一直受困于“维数的诅咒”。如今随着高速计算机开始普及，利用非线性函数逼近代价函数的方法——比如神经网络——已经引起人们的关注。1995年，TD-Gammon——一种基于时序差分的学习机制，利用了自我训练的神经网络——达到了世界级人类玩家的水平。

　　动态规划对于发现最优方案的定性性质也已经变得有用。如4.14节所述，人们已经发现该方法在诸如库存控制和生产规划等领域中极其有用（Veinott, 1965; Bielecki & Kumar, 1988）。马尔可夫决策过程是一种对于有限状态随机系统的动态规划，它是运筹学研究与工业工程系课程中是标准的一部分。

　　人们已经发现动态规划具有广泛的适用性。在互联网中，用于决定图上两个节点间最短路径的分布式Bellman-Ford算法是像RIP（Hedrick, 1988; Malkin, 1988）和IGRP（2012）等基于距离矢量的路由算法中的关键部分。随着机器学习和人工智能对快速计算方法的兴趣日益增长，使用动态规划思想正变得广泛。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

45_Dynamic_programming.md

45_Dynamic_programming.md

4.5. 动态规划

Files

45_Dynamic_programming.md

Latest commit

History

45_Dynamic_programming.md

File metadata and controls

4.5. 动态规划