20世纪五十年代,由美国空军支持的兰德智库公司(RAND corporation)对多级决策很感兴趣。理查德•贝尔曼迷上了这个问题。他开创了动态规划领域,并发展了最优化原理(Bellman, 1957b)。动态规划在随机系统的情形下非常有趣,因为它以状态反馈形式提供最优策略。Howard发展了策略迭代算法(Howard, 1960)(见4.14节),该算法在状态量和动作数量有限的情况下能高效地确定最优策略。该算法在运筹学和工业工程中非常流行(见4.14节)。Blackwell (1962)进一步优化了该算法。他全面地展示了在无限时间步长情况下正、负代价函数,以及折扣代价函数带来的差别(Blackwell, 1965, 1967, 1970; Strauch, 1966)。连续时间版本的动态规划方程称为最优代价函数的哈密顿-雅可比-贝尔曼方程(HJB方程)。
然而动态规划计算很复杂,一直受困于“维数的诅咒”。如今随着高速计算机开始普及,利用非线性函数逼近代价函数的方法——比如神经网络——已经引起人们的关注。1995年,TD-Gammon——一种基于时序差分的学习机制,利用了自我训练的神经网络——达到了世界级人类玩家的水平。
动态规划对于发现最优方案的定性性质也已经变得有用。如4.14节所述,人们已经发现该方法在诸如库存控制和生产规划等领域中极其有用(Veinott, 1965; Bielecki & Kumar, 1988)。马尔可夫决策过程是一种对于有限状态随机系统的动态规划,它是运筹学研究与工业工程系课程中是标准的一部分。
人们已经发现动态规划具有广泛的适用性。在互联网中,用于决定图上两个节点间最短路径的分布式Bellman-Ford算法是像RIP(Hedrick, 1988; Malkin, 1988)和IGRP(2012)等基于距离矢量的路由算法中的关键部分。随着机器学习和人工智能对快速计算方法的兴趣日益增长,使用动态规划思想正变得广泛。