Skip to content

Latest commit

 

History

History
19 lines (10 loc) · 5.7 KB

410_Stochastic_systems.md

File metadata and controls

19 lines (10 loc) · 5.7 KB

4.10 随机系统

  即便系统观测中带有噪声,若考虑将状态的条件概率分布作为“超状态”,同样可以使用动态规划(Åström,1965)。 Striebel (1965)对分离策略的最优性进行了深入研究。

  对于线性高斯系统,根据分离定理,由于条件概率服从高斯分布,超状态为有限维,于是可由条件均值和条件协方差完全描述。如4.8节所述,当代价函数进一步取为状态和控制的二次函数,则可得到确定性等价分离定理 (Joseph & Tou, 1961; Potter, 1964; Simon, 1956; Theil, 1959; Georgiou & Lindquist, 2012)。由代价的二次型指数形式期望值组成的代价函数也可以显式求解,因为它是乘性可分解的(Jacobson,1973)。这样的代价函数可用于风险规避或风险追求行为的建模,与微分对策和鲁棒控制也有联系。

  贝尔曼还阐述了这样一个事实,当参数未知时,如果将未知参数的条件分布视为超状态,动态规划可用于开发系统的自适应控制器(Bellman, 1961)。在此情形下,控制服务于双重目的,既是激励系统并决定系统特性的工具,也是移动系统状态到目标区域的工具。Feldbaum称之为“双重控制” (Fel’dbaum, 1961)。

  从概念上讲,使用动态规划来设定和解决自适应控制问题是非常有吸引力的。然而,庞大的状态空间带来显著的计算问题——维度灾难。因此,人们去追求一种非贝叶斯确定性等价的替代方法,继而形成了自整定方法;参见4.12节。一种早期尝试的贝叶斯方法是用一个二次函数局部逼近损失函数 (Mayne & Jacobson, 1970);另一种途径是用蒙特卡洛方法来估计未来代价(Bertsekas & Tsitsiklis, 1996)。

  一个特殊的自适应控制问题是多臂赌博机问题,该问题抓住了控制的双重角色所体现的权衡精髓。自适应控制问题化身为一种更有用的版本,是对功效未知药物的测试问题进行了建模。在赌博机的版本中,以若干回报概率未知的老虎机作比方,概率本身被建模为具有先验概率分布的随机变量。一个沉迷于老虎机的赌徒每天必须玩一个摇臂,目标是通过玩摇臂获得最大的总回报。这个问题很特别,如果一个摇臂哪天没玩,就对这个摇臂的回报一无所知;因此,它的超状态没有改变。对于回报打折的情形, Gittins和Jones (1974)证明该著名问题具有引人入胜的结构。每个摇臂都有一个由其超状态定义的指标,最佳策略就是玩有最高指标的摇臂。一个摇臂的指标是打折后的最大期望回报,其高达停止时间除以折扣时间。

  随着强大计算能力的出现,“部分观测的马尔可夫决策过程”问题 (POMDPs)(Smallwood & Sondik, 1973)作为一种在机器学习和人工智能中建模与求解问题的方法论获得了高度关注 (Geffner & Bonet, 1998; Nair,Tambe, Yokoo, Pynadath, & Marsella, 2003; Ng & Jordan, 2000; Pineau, Gordon, & Thrun, 2003; Shani, Pineau, & Kaplow, 2013; Spaan & Vlassis, 2005; Thrun, 2000)。

  从二十世纪五十年代末期开始,非线性系统的最优滤波器研究引起人们极大的兴趣。对于离散时间情形,给定过去噪声的测量,获取系统状态的条件分布可简单归结为贝叶斯规则的一个应用。考虑贝叶斯规则中忽略分母的非归一化分布,可以获得条件分布的线性递推方程 (Kumar & Varaiya, 1986)。在非线性随机微分方程代表的连续时间情形中,其最优滤波方程也是非线性的 (Fujisaki, Kallianpur, & Kunita, 1972;Kushner, 1964, 1967; Stratonovich, 1959)。然而,通过非归一化概率分布的传播,最终得到的方程是线性的(Duncan, 1967, 1969; Mortensen, 1966; Zakai,1969)。其核心困难是,除了特殊情况外,滤波器一般不是有限维的。就像动态规划中的情形一样,随着可用的计算机越来越快,人们可以明智的利用这种计算能力进行仿真来接近未知分布;该分支的一个例子是用于非线性非高斯分布系统的粒子滤波器 (Gordon, Salmond, & Smith, 1993; Handschin & Mayne, 1969)。

  早在二十世纪六十年代,就已经出现了发展连续时间系统随机控制理论的兴趣 (Fleming,1963; Florentin, 1961)。在二十世纪六、七十年代,对于发展非线性随机连续系统的最优控制理论做出了巨大努力,这些系统用部分观测系统的随机微分方程描述。正如Mitter(1996)所指出的,这些成果主要在数理金融学中找到了应用 (Merton&Samuelson, 1990)。该领域有着艰深的数学挑战,几个控制研究者钻研进来,并将前沿数学研究引入随机微分方程和鞅论中。有关随机微分方程解的性质,最优解的存在性,部分(有噪声干扰)观测情况下最优解的表示等问题得到了研究(Beneš, 1971; Clark, 1978; Davis, 1980; Duncan & Varaiya, 1971,1975; Fleming & Pardoux, 1982; Florentin, 1962)。Borkar(1989)对此作了很好的记录。哈密顿-雅可比-贝尔曼方程解的存在性问题通过粘性方法得以处理 (Crandall & Lions, 1983; Lions, 1983a,b, 1989)。

  最初受到生物学问题的启发,Snyder(1972)发展了一种用于计数过程的滤波理论。问题有意思的是在给定“滴答”测量的情况下估计过程的基本强度。该问题刺激了随机过程中大量的数学工作(Boel, Varaiya, &Wong, 1975; Bremaud, 1972; Van Schuppen, 1977),并在排队系统中找到了用武之地 (Brémaud, 1981)。一个例子是用于分析排队网络中的客户流量(Walrand & Varaiya, 1981)。点过程的随机控制也得到了研究 (Boel & Varaiya, 1977)。