diff --git "a/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md" "b/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md" index ead02da..f78cc2c 100644 --- "a/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md" +++ "b/\346\231\272\350\203\275\346\227\240\344\272\272\347\263\273\347\273\237/4.\350\277\201\347\247\273\345\255\246\344\271\240\345\222\214\345\274\272\345\214\226\345\255\246\344\271\240\345\234\250\346\227\240\344\272\272\351\251\276\351\251\266\344\270\255\347\232\204\345\272\224\347\224\250.md" @@ -165,15 +165,15 @@ ## 强化学习原理及过程 -- 个体,Agent,学习器角色,也称为智能体 -- 环境,Environment,Agent 之外一切组成的、与之交互的事物 -- 动作,Action,Agent 的行为 -- 状态,State,Agent 从环境获取的信息 -- 奖励,Reward,环境对于动作的反馈 +- 个体 (Agent),学习器角色,也称为智能体 +- 环境 (Environment),Agent 之外一切组成的、与之交互的事物 +- 动作 (Action),Agent 的行为 +- 状态 (State),Agent 从环境获取的信息 +- 奖励 (Reward),环境对于动作的反馈 ![强化学习原理及过程](./image/强化学习原理及过程.png) -智能体首先从环境中获取一个状态 $O_t$,然后根据 $O_t$ 调整自身的策略做出行为 $A_t$ 并反馈给环境,环境根据智能体的动作给予智能体一个奖励 R,智能体和环境之间通过不断地交互学习,得到一个 { $O_t,A_t,R$ } 的交互历史序列 +智能体首先从环境中获取一个状态 $O_t$,然后根据 $O_t$ 调整自身的策略做出行为 $A_t$ 并反馈给环境,环境根据智能体的动作给予智能体一个奖励 R,智能体和环境之间通过不断地交互学习,得到一个 $\set{O_t,A_t,R}$ 的交互历史序列 ### 马尔可夫决策过程 @@ -285,7 +285,7 @@ $$ 用状态 - 行为值函数衡量当前行为的好坏,其数学表达式为 $$ -q_{\pi}(s, a) = E_{\pi}[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} | S_t = s, A_t = a] +q_{\pi}(s, a) = E_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} | S_t = s, A_t = a\right] $$ 在一般情况下,状态 - 值函数和状态 - 行为值函数之间的关系表示为