@pacocat さんが勉強会で発表していた内容の反映 #3

sotetsuk · 2017-03-30T09:46:04Z

TODO

fullflu · 2017-04-12T02:08:19Z

「αtがこの値」というのは αt = 1 / (t+1) のことでしょうか？
- それであれば，αt = ct^{-η} で η = 1, c = 1 とする気持ちで（η=1だと漸近的に最良みたいなことを上で言っている），t = 0 の更新で無限に飛ばないように分母に+1をつけているだけのような気がします
そうだとして，素朴に更新式を見ると，n回更新を行ったときの状態3の推定価値は（i回目のrewardをr_iとして）以下のようになる気がしています（要検証）．

$\sum_{i=1}^{n} r_i / 2^{n+1-i}$

原文だと以下のように言ってますが，上の式だと原文の記述とは色々矛盾してしまうので，僕が間違ってる気がしますが…（要検証）

At state 3 the TD(0) update reduces to averaging the Bernoulli rewards incurred upon leaving state 3.

fullflu · 2017-04-12T02:30:22Z

何回もエピソードを繰り返すにあたって、αtは1→1/2→1→1/2→1→1/2…と変化するのかと思ってたんですが、そもそもこの認識が違うんでしょうか…？（よくわかってないです）

fullflu · 2017-04-12T12:37:50Z

αtがリセットされないっぽいので，「そうだとして…」以降は気にしないでください
（普通に計算したら原文の通りになりました）