Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

@pacocat さんが勉強会で発表していた内容の反映 #3

Open
sotetsuk opened this issue Mar 30, 2017 · 3 comments
Open

@pacocat さんが勉強会で発表していた内容の反映 #3

sotetsuk opened this issue Mar 30, 2017 · 3 comments

Comments

@sotetsuk
Copy link
Collaborator

sotetsuk commented Mar 30, 2017

TODO

  • リファレンス等の内容追加(最初の方の文献等) @pacocat
  • 大域的安定解らへんの記述を追加 @pacocat
  • その他調べたり気になったになった点を追加 @pacocat
  • 例のところ: αtがこの値なのには意味があるっぽい?有限回の更新のあとにバイアスがかからないようになってるっぽい? @pacocat or @sotetsuk

参考: https://github.com/sotetsuk/algo-rl-ja/issues/477

@fullflu
Copy link

fullflu commented Apr 12, 2017

  • 「αtがこの値」というのは αt = 1 / (t+1) のことでしょうか?

    • それであれば,αt = ct^{-η} で η = 1, c = 1 とする気持ちで(η=1だと漸近的に最良みたいなことを上で言っている),t = 0 の更新で無限に飛ばないように分母に+1をつけているだけのような気がします
  • そうだとして,素朴に更新式を見ると,n回更新を行ったときの状態3の推定価値は(i回目のrewardをr_iとして)以下のようになる気がしています(要検証).

$\sum_{i=1}^{n} r_i / 2^{n+1-i}$

原文だと以下のように言ってますが,上の式だと原文の記述とは色々矛盾してしまうので,僕が間違ってる気がしますが…(要検証)

At state 3 the TD(0) update reduces to averaging the Bernoulli rewards incurred upon leaving state 3.

@fullflu
Copy link

fullflu commented Apr 12, 2017

何回もエピソードを繰り返すにあたって、αtは1→1/2→1→1/2→1→1/2…と変化するのかと思ってたんですが、そもそもこの認識が違うんでしょうか…?(よくわかってないです)

@fullflu
Copy link

fullflu commented Apr 12, 2017

αtがリセットされないっぽいので,「そうだとして…」以降は気にしないでください
(普通に計算したら原文の通りになりました)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants