We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
参考: https://github.com/sotetsuk/algo-rl-ja/issues/477
The text was updated successfully, but these errors were encountered:
「αtがこの値」というのは αt = 1 / (t+1) のことでしょうか?
そうだとして,素朴に更新式を見ると,n回更新を行ったときの状態3の推定価値は(i回目のrewardをr_iとして)以下のようになる気がしています(要検証).
$\sum_{i=1}^{n} r_i / 2^{n+1-i}$
原文だと以下のように言ってますが,上の式だと原文の記述とは色々矛盾してしまうので,僕が間違ってる気がしますが…(要検証)
At state 3 the TD(0) update reduces to averaging the Bernoulli rewards incurred upon leaving state 3.
Sorry, something went wrong.
何回もエピソードを繰り返すにあたって、αtは1→1/2→1→1/2→1→1/2…と変化するのかと思ってたんですが、そもそもこの認識が違うんでしょうか…?(よくわかってないです)
αtがリセットされないっぽいので,「そうだとして…」以降は気にしないでください (普通に計算したら原文の通りになりました)
No branches or pull requests
TODO
参考: https://github.com/sotetsuk/algo-rl-ja/issues/477
The text was updated successfully, but these errors were encountered: