diff --git a/README.md b/README.md index 1bd2b7c..66102d0 100644 --- a/README.md +++ b/README.md @@ -1 +1,65 @@ # rl-tokyo/survey +強化学習論文のサーベイ用リポジトリです。 + +## 論文追加方法 +- テンプレートから一つのmdファイルを生成してそこに一つの論文に関する情報・まとめ・コメントを加えて行きます。 +- 基本的に1PR1論文。まとめ事項などに対してレビューが入った場合は対応をお願い致します。 + +#### 例 + +```sh +$ ./init.sh +title: +PGQ: Combining policy gradient and Q-learning +$ ls papers +PGQ: Combining policy gradient and Q-learning.md +... +``` + +生成された`papers/PGQ: Combining policy gradient and Q-learning.md` にまとめ事項やコメント等を書いてPRを出してください。 + +## 記述項目について +複数人でサーベイしてもバラバラの書き方ではメリットを享受できないため、ある程度フォーマットを決めています。 +ただ細かすぎると投稿者が減ってしまうので、最低限の必要事項は少なくしてあります(**太字**)。 + +#### 例: + +- [記述項目をほぼすべて埋めた例](https://github.com/rl-tokyo/survey/blob/master/papers/%5BEXAMPLE%5D%20PGQ:%20Combining%20policy%20gradient%20and%20Q-learning.md) +- [最低限の記述項目だけ埋めた例](https://github.com/rl-tokyo/survey/blob/master/papers/%5BEXAMPLE-short%5D%20PGQ:%20Combining%20policy%20gradient%20and%20Q-learning.md) + +### 論文情報 + +- **タイトル** (required) +- **リンク** (required) +- **出版年** (required) +- ジャーナル・カンファレンス (optional) : +- 著者 (optional) +- 所属 (optional) +- 関連リンク (optional) +- タグ (optional) + +### (客観的な)論文まとめ +各最大3行以内が目安 + +- **概要** (required): 何をしたのか?(一体どういったことをしている論文なのかをひと言で) +- 目的 (optional): 何故したのか?(何故この研究をしたのか・何故その手法を提案したのかの理由をひと言で) +- 貢献(新規性・差分)(optional): これまでの先行研究とどこが違うのか?を一言で +- 手法 (optional): どうやってしたのか?(手法のポイントをひと言で) +- 結果 (optional): どうなったのか?(結果がどういう指標で、どうだったのかをひと言で) + - ここでは (1) どのように (2) なにを示した(主張した)のかが分かるように + - (1) データセット・タスク・評価指標 + - (2) 結果としてどうなったか + +その他、強化学習理論において一般的な定理があればそれについても言及されているとよい + +- 定理の主張 (optional) +- 定理の証明方法 (optional) + +### 次に読むべき論文 +これも必須ではないが関連する論文があれば記述 + +### 主観部分 + +- **コメントを書いたアカウント名** (required) +- **点数** (required):(必読に値するかを1から10段階評価で) +- フリーコメント (optional): (主張が素直に受け入れられない点や、考えられる改善点、感銘を受けた点など) diff --git a/init.sh b/init.sh new file mode 100755 index 0000000..8121d59 --- /dev/null +++ b/init.sh @@ -0,0 +1,15 @@ +#!/bin/sh + +echo "title:" +read TITLE + +MD_FILE=papers/$TITLE.md + +cat template.md | while read line +do + if [ `echo "$line" | grep 'TITLE'` ]; then + echo "# "${TITLE} >> $MD_FILE + else + echo "$line" >> $MD_FILE + fi +done diff --git a/papers/[EXAMPLE-short] PGQ: Combining policy gradient and Q-learning.md b/papers/[EXAMPLE-short] PGQ: Combining policy gradient and Q-learning.md new file mode 100644 index 0000000..741d471 --- /dev/null +++ b/papers/[EXAMPLE-short] PGQ: Combining policy gradient and Q-learning.md @@ -0,0 +1,43 @@ +# PGQ: Combining policy gradient and Q-learning + + + +- 論文リンク: https://arxiv.org/abs/1611.01626 +- 出版年: 2017 + + + + + + +## まとめ + +#### 概要 +エントロピー正則化付きの方策勾配法とQ学習を組み合わせた新しいアルゴリズムPGQを提案し、DQNやA3Cに対する優位性をAtariドメインで実験的に示した。 +Atariの50以上のゲームにおいて、DQNとA3Cと比較したとき3アルゴリズム中PGQが最下位になったのは1つのゲームだけという高い性能を示した。 + + + + + + + + + + + + + + + +## コメント + +#### @sotetsuk: 8/10 +- 方策勾配法はナイーブな定式化では探索をすることができずに方策が決定論的になりがちだが、探索を促すエントロピー正則化を使った方策勾配法がある意味でより自然な定式化かもしれない、という示唆とも捉えることができて面白い。 +- Eq.4からπとVだけを使って(妥当な)Qを計算しているのがPGQのポイントだと思った。 diff --git a/papers/[EXAMPLE] PGQ: Combining policy gradient and Q-learning.md b/papers/[EXAMPLE] PGQ: Combining policy gradient and Q-learning.md new file mode 100644 index 0000000..56528d8 --- /dev/null +++ b/papers/[EXAMPLE] PGQ: Combining policy gradient and Q-learning.md @@ -0,0 +1,49 @@ +# PGQ: Combining policy gradient and Q-learning + + + +- 論文リンク: https://arxiv.org/abs/1611.01626 +- 出版年: 2017 +- ジャーナル・カンファレンス: ICLR +- 著者: Brendan O'Donoghue, Remi Munos, Koray Kavukcuoglu, Volodymyr Mnih +- 所属: DeepMind +- 関連リンク: + - [openreview](https://openreview.net/forum?id=B1kJ6H9ex) +- タグ: + - :q-learning: + - :policy gradient: + - :atari: + - :neural network: + +## まとめ + +#### 概要 +エントロピー正則化付きの方策勾配法とQ学習を組み合わせた新しいアルゴリズムPGQを提案し、DQNやA3Cに対する優位性をAtariドメインで実験的に示した。 + +#### 目的 +方策勾配法は方策オン型で経験再生を使えずサンプル効率が悪いため、Q学習(方策オフ型)と組み合わせてこれを解決したい。 + +#### 貢献(新規性・差分) +1. エントロピー正則化付きの方策勾配法の推定している方策πが、πに基づくアドバンテージ関数Aによって表せることを示した (Sec.3.1, 3.2, Eq.4) +2. 上記の関係を用いてPGQを提案・評価した (Sec.4., 5.) +3. Actor-critic法 (e.g., ベースライン付きの方策勾配法) の更新則と行動価値ベースの手法(e.g., SARSA, Q学習)の更新則が(特殊な場合に)等価であることを示した (Sec. 3.3) + +#### 手法 +PGQはまず、エントロピー正則化付きの方策勾配法で推定しているπと、この方策に基づくアドバンテージAの関係 (Eq.4) を使って、方策勾配法の推定しているπとVから、πに基づくQを計算する。このQがベルマン最適方程式に従うよう正則化をかけた方策勾配法の目的関数を最適化する。この正則加項部分の最適化をQ学習と同じく経験再生を使って行う。 + +#### 結果 + +##### 1. Atariドメインでの評価 +Atariの50以上のゲームにおいて、得られた報酬に基づくスコアによる評価を行い、DQNとA3Cと比較を行った。 +50以上のゲームにおける平均スコアだけでなくスコアの中央値でも人間のスコアを上回り、PGQとDQNとA3Cの3アルゴリズム中最下位になったのは1つのゲームだけだった。 + + + +## 次に読むべき論文 +- Nachum et al. (2017) [Bridging the Gap Between Value and Policy Based Reinforcement Learning](https://arxiv.org/abs/1702.08892) + +## コメント + +#### @sotetsuk: 8/10 +- 方策勾配法はナイーブな定式化では探索をすることができずに方策が決定論的になりがちだが、探索を促すエントロピー正則化を使った方策勾配法がある意味でより自然な定式化かもしれない、という示唆とも捉えることができて面白い。 +- Eq.4からπとVだけを使って(妥当な)Qを計算しているのがPGQのポイントだと思った。 diff --git a/template.md b/template.md new file mode 100644 index 0000000..de680a6 --- /dev/null +++ b/template.md @@ -0,0 +1,138 @@ +TITLE + + + + + + +- 論文リンク: +- 出版年: + + + + + + + + +## まとめ + +#### 概要 + + + + + + + + + + + + + + + + +## コメント + + +#### @XXX: X/10 +- + + + + + + diff --git a/tmb/PGQ: Combining policy gradient and Q-learning.png b/tmb/PGQ: Combining policy gradient and Q-learning.png new file mode 100644 index 0000000..d6449a1 Binary files /dev/null and b/tmb/PGQ: Combining policy gradient and Q-learning.png differ