Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Learning Latent Dynamics for Planning from Pixels #53

Open
kzmssk opened this issue Jan 22, 2019 · 0 comments
Open

Learning Latent Dynamics for Planning from Pixels #53

kzmssk opened this issue Jan 22, 2019 · 0 comments

Comments

@kzmssk
Copy link
Member

kzmssk commented Jan 22, 2019

観測画像と報酬を確率論的・決定論的なニューラルネットを組み合わせたモデルで予測することでロボット動作のプランニングを行う

論文本体・著者

解きたい問題

  • ロボットシミュレーター上のタスクにおけるプランニングを強化学習で獲得したい
    • プランニングには対象となる環境のダイナミクスをモデル自体が近似する方法(モデルベース)がある
      • モデルフリーな方法と比べて環境から得られる観測などを通して多くの情報を使うことができる
      • 他のタスクへの転移もしやすい
    • しかしモデリングをする対象のデータが動画のように多次元である場合、探索空間が広いために現実的ではない

新規性

  • 観測画像をモデリングしオンラインでプランニングを行うDeep Planning Network (PlaNet)を提案
    • 観測画像空間ではなく、潜在空間で探索を行う
    • 未来予測を確率論的・決定論的に行うモデルを組み合わせた方法をとる
    • 複数ステップ予測を行う際に自ら過去に予測した観測をフィードバックすることによって起こる精度低下を防ぐための損失項を導入

実装

  • 学習対象となる環境がPOMDPだと仮定する: 観測(o), 行動(a), 報酬(r), 隠れ状態(s)
  • プランニングは候補となる行動の組について予測される報酬の期待値を使ってCross-Entropy Method(Algorithm 2)を使って選ぶことに相当する
  • 観測と報酬の予測は複数ステップ(図中だとHステップ)行うため、プランニングの際には自ら予測した隠れ状態をフィードバックする(Algorithm 2の5行目)
alg_1
論文 Algorithm 1 より 提案システム(PlanNet)の学習方法
alg_2
論文 Algorithm 2 より Algorithm 1のplannerの中身
  • 観測と報酬の予測は確率論的・決定論的なニューラルネットを組み合わせたRecurrent state-space model(RSSM)を使う
    • 1つの微分可能なパスが繋がった複数のモデルから構成されている

      • eq_4
    • Deterministic state model: 状態遷移を決定論的に行うRNN

    • Stochastic state model: Determinitic state modelの出力から状態(s)の分布を推定する確率論的なモデル

    • Observation model, Reward model: Determinisitc / Stochastic state modelの出力から観測(o)、報酬(r)の分布を予測する確率論的なモデル

    • 確率論的なモデルはすべてガウス分布の平均と分散を出力するニューラルネットワーク

fig_2
論文 Fig. 2 より (a)は一般的なRNN、(b)は状態sの遷移が確率的に表されたモデル、(c)提案モデル(RSSM)
fig_3
論文 Fig. 3 より 灰色のノードへの実践はnegative log-liklihood、波線矢印はKL divergenceを示す。qは予測された隠れ状態(s)の事後分布。 (a)1ステップ予測のみ (b)観測情報でovershootingが起こる場合 (c)状態空間でovershootingが起こる場合
  • 複数ステップの予測を行う方がよりプランニングの性能が高い
    • 1ステップ予測のみだと状態遷移のモデルに勾配が流れない
    • 複数ステップの予測が入ると予測のパスが2つありえる
      • Open-loop: 常に環境から得られる観測を使って推定された状態
      • Closed-loop: 過去にモデル自らが推定した状態をフィードバックすることで得られる状態推定結果
      • 学習時はOpen-loopだが、プランニングではClosed-loop
      • 両者の方法で推定結果が変わってしまうため抑えるための項(overshooting)が必要
    • 観測情報の空間でovershootingを計算するのは大変なので、予測された隠れ状態の事後分布で計算する
      • Open-loopとClosed-loopでそれぞれ予測された潜在表現間のKL divergenceになる
      • eq_7
      • βは超パラメータ(β-VAEと同様にovershootingの項をどれだけ強くするかを決める)

実験・議論

  • 振り子振り上げなどのDeepMind control suite のタスク6つ
    • 観測:第三者視点のカメラから得られる64x64のカラー画像
    • 行動:操作するロボットのアクチュエーターのトルク
  • A3Cと比べて1/50のエピソード数で性能を超え、最終的にモデルフリーで最も良いD4PGと同程度まで学習できた
fig_4
論文 Fig. 4 より タスクごとの学習曲線(学習時の探索方法の比較)
  • 提案手法(Algorithm 1)を使って学習した場合と、学習データをランダムにロボットを動かすことで得たデータに置き換えた場合ではすべてのタスクで提案手法がよい結果になった
  • Overshootingの有無比較ではFinger Spin, Walker Walkなどの報酬がスパースなタスクで効果がでた
fig_5
論文 Fig. 5 より タスクごとの学習曲線(モデルの比較)
  • 決定論的モデルのみ(Fig. 2のa)、確率論的なモデルのみ(b)と比べて両者を組み合わせた提案モデルが良い性能だった

読んだ中での不明点などの感想

  • オンラインで動いていると書かれているが、実際にCEMのアルゴリズムを遂行するのにどのくらいの計算時間が必要だったのかを知りたい
  • 予測された観測画像の分散がどのように分布しているのかが知りたかった
    • 今回のタスクであれば背景よりも変わりうるロボット周辺が高くなっていそう

関連論文

@kzmssk kzmssk changed the title Learning Latent Dynamics for Plannning from Pixels Learning Latent Dynamics for Planning from Pixels Feb 5, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants