We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
利用と探索のバランスを動的に変えることでATARIのゲーム57個全てで人間を超えする強化学習エージェントの提案
背景
汎用的な強化学習エージェントが難しい理由である問題2つ
長期戦略(Long-term credit assignment): 長い時間をかけた複数の行動選択の結果得られた報酬をどのように割り当てれば良いのかはタスク依存。例:"Skiiing"ではゲーム終了時まで報酬(=スコア)が与えられない。
探索: 正の報酬を得るためにいくつもの報酬ゼロな行動選択を行わないといけない場合がある。例:"Montezuma's Revenge"ではマップを巡ってアイテムを取らないと先に進めない
行動価値の分離
Meta-Controller
学習フレームワークはR2D2と同様に複数のActorと1つのLearnerによる分散強化学習
The text was updated successfully, but these errors were encountered:
No branches or pull requests
利用と探索のバランスを動的に変えることでATARIのゲーム57個全てで人間を超えする強化学習エージェントの提案
論文本体・著者
解きたい問題
背景
汎用的な強化学習エージェントが難しい理由である問題2つ
長期戦略(Long-term credit assignment): 長い時間をかけた複数の行動選択の結果得られた報酬をどのように割り当てれば良いのかはタスク依存。例:"Skiiing"ではゲーム終了時まで報酬(=スコア)が与えられない。
探索: 正の報酬を得るためにいくつもの報酬ゼロな行動選択を行わないといけない場合がある。例:"Montezuma's Revenge"ではマップを巡ってアイテムを取らないと先に進めない
新規性
実装
行動価値の分離
Meta-Controller
学習フレームワークはR2D2と同様に複数のActorと1つのLearnerによる分散強化学習
実験・議論
読んだ中での不明点などの感想
関連論文
The text was updated successfully, but these errors were encountered: