深層強化学習ライブラリChainerRL

深層強化学習ライブラリChainerRL
BRANK

Chainerを使った深層強化学習ライブラリChainerRLを公開しました． Learning（強化学習）の略です．以下のような最近の深層強化学習アルゴリズムを共通のインタフェースで使えるよう実装してまとめています．Deep Q-Network (Mnih et al., 2015)Double DQN (Hasselt et al., 2016)Normalized Advantage Function (Gu et al., 2016)(Persistent) Advantage Learning (Bellemare et al., 2016)Deep Deterministic Policy Gradient (Lillicrap et al., 2016)SVG(0) (Heese et al., 2015)Asynchronous Advantage Actor-Critic (Mnih et al., 2016)Asynchronous N-step Q-learning (Mnih et al., 2016)Actor-Critic with Experience Replay (Wang et al., 2017)etc.A3CでAtari 2600のゲームをプレイするexampleや，DDPGでヒューマノイドロボットの制御を学習するexampleなどがあります．以下では簡単にChainerRLの使い方を説明します．まず，強化学習を使って問題を解くには，解きたい問題（”環境”と呼びます）をしっかり定義する必要があります．環境の定義の仕方は，OpenAIが公開している強化学習ベンチマーク環境のGym（ = YourEnv() # reset は環境をリセットして現在の観…

research.preferred.jp 7 years ago

Open page

https://research.preferred.jp/2017/02/chainerrl/