Playing Atari with Deep Reinforcement Learning(2013)

#強化学習

February 9, 2020

概要

深層強化学習をAtari2600の7つのゲームに応用し、うち6つについて先行手法の性能を超えたDeep Q-Networks(DQN)を提案した論文である。ピクセルデータを直接入力として与え、深層学習で方策を学習する手法としては初めて提案された。

アルゴリズム

DQNは、Q関数の関数近似噐に畳み込みニューラルネットワーク(CNN)を使う適合Q反復法である。環境$\epsilon$を推定しないモデルフリー型で、環境の相互作用から得た大量のデータから方策を学習するバッチ学習に分類される。確率的勾配降下法によりモデルの重みを更新する。ただし、時間ステップの近い経験データ間には強い相関があるが、SGDは経験をiidに観測できていることを想定している。そこで、経験データを一様に乱択する経験再生で選ばれた経験データで重みを更新する。 DQNのアルゴリズムを以下に示す。方策モデルには、$\epsilon$貪欲方策が採用されている。ただし、$x_i$は画面のイメージ、CNNに入力するために可変長の履歴データを固定長に変換する関数を$\phi$とする。 algorithm 図の方程式3は、ベルマン方程式のQ関数を重みを$\theta$とする関数近似噐$Q(s,a;\theta_i)$で近似したときの損失関数$L_i(\theta_i)$を $$ L_i(\theta_i)=\mathbb{E}_{s,a\sim \rho (\cdot) }\big[(y_i - Q(s,a;\theta_i))^2\big] $$ としたときの勾配$\nabla_{\theta_i}L_i(\theta_i)$ $$ \nabla_{\theta_i}L_i(\theta_i) = \mathbb{E}_{s,a\sim \rho(\cdot);s’\sim\epsilon}[\left(r+\gamma\max_{a’}Q(s’, a’;\theta_{i-1})-Q(s,a;\theta_i)\right)\nabla_{\theta}Q(s,a;\theta_i)] $$ である。$\rho(s, a)$は状態$s$と行動$a$の確率分布である。

論文をこちらからダウンロードできます。
画像はすべて論文から引用されています。