火曜日, 2月 10, 2015

Google、『DQN』を開発|Google Deepmind

Google Deepmind、人工知能『DQN』を開発。レトロゲームを自力で学習、人間に勝利

 



ロンドンの Google Deepmind が、コンピューターゲームをゼロから自力で学習し上達する人工知能アルゴリズム deep Q-Network、略称「DQN」を開発しました。

ブロック崩しやパックマンなど、レトロゲーム機 ATARI 2600 のゲーム49タイトルを与え、画面出力と「スコアは高いほど高評価」のパラメータを与えただけで、29タイトルで人間のプロゲーマーと同等または上回るパフォーマンスまで上達します。
 
 

Deepmind が開発したDeep Q-network、略して「DQN」は、反復学習と「反省」によって学ぶことができるアルゴリズム。特にゲームを攻略するための知識やルールがあらかじめ組み込まれているわけではなく、ゲームの基本的なルールすら与えられず、単純に画面出力のピクセルとスコアのみをインプットとして学習します。
 




Google が DQN に与えたのはテレビゲーム創世記の名機 ATARI 2600 と全49タイトルのゲーム。なかにはクレイジークライマー、パックマン、Qバート、ロードランナー、アステロイドといった著名タイトルも含まれます。そして49本中43本のゲームで DQN は既存の人工知能を上回り、さらに29のゲームでは人間のプロプレーヤーと同等または上回る上達を見せました。

DQN がゲームを学び、ゼロから成長していくさまはブロック崩しの動画を見ると一目瞭然です。最初は動くボールに反応はするものの、「ボールを打ち返してブロックを崩すゲームである」ことすら教えられていないため、ただ呆然とそれを見送ることもしばしば。ところが回数を重ねるにつれ、ボールを打ち返すとスコアが増えることに気づいたのか、しっかりとラケットをボールに追従させ始めます。

反復学習によって上手く打ち返せるようになると、こんどは効率的な点の稼ぎ方を覚え始めます。ブロック崩しの攻略法といえば、「端のブロックを崩して穴を開け、そこにボールを打ち込んで一気に裏側から崩す」こと。DQN は非常に人間臭い動きでそれをこなして見せています。

特に上達しやすいのは、やはりルールと操作がわりと単純なゲーム。スペースインベーダーでは、『名古屋撃ち』とまではいかないものの、しっかりとトーチカに身を隠して敵を打ち落とす場面も。
 





反対に不得手なゲームはパックマン。「モンスターから逃げつつエサを食べ、パワーエサを取れば一定時間モンスターに逆襲」という複合ルールは、まだ DQN には複雑すぎて理解できないようです。

他の人工知能と違うのは、記憶に深く関わる人間の海馬に似た処理を行うという「experience replay」機能を搭載しているところ。人間の場合、海馬といえば、アルツハイマー病の初期から病変が起こる部分ですが、DQNでもこの機能を省いて再びゲームをさせると極端に学習能力が低下するのだとか。

ちなみに Deepmind 創業者のデミス・ハサビスは人工知能研究のため、あらかじめケンブリッジ大学博士課程で脳神経学を学んでおり、2007年には海馬の研究で学術雑誌のサイ エンス誌から Breakthrough of the Year 賞を受賞した経歴の持ち主。

2011年に立ち上げた Deepmind は人工知能開発の分野ですぐに頭角を現し、イーロン・マスクやピーター・ティールといった大物たちから資金提供を受けるようになりました。そして2013 年には Deepmind を巡って Google と Facebook が買収合戦を展開。およそ5億ドルとも言われる額で Google の一員となっています。

Google や Facebook が人工知能技術を欲しがる理由については、大量のデータからユーザーそれぞれの趣味趣向に最適化した広告選択処理を行わせることや、Googleが現在開発中の自動運転車の走行プログラムへの応用などが浮かびます。

また、現在は Google 傘下にある Boston Dynamics が開発する四脚歩行ロボットに高性能な人工知能を乗せるといったこともありえます。Boston Dynamics は米軍との関わりも深く、すでに海兵隊の演習に参加するロボットも開発しています。



われわれ一般人としてはもう、DQN 知能搭載のリアルターミネーターが登場しないことを切に願うばかりです。

 
アステロイドは極端に苦手な一方、タイムパイロットは人間と互角という謎。最善のスコア稼ぎさえ気づけば、反射神経が重要なゲームでは人間を圧倒できるようです。



Nature に掲載された論文は Human-level control through deep reinforcement learning (Volodymyr Mnih, Koray Kavukcuoglu,David Silver,Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg & Demis Hassabis)