囲碁の次はオンラインゲーム AI開発の新しい実験場

Alpha Goは人間の囲碁チャンピオンを破り、さらに最近は人間の訓練データなしで強化学習するAlpha Go Zeroで世界を驚かせました。チェスやアタリのビデオゲームでのAIの偉業に続いて「スタークラフト」のようなリアルタイム戦略ゲームでも、機械が人間を打ち負かせるのかどうかが次の関心になっています。

Alpha Goが人の手を借りずに最強になったことが意味すること

スタークラフトはリアルタイムで宇宙船や戦車、兵隊などを指揮して対戦するゲームです。この動画がわかりやすいかもしれません。

今月1日に韓国で開催された対戦型コンピューターゲーム「スタークラフト」の人工知能(AI)競技会で、プロゲーマーがAIシステムに圧勝しました。MIT Tech Reviewの記事を引用します。

ボットと人間のプレイヤーが盤面を見て、時間を費やして戦略を立てる碁とは異なり、スタークラフトでは、プレイヤーは、制約が多いシミュレーションの世界の中で記憶に基づいて戦略を考案し、同時に今後に備えて計画を立てる必要がある。研究者がスタークラフトはAIの進歩に役立つ有効なツールだと考えているのはそのためだ。

囲碁やアタリゲームの違いとは?

  • ゲームの多層性、複雑性。スタークラフトはとても多層的なゲームであることがAI研究者を惹き付けています。ゲームの目的は対戦相手を打ち負かすことですが、プレイヤーはリソースの収集や構造の構築など、いくつかの副次的な目標とのバランスを取る必要があります。さらに、ゲームは数分から1時間かかることがあります。
  • アクションと報酬の関係。ゲームの早い段階で行われたアクションは、長い間報酬を得ることができません(つまりシンプルな強化学習では解けない)。
  • 不完全情報ゲーム。マップは部分的にしか明示されないため、エージェントは成功のためにメモリと計画の組み合わせを使用する必要があります。
  • 探索空間の広さ。スタークラフトの行動スペースは300以上の基本的な行動の選択肢に挑戦をエージェントの提示します。これとは対照的に、Atariのゲームにはエージェントが取るべき選択肢は約10個しかありません(例えば、上、下、左、右など)。これに加えてStarCraftのアクションは階層的であり、変更や拡張が可能で、その多くは画面上のポイントを必要とします。 84×84という小さな画面サイズを想定しても、約1億回の操作が可能です。

DeepMindが次のフィールドに選択

DeepMindとBlizzardは8月にStarCraft IIでAI研究を加速するツールセットSC2LEのリリースを発表しました。以下が両者の協業内容。専門性が高いものは除きました。

  • Blizzardによって開発されたMachine Learning API
  • 匿名化されたゲームのリプレイのデータセットは、今後数週間で6万5000から50万以上に増加
  • 研究者が特定のタスクでエージェントのパフォーマンスをテストできるようにする一連の単純なミニゲームの提供
  • 合同論文

人間とエージェントのアクションのとり方の違いと実際に実行されるアクション Via DeepMind

「ミネラルとガスの収集」「船着き場の構築」などさまざまなタスクをトレーニングするためのミニゲーム。 Via DeepMind

このゲームには、毎日オンラインで競合する熱心な選手のような、研究者にアピールする他の資質もあります。これにより、学習するための大量のリプレイデータとAIエージェントの非常に才能のある相手が確実に存在します。

再びMIT Tech Reviewから引用します。

ソンは、ボットにはいくつか見るべき点があったと言う。「私の攻撃を防御する際に、ボットが自分のユニットを扱う方法は、いくつかの点で驚くべきものでした」。

他の専門家は今や、ボットを適切に訓練しさえすれば、プロのスタークラフトプレーヤーを打ち負かせるだろうと予測している。「AIボットがアルファ碁のような(ハイレベルの)意思決定システムを備えるようになったら、人間はかなわないでしょう」と、韓国科学技術大学のコンピューター科学・工学科の教授であるジョン・ハンミンは言う。

DeepMindのブログは模倣学習(imitation learning; 強化学習とは違い、教師のサポートのもとで少ないデータから制御則を学ぶ学習手法)の可能性に言及しています。匿名のリプレイデータから優秀なモデルを生み出すことができれば、研究者が監督されたエージェントにゲームを練習させるだけでなく、法則性の予測や長期記憶などの他の興味深い研究分野を開くことになります。

AlphaGoでは教師データを必要としませんでした。より複雑性が高くリアルタイムの決断が求められるスタークラフトでは、この少ないデータから学ぶ手法が試されることになるでしょう。

参考

 

コメントを残す