Deepmindが2本の論文を発表して、その内容をブログに完結にまとめてくれている。「想像し、計画するエージェント」を紹介している。汎用人工知能(AGI)の創造をビジョンにする同社らしい研究だ。

ブログを抄訳する。

  • エージェントは自らの中で行ったシミュレーションを解釈することを学習する。これはエージェントに環境のダイナミクスを把握するモデルを使うことを許容する。把握されたダイナミクスは必ずしも正しくないが。彼らは想像を効率的に使う。
  • 想像されたいくつもの道筋、問題を解くためにその事象と適合させる。効率性はエンコーダによって強化される。エンコーダは報酬を無視して想像から追加情報を算定する。道筋(報酬)が高い報酬をもたらさなくとも、有用な情報を含むだろう。エージェントは計画を構築するための様々な戦略を学習できる。
  • あるいはエージェントは、正確性とコンピューティングコストの異なるモデルを同時に学習できる。
  • これは広範な種類の効果的な戦略策定を提供する。一つのものをすべてに適用するアプローチに制約を受け、不完全な環境への適応性が限定されかねないということではなく。

メッシがミリセカンドで相手DFの動きを見て、シミュレーションを繰り返し、DFを抜くというようなことを実現しようとしている。報酬に必ずしも引っ張られないのが、強化学習の進化を伺える。

これをビデオゲームで試行していい結果を得たという。もちろん生物が置かれている環境はもっともっと複雑だ。スポーツをしていていいプレイをするとアドレナリンがどっと出る。それはやはり解いている問題が難しいことと関係している気もする。そういうアドレナリンという報酬が設定されていることこそ、今後人間が重点的に注力するべきところだと思う。

デミス・ハサビスCEOはより脳神経学における人間の脳のメカニズムの解明が人工知能開発の要諦だと話している。

https://deepmind.com/blog/agents-imagine-and-plan/

https://www.theverge.com/2017/7/19/15998610/ai-neuroscience-machine-learning-deepmind-demis-hassabis-interview

投稿者: Takushi Yoshida

起業家&デジタルビジネスアナリスト。早稲田大学政治経済学部政治学科卒。ジャカルタで政治経済記者。APEC、ASEAN首脳会議でTPP、ASEAN+3などの地域経済統合をリサーチ。帰国後、米デジタルマーケティングメディアDIGIDAY[日本版]立上げ参画。2017年10月テックビジネス戦略メディアAxionを創業。

コメントを残す