人工知能が「スタークラフト2」で人間に勝利、その闘いから見えた機械学習の次なる課題

2019.2.10 19:00WIRED

　人工知能が、リアルタイムストラテジーゲーム「スタークラフト2」でプロのプレイヤーを打ち負かした。このAIを開発したのは、世界最強の囲碁棋士を打ち負かした「AlphaGo」で知られるアルファベット傘下のDeepMindだ。囲碁より複雑なゲームでのAIの勝利は大きな進化だが、その闘いぶりは機械学習の課題と限界も浮き彫りにしている。

ITEXT BY TOM SIMONITE

WIRED(US)

グーグルの親会社であるアルファベット傘下で人工知能（AI）を研究するDeepMind（ディープマインド）が12月、人間とAIとの闘いで密かに新たな金字塔を打ち立てていた。同社はその成果を1月24日、約3時間のストリーミングのなかで披露した。「AlphaStar（アルファスター）」という名のAIが、リアルタイムストラテジーゲーム「スタークラフト2」でプロのプレイヤーを打ち負かしたのだ。

PR

人間のチャンピオンであるポーランド出身の25歳、グジェゴシュ・コミンチュこと「MaNa」は、AlphaStarに5-0で敗れた。機械学習でゲームを学んだAIは、eスポーツで総額数百万ドルの賞金をかけて戦うプロたちですら知らないような戦略を見つけだしたようだった。「いままでスタークラフトで闘った、どんな相手とも違っていたんだ」と、コミンチュは振り返る。

想定の範囲内の結果

今回の闘いは、さまざまなゲームでトップクラスの人間を打ち破ってきたDeepMindのAIの歴史のなかでも、最も複雑なものだった。AIは1994年にチェッカーで、97年にはチェスで人間を打ち負かしている。そして2016年には、DeepMindの「AlphaGo（アルファ碁）」がAIとして初めて囲碁のチャンピオンを破った。

AlphaGoの勝利は驚くべきことだった。囲碁の達人たちは、こうした事態が訪れるのは少なくとも10年は先だと思っていたからだ。それを思えば今回のAlphaStarの勝利はおおかた想定の範囲内と言える。

PR

はっきりしたのは、機械学習は十分なデータ量とコンピューターの処理能力さえあれば、特定の課題ならどんなに複雑であっても解決できるという事実だ。

ジョージア工科大学の准教授で人工知能を研究しているマーク・リードルは、今回のニュースには興奮させられたものの、驚きというほどではなかったという。「時間の問題だと思っていました。ゲームで人間を打ち負かすというのも、よくある話になってきていましたから」

独自開発チップの威力

スタークラフトのようなヴィデオゲームは、チェスや囲碁と比べて数学的にはずっと複雑である。囲碁において考えられる局面数は、10の170乗通りある。これに対してスタークラフトは、最低でも10の270乗通りあると考えられている。

スタークラフトでユニットの構築や操作を実行するには、多くの選択やアクションが求められる。しかも闘う相手の動きが見えないまま、決定を下さなければならない。DeepMindはこれらの課題を、「Tensor Processing Unit（TPU）」と呼ばれる強力なコンピューターチップを利用して克服した。このチップは機械学習の処理に特化したもので、グーグルが独自開発したものだ。

PR

このTPUで、戦場におけるどんなアクションが勝利につながるのかを解き明かすアルゴリズムを走らせた。AlphaStarはスタークラフトにおける人間同士の約50万の対戦を学習し、その対戦をコピーして仮想空間で闘わせながら“改良”し、繰り返すことで進化していった。これによって、200年分のゲームに相当する訓練をさせることができたのだという。

ただし、プレイヤーのMaNaを打ち負かしたAlphaStarは、決してオールラウンドではない。スタークラフトで選べる3つの種族のうち、現時点ではひとつだけにしか対応していないからだ。

機械学習システムの限界

人間では達成できないようなプレイ経験の蓄積のなかで、これまでAlphaStarはスタークラフトを違った観点から見ていた。MaNaのような人間のプレイヤーはマップの一部を見ているので、その瞬間に何が起きているのかをすべて把握するには、カメラで視点を切り替えていく必要がある。これに対してAlphaStarはゲームのマップ全体を俯瞰して見ていたので、何が起きているのかほぼすべて把握できたのだ。

PR

またAlphaStarは、ユニットの状態を見守ったり狙いを定めたりする際に、マウスを握った人間のプレイヤーと比べて高い精度を保つことができていた。反応速度が遅いにもかかわらずである。

このような“但し書き”が付いたが、今回の対戦を観ていたジョージア工科大のリードルのような専門家たちは、DeepMindが出した成果に賞賛を送った。

「極めて印象的でした」と、独立系の研究機関であるOpenAIの唐杰（タン・ジィ）は言う。彼はeスポーツで人気のヴィデオゲーム「Dota 2」をAIに闘わせる研究に取り組んでおり、こうした研究は応用が利く可能性があるのだと指摘する。例えば、実際にOpenAIがDota 2の人間のプロと闘わせたAIのアルゴリズムやコードは、ロボットハンドをより軽快に動かすためにも応用できたのだという。

同じようにAlphaStarからは、ある特定の目的に特化した機械学習システムの限界が浮き彫りになるのだと、ゲームとAIの関係についての著書があるニューヨーク大学教授のジュリアン・トゥゲリウスは言う。

人間のプレイヤーとは違ってAlphaStarは、ゲーム内のマップや種族が異なっていると本領を発揮できない。さらなるトレーニングが必要になるのだ。それにチェスやチェッカーもできないし、初代「スタークラフト」もプレイできない。

PR

人間の勝利

こうした“弱点”は、自動運転や汎用人工知能（AGI、Artificial General Intelligence）といったAIの応用が期待される分野においても課題になる。「AIに“G”の1文字を加えてAGIへと進化させるには、特定のゲームにしか対応しない状況から先へと進まなければなりません」と、トゥゲリウスは指摘する。

人間と機械との闘いにさらに大きな意味をもたせるとするなら、それは十種競技（デカスロン）のようなものかもしれない。ボードゲームからヴィデオゲーム、そしてテーブルトークRPG「ダンジョンズ&ドラゴンズ」まで闘うような試合だ。

極めて専門化されたAIの限界は、今回の対戦の最後に用いられた新ヴァージョンのAlphaStarが、人間のように画面を切り替えながらマップの一部を見る手法に変わったことで浮き彫りになった。DeepMindのデータによると、そこまでMaNaに5連勝したヴァージョンと同等のはずだった。

PR

新しいAlphaStarは、対戦相手であるMaNaを打ち負かす勢いで素早く部隊を集めた。しかしMaNaは5連敗を教訓に、巧みな操作を元に敵を退却させるスマートな戦略をとった。この隙にMaNaは自陣営を強化し、そして勝利にこぎ着けたのである。

「あんなふうに臨機応変に立ち回る能力は、現段階の機械学習システムでは見られないでしょうね」と、OpenAIの唐は感想を語っていた。