自然特集：人間はまたもやAIに負ける、今回はレースゲームで

執筆者: クーパー

編集者：コウ・ジェンチャオ

組版: コウ・ジェンチャオ

人工知能 (AI) の潜在的な用途の多くは、人間と対話する際に、より最適化されたリアルタイムの意思決定を行うことを含んでおり、競争ゲームやギャンブルゲームはそれを示す最適な舞台です。

最近、ネイチャー誌の表紙記事で、レーシングゲーム「グランツーリスモ」で AI が世界チャンピオンの人間プレイヤーに勝利したと報じられました。グランツーリスモ（GT）ソフィーと呼ばれるこのAIプログラムは、レースのルールに従いながら並外れたスピード、ハンドリング、運転戦略を発揮するニューラルネットワーク駆動型プログラムです。

（出典：ネイチャー）

この AI プログラムの開発を完了した中核チームは、ソニー AI のものです。「GTレーシング」シリーズのゲームは、日本のポリフォニーデジタルによって開発されました。実際のレースの非線形制御の課題を忠実に再現し、複雑なマルチエージェントの相互作用をカプセル化します。このゲームは、ソニーのプレイステーションやPSPなどのゲームコンソールプラットフォームでリリースされています。非常にリアルな操作感を味わえる人気のレーシングゲームです。

この AI プログラムが使用されると、人間のプレイヤーはおそらく、強化されたスタンドアロンプログラムに二度と追いつくことができなくなるでしょう。

図｜ゲームスクリーンショット（出典：GT Racing）

研究者たちは、この成果によってレーシングゲームがより面白くなり、プロのレーシングドライバーのトレーニングや新たなレーシングスキルの発見のためのハイレベルな競技が実現する可能性があると考えている。この方法は、ロボット、ドローン、自動運転車などの現実世界のシステムにも応用できる可能性があります。

トラック上のスピードと情熱

レーシングカーを運転するには高度な技術が必要です。現代のF1カーは驚くべきエンジニアリングの精度を誇っていますが、このスポーツの人気は車の性能よりも、車を限界まで追い込むトップドライバーのスキルと勇気に関係しています。 1 世紀以上にわたり、レーストラックでの成功はスピードと興奮にかかっていました。

図｜F1フォーミュラワンレース競技会（出典：GNEWS）

自動車レースの目的はシンプルです。競争相手よりも短い時間でレースを完走できれば勝ちです。しかし、これを実現するには非常に複雑な物理学の戦いが必要であり、トラックでのレースでは、限られたタイヤと路面の間の摩擦を慎重に利用する必要があります。

レースに勝つためには、ドライバーは車を常に変化する摩擦限界内に保つ軌道を選択する必要があります。曲がるときにブレーキを早めに踏みすぎると、車が減速し、時間が無駄になります。ブレーキをかけるのが遅すぎると、カーブの最もきつい部分に近づいたときに、希望するライン軌道を維持するのに十分なコーナリングパワーが得られなくなります。ブレーキを強くかけすぎると車両がスピンする可能性があります。

したがって、プロのレーシングドライバーは、レース全体を通してラップごとに自分の車の限界を見つけ、それを維持するのが非常に得意です。

レースカーのハンドリング限界は複雑ですが、物理的によく説明されているため、計算したり学習したりできるのは当然です。

近年、深層強化学習 (DRL) は、Atari、Starcraft、Dota などの分野における AI 研究のマイルストーンの重要な要素となっています。 AI がロボット工学や自動化に影響を与えるには、研究者が複雑な物理システムをうまく制御する能力を実証する必要があります。さらに、AI テクノロジーの多くの潜在的な用途では、不正確な人間の仕様を尊重しながら、人間との距離が近い場所でのやり取りが必要になります。自動車レースは、こうした課題が山積する典型的な分野です。

図｜ゲーム競技データの比較（出典：Nature）

近年、実物大、大型、模擬車両を使用した自動運転レースの研究が加速しています。一般的なアプローチは、軌道を事前に計算し、モデル予測制御を使用して実行することです。しかし、摩擦の絶対限界で運転する場合、小さなモデリングエラーが壊滅的な結果を招く可能性があります。

他のドライバーと競争することで、AI モデリングの精度に対する要求が高まり、複雑な空力相互作用も生じるため、エンジニアはトラックの最適な軌道を継続的に予測して適応するための制御スキームをさらに改善する必要に迫られます。いつの日か、無人運転車が人間のドライバーとサーキットで競争するというのは空論ではなくなるだろう。

「AIレーサー」の誕生

GT Sophy の開発中、研究者らは、教師あり学習を使用して車両ダイナミクスをモデル化したり、模倣学習、進化的手法、強化学習を使用して運転ポリシーを学習したりするなど、機械学習を使用してモデルの複雑さを回避するさまざまな方法を模索しました。

レーシングドライバーが成功するには、(1)車のコントロール、(2)レース戦術、(3)レースエチケット、(4)レース戦略の4つの分野で高度なスキルを身に付けている必要があります。

車を制御するために、ドライバーは車両のダイナミクスとコースの特性に関する詳細な知識を持っています。この基礎から、ドライバーは敵から身を守り、正確な操作を実行するために必要な戦術スキルを身につけます。同時に、ドライバーは、非常に洗練されているが不正確なスポーツマンシップのルールに従わなければならず、最後に、対戦相手をシミュレートし、いつ、どのように追い越しを試みるかについて決定する際に、戦略的思考を使用します。

GT Sophy がシミュレーションレースで成功したことは、非常にリアルで複雑な物理環境においてリアルタイムで継続的な制御を必要とする分野であり、さまざまな車やトラックタイプでトップクラスの人間のレーシングドライバーよりも優れたパフォーマンスを発揮するように AI エージェントをトレーニングできることを初めて示しています。

この結果は、チェス、囲碁、アドベンチャー、ポーカー、スタークラフトなどの競争的なタスクにおけるコンピューターの継続的な進歩におけるもう 1 つの重要なステップと見ることができます。

図｜GTソフィーのトレーニング（出典：ネイチャー）

驚くべきことに、GT Sophy はわずか数時間でレーンをナビゲートする方法を学習し、データセット内の人間の競争相手の 95% を上回りました。その後さらに9日間トレーニングを続け、走行時間は45,000時間を超え、ラップタイムは10分の1秒ずつ短縮され、ラップタイムの向上は止まった。

進捗報酬だけでは、AI プログラムがゲームに勝つ動機を与えるのに十分ではありません。人間の対戦相手の速度が十分速い場合、AI プログラムは追従することを学習し、より多くの報酬を蓄積して、潜在的に壊滅的な衝突のリスクを冒さずに追い越そうとします。

GT Sophyを評価するために、研究者たちは2つのイベントでトップGTドライバーと対戦させました。 GT Sophy は、テストされた 3 つのトラックすべてで超人的なタイミングパフォーマンスを達成し、数種類のターンを実行したり、ドリフトを効果的に使用したり、後続車を妨害したり、対戦車を迎撃したり、その他の緊急操作を実行したりできました。

GTソフィーは十分な戦術的スキルを発揮しているものの、特に戦略的な意思決定においては、まだ改善が必要な部分が多く残っています。たとえば、GT Sophy は、対戦相手が有利になるのに十分なスペースを同じトラック上に残すことがあります。

図 | AIドライバーが人間のドライバーを上回る（出典：ネイチャー）

競技ゲーム以外での注目度が増加

eスポーツやギャンブルゲームにおいては、AIが人間に勝つことはもはや珍しいことではなく、AIがどんどん強くなり、トップクラスの人間プレイヤーでさえ負けを認めざるを得なくなることは間違いありません。しかし、eスポーツの大会で優勝することには、それほどのサスペンスや意義はありません。重要なのは、人間を超えるこれらの AI プログラムが、実際にどのように業界のボトルネックを克服し、人間の生活に真に役立つのかということです。

1996年2月10日、スーパーコンピュータ「ディープ・ブルー」がチェスの世界チャンピオン、カスパロフに初めて挑戦し、2対4で敗れた。 1997 年 5 月、ディープブルーは再びカスパロフに挑戦し、最終的に 3.5:2.5 でカスパロフを破り、標準のゲーム時間制限内で世界チェスチャンピオンを破った最初のコンピュータシステムとなりました。

しかし、ディープ・ブルーの欠点は、直感がなく、真の「知的な魂」を持っていないことです。分析的思考の欠点を補うには、スーパーコンピューティングのパワーに頼るしかありません。競争に勝利したディープ・ブルーはすぐに引退した。

2016年3月、Google AIのAlphaGoが囲碁の世界チャンピオンであるイ・セドルを4ゲームで破り、これはAIにおける真のマイルストーンとみなされました。 AlphaGo は、モンテカルロ木探索と 2 つのディープニューラルネットワークを組み合わせた手法を使用しました。この設計により、コンピューターは人間の脳のように自発的に学習して分析トレーニングを実行し、継続的に学習してチェスのスキルを向上させることができます。

それ以来、さまざまな新しい AI プログラムが次々と登場しました。 2018年12月10日、DeepMindがリアルタイム戦略ゲーム「StarCraft」向けに開発した人工知能「AlphaStar」が、世界中のプロプレイヤーの99.8%に勝利した。

間違いなく、現在のGTソフィーはAIの勝利のさらなる継続です。

スタンフォード大学の機械工学教授である J. クリスチャン・ガーデス氏は、GT ソフィーの研究の影響はビデオゲームの範囲をはるかに超える可能性があると考えています。多くの企業が商品や乗客を輸送する完全自律走行車の完成に向けて取り組んでいる中、ソフトウェアのどの程度がニューラルネットワークを使用するべきか、どの程度が物理学のみに基づくべきかをさらに検討する価値があります。

全体的に、ニューラルネットワークは、私たちの環境内の物体を感知して識別することに関しては、文句なしのチャンピオンです。しかし、軌道計画は依然として物理学と最適化の領域であり、GT Sophy のゲームトラックでの成功は、ニューラルネットワークが将来、自動運転車のソフトウェアにおいて現在よりもはるかに大きな役割を果たす可能性があることを示唆しています。

おそらく、さらに難しいのは、各ラップの変動性です。現実の世界では、車のタイヤの状態はラップごとに変化するため、人間のドライバーはレース中ずっとこの変化に適応しなければなりません。 GT Sophy はより多くのデータで同じことを実行できますか?このデータはどこから来たのでしょうか?これにより、人工知能の進化の余地が広がります。

参考文献:

https://www.nature.com/articles/s41586-021-04357-7

https://www.nature.com/articles/d41586-022-00304-2

<<: キラキラ光るお肉、食べてもいいですか？

>>: 鼻ほじりが大好きなあなたは、鼻ほじりの歴史すら知らないのです！