自然特集:人間はまたもやAIに負ける、今回はレースゲームで

自然特集:人間はまたもやAIに負ける、今回はレースゲームで

執筆者: クーパー

編集者:コウ・ジェンチャオ

組版: コウ・ジェンチャオ

人工知能 (AI) の潜在的な用途の多くは、人間と対話する際に、より最適化されたリアルタイムの意思決定を行うことを含んでおり、競争ゲームやギャンブルゲームはそれを示す最適な舞台です。

最近、ネイチャー誌の表紙記事で、レーシングゲーム「グランツーリスモ」で AI が世界チャンピオンの人間プレイヤーに勝利したと報じられました。グランツーリスモ(GT)ソフィーと呼ばれるこのAIプログラムは、レースのルールに従いながら並外れたスピード、ハンドリング、運転戦略を発揮するニューラルネットワーク駆動型プログラムです。

(出典:ネイチャー)

この AI プログラムの開発を完了した中核チームは、ソニー AI のものです。 「GTレーシング」シリーズのゲームは、日本のポリフォニーデジタルによって開発されました。実際のレースの非線形制御の課題を忠実に再現し、複雑なマルチエージェントの相互作用をカプセル化します。このゲームは、ソニーのプレイステーションやPSPなどのゲームコンソールプラットフォームでリリースされています。非常にリアルな操作感を味わえる人気のレーシングゲームです。

この AI プログラムが使用されると、人間のプレイヤーはおそらく、強化されたスタンドアロン プログラムに二度と追いつくことができなくなるでしょう。

図|ゲームスクリーンショット(出典:GT Racing)

研究者たちは、この成果によってレーシングゲームがより面白くなり、プロのレーシングドライバーのトレーニングや新たなレーシングスキルの発見のためのハイレベルな競技が実現する可能性があると考えている。この方法は、ロボット、ドローン、自動運転車などの現実世界のシステムにも応用できる可能性があります。

トラック上のスピードと情熱

レーシングカーを運転するには高度な技術が必要です。現代のF1カーは驚くべきエンジニアリングの精度を誇っていますが、このスポーツの人気は車の性能よりも、車を限界まで追い込むトップドライバーのスキルと勇気に関係しています。 1 世紀以上にわたり、レーストラックでの成功はスピードと興奮にかかっていました。

図|F1フォーミュラワンレース競技会(出典:GNEWS)

自動車レースの目的はシンプルです。競争相手よりも短い時間でレースを完走できれば勝ちです。しかし、これを実現するには非常に複雑な物理学の戦いが必要であり、トラックでのレースでは、限られたタイヤと路面の間の摩擦を慎重に利用する必要があります。

レースに勝つためには、ドライバーは車を常に変化する摩擦限界内に保つ軌道を選択する必要があります。曲がるときにブレーキを早めに踏みすぎると、車が減速し、時間が無駄になります。ブレーキをかけるのが遅すぎると、カーブの最もきつい部分に近づいたときに、希望するライン軌道を維持するのに十分なコーナリングパワーが得られなくなります。ブレーキを強くかけすぎると車両がスピンする可能性があります。

したがって、プロのレーシングドライバーは、レース全体を通してラップごとに自分の車の限界を見つけ、それを維持するのが非常に得意です。

レースカーのハンドリング限界は複雑ですが、物理的によく説明されているため、計算したり学習したりできるのは当然です。

近年、深層強化学習 (DRL) は、Atari、Starcraft、Dota などの分野における AI 研究のマイルストーンの重要な要素となっています。 AI がロボット工学や自動化に影響を与えるには、研究者が複雑な物理システムをうまく制御する能力を実証する必要があります。さらに、AI テクノロジーの多くの潜在的な用途では、不正確な人間の仕様を尊重しながら、人間との距離が近い場所でのやり取りが必要になります。自動車レースは、こうした課題が山積する典型的な分野です。

図|ゲーム競技データの比較(出典:Nature)

近年、実物大、大型、模擬車両を使用した自動運転レースの研究が加速しています。一般的なアプローチは、軌道を事前に計算し、モデル予測制御を使用して実行することです。しかし、摩擦の絶対限界で運転する場合、小さなモデリング エラーが壊滅的な結果を招く可能性があります。

他のドライバーと競争することで、AI モデリングの精度に対する要求が高まり、複雑な空力相互作用も生じるため、エンジニアはトラックの最適な軌道を継続的に予測して適応するための制御スキームをさらに改善する必要に迫られます。いつの日か、無人運転車が人間のドライバーとサーキットで競争するというのは空論ではなくなるだろう。

「AIレーサー」の誕生

GT Sophy の開発中、研究者らは、教師あり学習を使用して車両ダイナミクスをモデル化したり、模倣学習、進化的手法、強化学習を使用して運転ポリシーを学習したりするなど、機械学習を使用してモデルの複雑さを回避するさまざまな方法を模索しました。

レーシングドライバーが成功するには、(1)車のコントロール、(2)レース戦術、(3)レースエチケット、(4)レース戦略の4つの分野で高度なスキルを身に付けている必要があります。

車を制御するために、ドライバーは車両のダイナミクスとコースの特性に関する詳細な知識を持っています。この基礎から、ドライバーは敵から身を守り、正確な操作を実行するために必要な戦術スキルを身につけます。同時に、ドライバーは、非常に洗練されているが不正確なスポーツマンシップのルールに従わなければならず、最後に、対戦相手をシミュレートし、いつ、どのように追い越しを試みるかについて決定する際に、戦略的思考を使用します。

GT Sophy がシミュレーション レースで成功したことは、非常にリアルで複雑な物理環境においてリアルタイムで継続的な制御を必要とする分野であり、さまざまな車やトラック タイプでトップクラスの人間のレーシング ドライバーよりも優れたパフォーマンスを発揮するように AI エージェントをトレーニングできることを初めて示しています。

この結果は、チェス、囲碁、アドベンチャー、ポーカー、スタークラフトなどの競争的なタスクにおけるコンピューターの継続的な進歩におけるもう 1 つの重要なステップと見ることができます。

図|GTソフィーのトレーニング(出典:ネイチャー)

驚くべきことに、GT Sophy はわずか数時間でレーンをナビゲートする方法を学習し、データセット内の人間の競争相手の 95% を上回りました。その後さらに9日間トレーニングを続け、走行時間は45,000時間を超え、ラップタイムは10分の1秒ずつ短縮され、ラップタイムの向上は止まった。

進捗報酬だけでは、AI プログラムがゲームに勝つ動機を与えるのに十分ではありません。人間の対戦相手の速度が十分速い場合、AI プログラムは追従することを学習し、より多くの報酬を蓄積して、潜在的に壊滅的な衝突のリスクを冒さずに追い越そうとします。

GT Sophyを評価するために、研究者たちは2つのイベントでトップGTドライバーと対戦させました。 GT Sophy は、テストされた 3 つのトラックすべてで超人的なタイミング パフォーマンスを達成し、数種類のターンを実行したり、ドリフトを効果的に使用したり、後続車を妨害したり、対戦車を迎撃したり、その他の緊急操作を実行したりできました。

GTソフィーは十分な戦術的スキルを発揮しているものの、特に戦略的な意思決定においては、まだ改善が必要な部分が多く残っています。たとえば、GT Sophy は、対戦相手が有利になるのに十分なスペースを同じトラック上に残すことがあります。

図 | AIドライバーが人間のドライバーを上回る(出典:ネイチャー)

競技ゲーム以外での注目度が増加

eスポーツやギャンブルゲームにおいては、AIが人間に勝つことはもはや珍しいことではなく、AIがどんどん強くなり、トップクラスの人間プレイヤーでさえ負けを認めざるを得なくなることは間違いありません。しかし、eスポーツの大会で優勝することには、それほどのサスペンスや意義はありません。重要なのは、人間を超えるこれらの AI プログラムが、実際にどのように業界のボトルネックを克服し、人間の生活に真に役立つのかということです。

1996年2月10日、スーパーコンピュータ「ディープ・ブルー」がチェスの世界チャンピオン、カスパロフに初めて挑戦し、2対4で敗れた。 1997 年 5 月、ディープ ブルーは再びカスパロフに挑戦し、最終的に 3.5:2.5 でカスパロフを破り、標準のゲーム時間制限内で世界チェス チャンピオンを破った最初のコンピュータ システムとなりました。

しかし、ディープ・ブルーの欠点は、直感がなく、真の「知的な魂」を持っていないことです。分析的思考の欠点を補うには、スーパーコンピューティングのパワーに頼るしかありません。競争に勝利したディープ・ブルーはすぐに引退した。

2016年3月、Google AIのAlphaGoが囲碁の世界チャンピオンであるイ・セドルを4ゲームで破り、これはAIにおける真のマイルストーンとみなされました。 AlphaGo は、モンテカルロ木探索と 2 つのディープ ニューラル ネットワークを組み合わせた手法を使用しました。この設計により、コンピューターは人間の脳のように自発的に学習して分析トレーニングを実行し、継続的に学習してチェスのスキルを向上させることができます。

それ以来、さまざまな新しい AI プログラムが次々と登場しました。 2018年12月10日、DeepMindがリアルタイム戦略ゲーム「StarCraft」向けに開発した人工知能「AlphaStar」が、世界中のプロプレイヤーの99.8%に勝利した。

間違いなく、現在のGTソフィーはAIの勝利のさらなる継続です。

スタンフォード大学の機械工学教授である J. クリスチャン・ガーデス氏は、GT ソフィーの研究の影響はビデオゲームの範囲をはるかに超える可能性があると考えています。多くの企業が商品や乗客を輸送する完全自律走行車の完成に向けて取り組んでいる中、ソフトウェアのどの程度がニューラル ネットワークを使用するべきか、どの程度が物理学のみに基づくべきかをさらに検討する価値があります。

全体的に、ニューラル ネットワークは、私たちの環境内の物体を感知して識別することに関しては、文句なしのチャンピオンです。しかし、軌道計画は依然として物理学と最適化の領域であり、GT Sophy のゲーム トラックでの成功は、ニューラル ネットワークが将来、自動運転車のソフトウェアにおいて現在よりもはるかに大きな役割を果たす可能性があることを示唆しています。

おそらく、さらに難しいのは、各ラップの変動性です。現実の世界では、車のタイヤの状態はラップごとに変化するため、人間のドライバーはレース中ずっとこの変化に適応しなければなりません。 GT Sophy はより多くのデータで同じことを実行できますか?このデータはどこから来たのでしょうか?これにより、人工知能の進化の余地が広がります。

参考文献:

https://www.nature.com/articles/s41586-021-04357-7

https://www.nature.com/articles/d41586-022-00304-2

<<:  キラキラ光るお肉、食べてもいいですか?

>>:  鼻ほじりが大好きなあなたは、鼻ほじりの歴史すら知らないのです!

推薦する

3つの天気図は、現在の猛吹雪、これからの寒波、そして反動の北極の暖かい傾向を説明しています。

中国では広範囲で雨や雪が降っており、近々到来する寒波により中国北部で最も寒い記録が破られる可能性があ...

「WHOが警告:甘味料は糖尿病や心血管疾患を引き起こす可能性がある」?砂糖抜きの飲み物はもう飲めない?

5月15日、世界保健機関は非糖類甘味料に関する新たなガイドラインを発表し、体重管理や非感染性疾患の...

メディアテックはクアルコムを乗り越えられず、国内チップは依然として追撃中

数年前なら、国産チップがクアルコムに追いつこうとしたら、それは夢物語とみなされていただろう。しかし、...

全粒穀物を使用すると、お粥だけでなくスープも乾燥を防ぐことができます

秋が近づくにつれて、風が強くなり、乾燥します。多くの人が、鼻咽頭の乾燥、痰の少ない乾いた咳、肌の乾燥...

このように食器を洗うと、細菌が70倍も増えます!お腹いっぱい食べてしまいました…

日常生活の中で多くの人が家庭でこの習慣を持っています。洗ったお椀やお皿が積み重ねられています。キャビ...

鉛中毒は強大なローマ帝国の崩壊を早めたのでしょうか?真実は…

ローマ帝国はかつて世界で最も強力な帝国の一つでしたが、西ローマ帝国は西暦5世紀に崩壊し、東ローマ帝国...

慢性胃炎:胃がんの隠れた原因?効果的に管理し、治療するにはどうすればよいでしょうか?

慢性胃炎は中国人によく見られる消化器系の病気です。研究によると、我が国における慢性胃炎の発症率は上昇...

これらの6種類の食品を購入する際は、不純物混入に注意してください

1. オリーブオイルさまざまな研究結果から、最も偽造されている油はオリーブオイルであることがわかり...

国際熱帯デー |熱帯地方の「オズの魔法使い」について話しましょう

エコシステム1回の動きが体全体に影響する熱帯地域の生物多様性は非常に豊かであるしかし、熱帯地域での生...

動物性高麗人参=鳩の卵の栄養価

動物性高麗人参=鳩の卵の栄養価鳩は宝物でいっぱいです。最も栄養価が高いのは鳩肉と鳩卵です。鳩卵の栄養...

私たちが食物をめぐって蝶と競争することになるとは思ってもいませんでした。

『山海経 大荒野南経』には、南東の海の外、甘江の間に、十個の太陽を産んだ希和という女性がいたと記さ...

恵米小豆スープの効能と機能

会米と小豆のスープは北方でよく食べられる食べ物で、湿気を取り除く効果があり、夏の体の湿気を治療したり...

キンモクセイ梅スープ

8月はキンモクセイのいい香りがする季節です。8月はキンモクセイの花が咲く季節で、どこにいてもキンモク...

道路上で無視する小さなことが、毎年8,000人以上の死を引き起こしている

eMule は大物経営者の成功への道に欠かせないものであり、働く人々の通勤経路でも同じことが言えます...

彼は「すべてを知っていた最後の男」であり、55歳で亡くなった。

この記事は、アンドリュー・ロビンソン著の「すべてを知っていた最後の男」のために王立天文学者のマーティ...