勝率99.41%で、AIは人間のチェスプレイヤーを圧倒します。今回、AIは本当に人間に勝つのでしょうか?

勝率99.41%で、AIは人間のチェスプレイヤーを圧倒します。今回、AIは本当に人間に勝つのでしょうか?

今回もAIが人間に勝ちました。

ファーウェイクラウドAIのCTO、戴宗紅氏と北京大学AI研究所の助教授、楊耀東氏が率いる研究チームは、チェスのゲームで勝率99.41%で人間の対戦相手を圧倒できるアルゴリズム「将軍(JiangJun、発音は「将軍」)」を開発した。

「JiangJun: 2人用ゼロサムゲームにおける非推移性に取り組むことで象棋をマスターする」と題された関連研究論文が、プレプリントウェブサイトarXivで公開されました。

人間のプレイヤーを対戦相手として使用し、継続的な試行錯誤と反復を実行することは、現在の強化学習ベースの AI エージェントの進化の一般的な方法です。近年、現実のシナリオでは通常複数のエージェントが同時に存在するため、研究者は単一エージェント分野からマルチエージェント分野へと焦点を広げています。

実際、マルチエージェント強化学習はさまざまなゲーム分野で目覚ましい成功を収めており、Hide and Seek(Steam のゲーム)、囲碁、StarCraft II、Dota 2、Military Chess などのゲームで実証されています。

しかし、AlphaZero や AlphaGo などのアルゴリズムは、トレーニングのために対戦相手の最近のパフォーマンスに重点を置いているため、非推移的な構造を持つゲームでは、一貫して勝ったり、望ましい状態を達成したりできない可能性があります。この問題は不完全情報ゲームでは集中的に研究されてきましたが、完全情報ゲームでは比較的あまり研究されていません。

完全情報ゲーム: チェスなど、参加者全員が他の参加者全員の特性、戦略、報酬関数に関する正確な情報を持っているゲーム。

不完全情報ゲーム: 少なくとも 1 人の参加者が上記の情報について不完全な知識を持っています (Western Army Chess など)。

現在、完全情報ゲームにおける非推移性の問題を克服することは、未解決の研究課題のままです。最近の研究では、戦略空間応答オラクル (PSRO) アルゴリズムを使用してナッシュ均衡を見つけることに重点が置かれていますが、これらの方法は完全情報ゲームでは検討されていません。

チェスはアクセスしやすいため、ボードゲームや非推移幾何学を探求するのに最適なテーマとなります。この研究では、チェスの複雑な幾何学的特性を調査し、10,000 を超える人間のゲームの大規模なデータセットを使用して、推移的な中間領域におけるチェスの顕著な非推移性を明らかにしました。

非推移性問題を解決するために、研究者らは、AlphaZero の自己対戦戦略とは異なり、ナッシュ応答を使用して対戦相手を選択する JiangJun アルゴリズムを提案しました。

JiangJun アルゴリズムは、MCTS Actor と Populationer という 2 つの基本モジュールで構成されています。これらのコンポーネントを組み合わせることで、モンテカルロ ツリー サーチ (MCTS) 技術を活用して、プレイヤー集団内のナッシュ均衡を近似します。

JiangJun のアルゴリズムの有効性は、さまざまな指標にわたって総合的に評価されました。研究者らは、Huawei Cloud ModelArt プラットフォーム上の最大 90 個の V100 GPU の計算能力を効果的に活用して JiangJun アルゴリズムをマスターレベルまでトレーニングするトレーニング フレームワークを提案しました。

相対的な集団パフォーマンス、ナッシュ分布の視覚化、および 2 つの主要な埋め込み次元での低次元ゲーム ランドスケープの視覚化を含む複数のメトリックを組み合わせることで、チェスの非推移性問題を解決する JiangJun のアルゴリズムの熟練度が確認されます。

さらに、JiangJun アルゴリズムは、標準的な AlphaZero チェスや Behavior Clone チェスと比較して、勝率がそれぞれ 85% と 96.40% を超えており、同時代のアルゴリズムよりも勝率が大幅に優れています。悪用可能性の評価では、JiangJun のアルゴリズムは、標準的な AlphaZero チェス アルゴリズム (25.53%) よりも最適な戦略 (ほぼ最適な応答の勝率 8.41%) に大幅に近づきました。

さらに、研究者らはWeChatプラットフォーム上でチェスアプレットを設計し、6か月間にわたって江軍アルゴリズムと人間の対戦相手との間で行われた7,000以上のゲーム記録をまとめた。ゲームデータによると、JiangJun のアルゴリズムは驚異的な 99.41% の勝率で人間の対戦相手に勝利しました。

驚異的な勝率がほぼ 100% であることに加え、さまざまな終盤のケース スタディでは、JiangJun のアルゴリズムがチェスの終盤の複雑さに柔軟に対応する優れた能力も備えていることが示されています。

JiangJun アルゴリズムの登場は、チェスの分野における AI の驚くべき成果を示しています。研究チームは、完全情報ゲームにおける非推移性問題を解決することで、ナッシュ応答とモンテカルロ木探索技術を導入することに成功し、チェスのゲームに新しい考え方をもたらしました。このアルゴリズムは驚異的な勝率を達成しただけでなく、複雑で不確実な問題に対処する AI の強力な能力も実証しました。

参考リンク:

https://arxiv.org/abs/2308.04719

https://openreview.net/forum?id=MMsyqXIJuk

https://sites.google.com/view/jiangjun-site/

著者: ヘイゼル・ヤン

<<:  真に高品質な散水:灌漑とハイテクの融合

>>:  【スマートファーマーズ】潜在能力を引き出し、塩性アルカリ性土壌を肥沃な畑に変えるための複数の対策

推薦する

オートミールの利点

オート麦は栄養価が非常に高い植物で、一般の人々の間で非常に人気があります。地域によって呼び方が異なり...

スープのレシピと作り方

スープを飲むのが好きな人はたくさんいます。スープによって栄養価は異なります。したがって、スープを勝手...

ニコチンは長寿の薬?破壊的な研究の落とし穴に注意

セルフメディアの台頭により、最先端の科学研究の進歩と一般大衆との距離が縮まりました。しかし、この距離...

野菜は天然のマルチビタミン

ビートルートは湿気を好み、崖や水の近くで育ちます。二年生草本植物。ビーツはニンジンに少し似た野菜です...

この年齢を過ぎると、筋肉の減少が急速に始まります。多くの人は、転んで骨折し、自分で身の回りのことができなくなるまで、気づかないものです…

「お金を節約するより筋肉を節約する方が良い」ということわざがあります。筋肉は人体で最も重要な器官の...

中国の宇宙ステーションの高解像度の概略図がここにあります!有人宇宙飛行の共通用語知識投稿、収集をお勧めします

神舟13号の有人飛行ミッションは、翟志剛、王亜平、葉光復の3人の宇宙飛行士の無事な帰還によって成功し...

数々の「世界記録」を樹立せよ!世界一高い完全浮体式凌頂陽橋が完成

◎科技日報記者焦楊記者は4月28日、広東省交通集団から、国家重点プロジェクトである深セン・中山連絡橋...

中国自動車販売協会:2024年4月の全国中古車市場の詳細な分析

1. 2024年4月の市場概況2024年4月の中古車市場の月間取引動向2024年4月の全国中古車市場...

ココナッツチキンスープのレシピ

ココナッツチキンスープは広東省の有名な漢民族料理で、広東料理に属します。ココナッツの甘さとチキンの香...

食品の生の重量と調理済みの重量を変換するにはどうすればいいですか?新しい食事ピラミッドで推奨されている食品の重量はすべて生の重量です。

4月26日、待望の2022年版「中国居住者向け食生活ガイドライン」がついに発表された。主要メディア...

iPhone 6の動作スコアが再び公開

iPhone 6 は予約販売が始まったばかりなので、実際に触ってみたい場合は辛抱強く待つ必要があり...

現代の若者は成長し、ロングジョンを着始める

昔は、「お母さんはあなたが寒いと思っている」という種類の風邪や、「お母さんは、関節炎になるからロング...

モトローラ・モビリティがレノボ時代へ

9か月の待機の後、レノボグループのCEOであるヤン・ユアンチン氏はついに望んでいた結果を得た。レノボ...