今回もAIが人間に勝ちました。 ファーウェイクラウドAIのCTO、戴宗紅氏と北京大学AI研究所の助教授、楊耀東氏が率いる研究チームは、チェスのゲームで勝率99.41%で人間の対戦相手を圧倒できるアルゴリズム「将軍(JiangJun、発音は「将軍」)」を開発した。 「JiangJun: 2人用ゼロサムゲームにおける非推移性に取り組むことで象棋をマスターする」と題された関連研究論文が、プレプリントウェブサイトarXivで公開されました。 人間のプレイヤーを対戦相手として使用し、継続的な試行錯誤と反復を実行することは、現在の強化学習ベースの AI エージェントの進化の一般的な方法です。近年、現実のシナリオでは通常複数のエージェントが同時に存在するため、研究者は単一エージェント分野からマルチエージェント分野へと焦点を広げています。 実際、マルチエージェント強化学習はさまざまなゲーム分野で目覚ましい成功を収めており、Hide and Seek(Steam のゲーム)、囲碁、StarCraft II、Dota 2、Military Chess などのゲームで実証されています。 しかし、AlphaZero や AlphaGo などのアルゴリズムは、トレーニングのために対戦相手の最近のパフォーマンスに重点を置いているため、非推移的な構造を持つゲームでは、一貫して勝ったり、望ましい状態を達成したりできない可能性があります。この問題は不完全情報ゲームでは集中的に研究されてきましたが、完全情報ゲームでは比較的あまり研究されていません。 完全情報ゲーム: チェスなど、参加者全員が他の参加者全員の特性、戦略、報酬関数に関する正確な情報を持っているゲーム。 不完全情報ゲーム: 少なくとも 1 人の参加者が上記の情報について不完全な知識を持っています (Western Army Chess など)。 現在、完全情報ゲームにおける非推移性の問題を克服することは、未解決の研究課題のままです。最近の研究では、戦略空間応答オラクル (PSRO) アルゴリズムを使用してナッシュ均衡を見つけることに重点が置かれていますが、これらの方法は完全情報ゲームでは検討されていません。 チェスはアクセスしやすいため、ボードゲームや非推移幾何学を探求するのに最適なテーマとなります。この研究では、チェスの複雑な幾何学的特性を調査し、10,000 を超える人間のゲームの大規模なデータセットを使用して、推移的な中間領域におけるチェスの顕著な非推移性を明らかにしました。 非推移性問題を解決するために、研究者らは、AlphaZero の自己対戦戦略とは異なり、ナッシュ応答を使用して対戦相手を選択する JiangJun アルゴリズムを提案しました。 JiangJun アルゴリズムは、MCTS Actor と Populationer という 2 つの基本モジュールで構成されています。これらのコンポーネントを組み合わせることで、モンテカルロ ツリー サーチ (MCTS) 技術を活用して、プレイヤー集団内のナッシュ均衡を近似します。 JiangJun のアルゴリズムの有効性は、さまざまな指標にわたって総合的に評価されました。研究者らは、Huawei Cloud ModelArt プラットフォーム上の最大 90 個の V100 GPU の計算能力を効果的に活用して JiangJun アルゴリズムをマスターレベルまでトレーニングするトレーニング フレームワークを提案しました。 相対的な集団パフォーマンス、ナッシュ分布の視覚化、および 2 つの主要な埋め込み次元での低次元ゲーム ランドスケープの視覚化を含む複数のメトリックを組み合わせることで、チェスの非推移性問題を解決する JiangJun のアルゴリズムの熟練度が確認されます。 さらに、JiangJun アルゴリズムは、標準的な AlphaZero チェスや Behavior Clone チェスと比較して、勝率がそれぞれ 85% と 96.40% を超えており、同時代のアルゴリズムよりも勝率が大幅に優れています。悪用可能性の評価では、JiangJun のアルゴリズムは、標準的な AlphaZero チェス アルゴリズム (25.53%) よりも最適な戦略 (ほぼ最適な応答の勝率 8.41%) に大幅に近づきました。 さらに、研究者らはWeChatプラットフォーム上でチェスアプレットを設計し、6か月間にわたって江軍アルゴリズムと人間の対戦相手との間で行われた7,000以上のゲーム記録をまとめた。ゲームデータによると、JiangJun のアルゴリズムは驚異的な 99.41% の勝率で人間の対戦相手に勝利しました。 驚異的な勝率がほぼ 100% であることに加え、さまざまな終盤のケース スタディでは、JiangJun のアルゴリズムがチェスの終盤の複雑さに柔軟に対応する優れた能力も備えていることが示されています。 JiangJun アルゴリズムの登場は、チェスの分野における AI の驚くべき成果を示しています。研究チームは、完全情報ゲームにおける非推移性問題を解決することで、ナッシュ応答とモンテカルロ木探索技術を導入することに成功し、チェスのゲームに新しい考え方をもたらしました。このアルゴリズムは驚異的な勝率を達成しただけでなく、複雑で不確実な問題に対処する AI の強力な能力も実証しました。 参考リンク: https://arxiv.org/abs/2308.04719 https://openreview.net/forum?id=MMsyqXIJuk https://sites.google.com/view/jiangjun-site/ 著者: ヘイゼル・ヤン |
>>: 【スマートファーマーズ】潜在能力を引き出し、塩性アルカリ性土壌を肥沃な畑に変えるための複数の対策
商務省のビッグデータモニタリングによると、2025年の春節期間中、全国の主要小売・飲食企業の売上高は...
カニ卵風味のメロンの種には心臓を保護し、免疫力を高める働きがあります。食べるときは適量に注意し、頻繁...
オート麦は皆さんもよくご存知だと思います。オート麦には人体に必要な微量元素が数多く含まれています。オ...
「歩きながらスマホを見る」「薄暗いところで読書をする」「頻繁に手で目をこする」…こうした悪い習慣は...
北京、上海、広州など11都市は半年以上前から国家V排出基準を実施している。 2017年1月1日から全...
2024年8月27日、北京大学地球宇宙科学学院の江大勇教授は、中国貴州科学普及特別イベントで「災害...
「人生に美しさが欠けているわけではない。しかし、美しさを発見する目が欠けているのだ。」同様に、人生...
便秘がある場合、白ワインを飲んでもよいですか? この質問を理解するには、白ワインに関する伝統的な中医...
イルカはサメの天敵であり、自分自身や仲間を守るために積極的にサメを攻撃することもあると聞いたことがあ...
知っていましたか?日常生活でよく食べる食べ物でも重篤な中毒反応を引き起こす可能性がありますが、食べる...
太陽系の8つの惑星のうちの1つである木星は、「惑星の王」として知られています。昔、私の国ではそれを遂...
鶏油飯といえば、テレビなどで見たことがあるという人も多いと思いますが、実際には鶏油飯を食べたことがな...
WHOが11月26日午後に発表した発表によると、B.1.1.529変異株は同組織によって最高レベル...
タロイモパンはペストリーの一種です。ペストリーの種類によって、使用されている材料が異なるため、栄養価...
九本指の桃はブドウによく似た果物で、色は黒紫色です。九指桃の茎と葉は丸まっており、葉の縁は鋸歯状にな...