今回もAIが人間に勝ちました。 ファーウェイクラウドAIのCTO、戴宗紅氏と北京大学AI研究所の助教授、楊耀東氏が率いる研究チームは、チェスのゲームで勝率99.41%で人間の対戦相手を圧倒できるアルゴリズム「将軍(JiangJun、発音は「将軍」)」を開発した。 「JiangJun: 2人用ゼロサムゲームにおける非推移性に取り組むことで象棋をマスターする」と題された関連研究論文が、プレプリントウェブサイトarXivで公開されました。 人間のプレイヤーを対戦相手として使用し、継続的な試行錯誤と反復を実行することは、現在の強化学習ベースの AI エージェントの進化の一般的な方法です。近年、現実のシナリオでは通常複数のエージェントが同時に存在するため、研究者は単一エージェント分野からマルチエージェント分野へと焦点を広げています。 実際、マルチエージェント強化学習はさまざまなゲーム分野で目覚ましい成功を収めており、Hide and Seek(Steam のゲーム)、囲碁、StarCraft II、Dota 2、Military Chess などのゲームで実証されています。 しかし、AlphaZero や AlphaGo などのアルゴリズムは、トレーニングのために対戦相手の最近のパフォーマンスに重点を置いているため、非推移的な構造を持つゲームでは、一貫して勝ったり、望ましい状態を達成したりできない可能性があります。この問題は不完全情報ゲームでは集中的に研究されてきましたが、完全情報ゲームでは比較的あまり研究されていません。 完全情報ゲーム: チェスなど、参加者全員が他の参加者全員の特性、戦略、報酬関数に関する正確な情報を持っているゲーム。 不完全情報ゲーム: 少なくとも 1 人の参加者が上記の情報について不完全な知識を持っています (Western Army Chess など)。 現在、完全情報ゲームにおける非推移性の問題を克服することは、未解決の研究課題のままです。最近の研究では、戦略空間応答オラクル (PSRO) アルゴリズムを使用してナッシュ均衡を見つけることに重点が置かれていますが、これらの方法は完全情報ゲームでは検討されていません。 チェスはアクセスしやすいため、ボードゲームや非推移幾何学を探求するのに最適なテーマとなります。この研究では、チェスの複雑な幾何学的特性を調査し、10,000 を超える人間のゲームの大規模なデータセットを使用して、推移的な中間領域におけるチェスの顕著な非推移性を明らかにしました。 非推移性問題を解決するために、研究者らは、AlphaZero の自己対戦戦略とは異なり、ナッシュ応答を使用して対戦相手を選択する JiangJun アルゴリズムを提案しました。 JiangJun アルゴリズムは、MCTS Actor と Populationer という 2 つの基本モジュールで構成されています。これらのコンポーネントを組み合わせることで、モンテカルロ ツリー サーチ (MCTS) 技術を活用して、プレイヤー集団内のナッシュ均衡を近似します。 JiangJun のアルゴリズムの有効性は、さまざまな指標にわたって総合的に評価されました。研究者らは、Huawei Cloud ModelArt プラットフォーム上の最大 90 個の V100 GPU の計算能力を効果的に活用して JiangJun アルゴリズムをマスターレベルまでトレーニングするトレーニング フレームワークを提案しました。 相対的な集団パフォーマンス、ナッシュ分布の視覚化、および 2 つの主要な埋め込み次元での低次元ゲーム ランドスケープの視覚化を含む複数のメトリックを組み合わせることで、チェスの非推移性問題を解決する JiangJun のアルゴリズムの熟練度が確認されます。 さらに、JiangJun アルゴリズムは、標準的な AlphaZero チェスや Behavior Clone チェスと比較して、勝率がそれぞれ 85% と 96.40% を超えており、同時代のアルゴリズムよりも勝率が大幅に優れています。悪用可能性の評価では、JiangJun のアルゴリズムは、標準的な AlphaZero チェス アルゴリズム (25.53%) よりも最適な戦略 (ほぼ最適な応答の勝率 8.41%) に大幅に近づきました。 さらに、研究者らはWeChatプラットフォーム上でチェスアプレットを設計し、6か月間にわたって江軍アルゴリズムと人間の対戦相手との間で行われた7,000以上のゲーム記録をまとめた。ゲームデータによると、JiangJun のアルゴリズムは驚異的な 99.41% の勝率で人間の対戦相手に勝利しました。 驚異的な勝率がほぼ 100% であることに加え、さまざまな終盤のケース スタディでは、JiangJun のアルゴリズムがチェスの終盤の複雑さに柔軟に対応する優れた能力も備えていることが示されています。 JiangJun アルゴリズムの登場は、チェスの分野における AI の驚くべき成果を示しています。研究チームは、完全情報ゲームにおける非推移性問題を解決することで、ナッシュ応答とモンテカルロ木探索技術を導入することに成功し、チェスのゲームに新しい考え方をもたらしました。このアルゴリズムは驚異的な勝率を達成しただけでなく、複雑で不確実な問題に対処する AI の強力な能力も実証しました。 参考リンク: https://arxiv.org/abs/2308.04719 https://openreview.net/forum?id=MMsyqXIJuk https://sites.google.com/view/jiangjun-site/ 著者: ヘイゼル・ヤン |
>>: 【スマートファーマーズ】潜在能力を引き出し、塩性アルカリ性土壌を肥沃な畑に変えるための複数の対策
ナツメはビタミンが非常に多く含まれており、「五大果物」の一つに数えられています。ナツメには糖分やビタ...
最近、CES 2017で、Segway Roboticsは製品の開発者バージョンをリリースし、新しい...
美を愛する多くの女性の友人は、皆完璧な体型を望んでいるので、体重増加を抑えるために生活の中でいくつか...
この世で最も苦しいことは、自分が何者であるか分かっているのに、自分で治せないことです。これは厄介な病...
氷砂糖、シロキクラゲ、ナツメのスープを飲んだことがありますか?シロキクラゲスープとナツメのスープは、...
このような状況は、どの家族グループでも起きているわけではありません。年長者はインターネットで読んだ健...
ホエイプロテインパウダーを食べるのに最適な時間はいつですか?まず、ホエイプロテインパウダーとは何か、...
お子さんは高熱を出しています。早く良くなるように点滴をしてください。外来診療所での点滴は単なる詐欺で...
周知のとおり、2000年の禁止により、中国ではコンソールゲームが10年以上中断され、中国のゲーム業界...
広東省観光産業ビッグデータプラットフォームのデータによると、2017年のメーデー連休(4月29日~5...
この記事の専門家:朱光思、科学ライター、北京科学ライター協会会員虎は十二支の3番目であり、現実に重要...
ナマズは誰もが大好きな魚の一種です。ナマズは美味しいだけでなく、栄養も豊富です。ナマズを定期的に食べ...
北京新聞によると、LG電子の辛文範社長は最近、昨年中国市場に復帰した後、携帯電話の販売が理想的ではな...