卓球AIが中級レベルに到達しました！複雑な物理世界に対処することはもはや人間の専門知識ではないのでしょうか?

中国の「国民球」として知られる卓球は、世界的に人気のある球技です。卓球を上手にプレーするには、素早い反応、正確なコントロール、優れた戦略的意思決定が必要です。コンピュータ科学技術の発展に伴い、卓球ロボットの研究は注目の分野となっていますが、速度と精度、ターゲット制御という二重の高度な要件がロボット技術における困難な問題となっています。チェスや囲碁などの戦略ゲームとは異なり、ロボットには複雑な人間とコンピューターの相互作用機能が必要であり、デバイスの検出、軌道の予測、動作の意思決定などのアクションを数ミリ秒以内に完了する必要があります。

最近、DeepMind は、同社の研究開発チームが、競技でアマチュアの卓球選手のレベルに到達できる卓球ロボットを開発したと発表した。中級者と対等に競争でき、上級者と対戦してもかなりのポイントを獲得できます。最も驚くべきことは、学習して適応する能力があることです。人間とのゲームの初期段階では遅れをとることもありますが、ゲーム数が増えるにつれて、人間のプレイスタイルをシミュレートして学習し、戦略を調整して、スコアを近づけることができます。

囲碁はAIアルゴリズムによって征服されました。人間は卓球の競技でどれくらいの期間優位性を維持できるのでしょうか？

編集者 |レン

AlphaGo が囲碁で人類を征服した後、Google DeepMind は最近、もう一つの大きな動き、今度は卓球でアマチュアの人間プレイヤーと競争できるロボットを発表しました。フォアハンドとバックハンドの両方でボールを受け取ることができるだけでなく、さまざまな対戦相手のプレースタイルを学習して適応することができ、驚くべき柔軟性と学習能力を発揮します。

現時点ではこの卓球ロボットに名前はついていないが、テクノロジーメディアのArstechnicaはこれをAlphaPongと呼ぶことを提案した。

卓球は素早い反応、正確なコントロール、戦略的思考を必要とするスポーツであり、長い間、AIとロボット工学にとって大きな課題と考えられてきました。チェスや囲碁などの純粋な戦略ゲームとは異なり、卓球ロボットには複雑な人間とコンピューターの相互作用機能が必要であり、数ミリ秒以内に意思決定と行動を行う必要があります。

Google DeepMind の最新の成果は、スポーツ競技における AI の応用において重要な前進を示しています。「これは人間と同じレベルでスポーツ競技ができる初のロボットエージェントであり、ロボットの学習と制御技術における重要なマイルストーンとなる」と研究チームは論文の中で誇らしげに宣言した。

卓球ロボットはどのように訓練されるのでしょうか?

この卓球ロボットの機械部分は、ABB の IRB 1100 モデルロボットアームから得られます。これは、ABB が発売した最もコンパクトで軽量な 6 軸ロボットの 1 つです。 6 つのアクティブジョイントを備え、2 つのリニアトラック上に設置されているため、2D 平面で自由に移動でき、テーブルのほとんどの領域をカバーできます。ロボットアームの先端には、3D プリントされたラケットハンドルと標準的なゴム製卓球ラケットが装備されています。この設定は人間のプレーヤーの水平グリップを模倣しており、ロボットがさまざまな一般的な卓球の技術的な動きを実行できるようにします。

卓球ロボットの「頭脳」は複雑な AI システムであり、プレーヤーの動きと卓球ボールの軌道をリアルタイムで捉える高速カメラも搭載されています。階層化およびモジュール化された戦略アーキテクチャが採用されています。このアーキテクチャは、主に低レベルコントローラ (LLC) と高レベルコントローラ (HLC) の 2 つの部分で構成されます。

LLC は、フォアハンドショットやバックハンドショット、リターンショット、サーブリターンなどの特定の卓球スキルを実行するようにトレーニングされたニューラルネットワークのセットです。LLC には、フォアハンドでクロスコートショットを打つこと、バックハンドショットを控えめに打つこと、フォアハンドでバックスピンショットを返すことなどが含まれます。

LLC は、さまざまな状況での長所と短所を示す詳細なスキルの説明も収集して保存し、上級管理職の管理にとって重要な参考資料を提供します。 LLC は、視覚入力から直接 50 Hz の関節速度コマンドを生成し、正確な動作制御を実現できる畳み込みニューラルネットワーク (CNN) アーキテクチャを使用します。

HLC は指揮官として、ボールが来るたびに、現在のゲーム統計、スキルの説明、対戦相手の能力に基づいて LLC を調整し、最善の戦略的決定を下します。 HLC にはいくつかの重要な要素が含まれており、その中でスタイル戦略によってフォアハンドを使用するかバックハンドを使用するかが決まります。回転分類器は、入ってくるボールの回転を識別します。ゲーム統計モジュールは、対戦相手とロボットのパフォーマンスを追跡します。戦略モジュールは、前のコンポーネントを入力として使用して、候補 LLC のリストを生成します。 LLC 優先モジュールは、現在の対戦相手に対する各 LLC のパフォーマンスを推定し、各ショットの後にそれを更新することで、対戦相手の特性に対するリアルタイムの学習と適応を実現します。

この階層化アーキテクチャにより、ロボットは数ミリ秒以内に複雑な決定を下すことができ、反応速度と動作の精度の両方が保証されます。

仮想から現実へ

この卓球ロボットシステムのトレーニングプロセスでは、強化学習と模倣学習の利点を組み合わせ、革新的な反復アプローチを使用して、仮想から現実への移行の課題を克服します。

まず、研究チームはロボットを現実世界に配備し、人間とのやりとりに関するデータを収集しました。データセットのトレーニング、現実世界での評価、注釈付き評価データによるデータセットの拡張という反復サイクルを通じて、研究チームは最終的に大量のボール状態データとサーブデータを取得しました。

次に、強化学習アルゴリズムを使用して、慎重に設計されたシミュレーション環境で AI システムをトレーニングしました。このシミュレーション環境では、MuJoCo 物理エンジンが使用されています。これにより、シミュレーションでさまざまなラケットパラメータを切り替えて、現実世界のトップスピンとバックスピンの効果をシミュレートできます。

トレーニング後、AI システムは実際のロボットに直接展開され、人間のプレイヤーと競争します。このプロセスで生成された新しいデータはトレーニングの更新に使用され、トレーニング、展開、データ収集、再トレーニングという反復サイクルが形成されます。

このように、シミュレーションと現実を組み合わせる過程でロボットのスキルは絶えず向上し、競争は徐々に複雑になっていきます。

この反復的なアプローチの主な利点は、ロボットが実際の戦闘中に能力のギャップを発見し、その後、シミュレーション環境での継続的なトレーニングを通じてそれらの欠陥を補うことができることです。この自己改善能力により、常に新しい対戦相手やプレースタイルに適応することが可能になります。

実際のパフォーマンス

ロボットの実際のパフォーマンスを評価するために、研究チームは包括的なユーザー調査を実施しました。彼らはまず、プロの卓球コーチが 59 人のボランティアのレベルを評価し、初級、中級、上級、上級+ の 4 つのレベルに分けるというパイロットスタディを実施しました。

正式なユーザー調査では、29 人の参加者がロボットと 3 つのゲームをプレイし、オプションで無料の練習セッションも行いました。この研究の主な指標は、ロボットが人間のプレイヤーと対戦したゲームでのスコアであり、研究者らはゲームのビデオも分析した。

結果は印象的でした:

ロボットは全試合の 45%、全ラウンドの 46% で勝利し、全ポイントの 49% を獲得しました。

初心者と対戦する場合、ロボットの勝率は 100% です。

中級レベルのプレイヤーに対して、ロボットは試合の 55% とラウンドの 50% で勝利しました。

ロボットは、上級および上級+レベルのプレイヤーに対しては、ゲームやイニングに勝つことはできませんでしたが、それでも 34% のポイントを獲得しました。

これらのデータは、ロボットの全体的なパフォーマンスがアマチュアプレイヤーのレベルに達しており、中級プレイヤーと対等に競争でき、上級プレイヤーに対してもかなりのポイントを獲得できることを示しています。

このロボットの最も驚くべき機能の一つは、リアルタイムで適応する能力です。研究者らは、試合の初期段階ではロボットが遅れをとることがあるものの、ゲームが進むにつれてロボットが相手のプレーに素早く適応し、戦略を調整してスコアを近づけることができることを観察した。

参加者からのフィードバックも非常に好意的でした。あらゆるスキルレベルのプレイヤーがボットとの対戦を楽しいと感じ、再度対戦することに興味を示しました。試合後のインタビューで、選手たちはボットについて「楽しい」や「エキサイティング」といった言葉で表現した。

異なるスキルレベルのプレイヤーはボットを少し異なる方法で見ていることに注意する価値があります。初心者と中級者のプレイヤーはボットの方が難しいと感じましたが、上級者と上級者以上のプレイヤーはボットの方が魅力的で楽しいと感じました。これは、ボットがさまざまなスキルレベルの対戦相手に適応し、あらゆるタイプのプレイヤーに適切な難易度と楽しさを提供できることを示しています。

これも研究者が特に注目している点です。この楽しくインタラクティブな体験は、スポーツのトレーニングとエンターテイメントにおける AI の可能性を強調します。あなたのレベルに合わせて、限界まで追い込み、楽しみながらトレーニングを続けてくれる、疲れを知らないトレーニングパートナーを想像してみてください。このような AI コーチは、スポーツの学習や練習の方法に革命をもたらす可能性があります。

制限と課題

全体的には素晴らしいパフォーマンスを発揮しますが、ロボットにはまだいくつかの制限があります。 1 つ目は、ロボットはまだどのようにサービスを提供すればよいかを知らず、サービスを提供するには人間に頼るしかないということです。

第二に、研究チームは、極端に速いボール、極端に低いボール、高いボールを扱う際のパフォーマンスが悪く、強いスピンのかかったボールを正確に判断することが難しいことを発見しました。さらに、彼のバックハンド技術は、フォアハンドに比べてまだ改善の余地が大いにあります。

特に顕著な弱点は、バックスピンボールを処理する能力です。バックスピンボールに直面すると、ロボットがボールをテーブルに打つ率が大幅に低下します。

研究者らは、これは主に、テーブルにぶつからないように低い弧を描くボールをテーブルの近くで扱う際に、ロボットが正確な制御を行うことが難しいためだと説明した。同時に、ボールの回転の種類をリアルタイムで判断することには技術的な限界があります。

これらの課題は将来の研究の方向性を示しています。たとえば、より高度な制御アルゴリズムとハードウェアの最適化によってレイテンシを削減したり、低いボールに対処するためのより複雑な衝突検出および回避アルゴリズムを開発したり、より強力な戦略策定機能を探究したり、さらにはロボット同士が戦えるようにしたりします。

DeepMind の最新の成果は、複雑な物理世界のタスクにおける AI とロボット工学の大きな可能性を示していると言えます。この技術の応用範囲は卓球だけにとどまらない。これは、予測不可能な人間の行動に対する迅速な対応と適応を必要とするさまざまなロボットタスクに拡張でき、より高いレベルの人間とロボットのコラボレーションを実現します。

人工知能と大規模モデルの分野の研究者は、AlphaPongは現在、ほとんどの卓球愛好家の練習ニーズを満たすことができるとFanPuに語った。長期的な開発の観点からは、スピンボールやフェイントなどのさまざまな人間のスキルデータを含むより多くのデータを収集し、強力なAIアルゴリズムを通じて人間に勝つ必要があります。しかし、どれだけ「見える」のかはまだ不明です。今後、Alphapong はさまざまな条件下で既存のモデルを最適化するという課題に直面する可能性があります。

すべてのアスリートに、世界トップクラスの選手のスタイルを模倣しながら、個人の特性に基づいて難易度を調整できる AI トレーニングパートナーがいると想像してみてください。これにより、トレーニングの効率が向上するだけでなく、アスリートが自分の技術をより深く理解し、向上させるのにも役立ちます。

テクノロジーが進歩するにつれ、さまざまな分野で同様の AI システムがさらに登場することが予想されます。彼らは人間に取って代わるためにここにいるのではなく、私たちを助け、刺激し、挑戦させ、人間の可能性の限界を探求するよう促すためにここにいるのです。

特別なヒント

1. 「Fanpu」WeChatパブリックアカウントのメニューの下部にある「特集コラム」に移動して、さまざまなトピックに関する人気の科学記事シリーズを読んでください。

2. 「Fanpu」では月別に記事を検索する機能を提供しています。公式アカウントをフォローし、「1903」などの4桁の年+月を返信すると、2019年3月の記事インデックスなどが表示されます。

著作権に関する声明: 個人がこの記事を転送することは歓迎しますが、いかなる形式のメディアや組織も許可なくこの記事を転載または抜粋することは許可されていません。転載許可については、「Fanpu」WeChatパブリックアカウントの舞台裏までお問い合わせください。

<<: 「オーロラが重慶に初めて現れた」というのは本当ですか？スター写真家があなたの質問にお答えします！

>>: 蜂蜜は劣化せず、何千年も保存できるのでしょうか？この真実を私は予想していませんでした...