ロボットに卓球をさせて、フォアハンド、バックハンド、回転ボールをレシーブできるようにしますか?ネットユーザー：オリンピックで会いましょう！

著者 |馬雪偉

序文

ロボットも卓球ができるようになり、中級レベルの人間選手と同等のレベルに到達しました。

では、早速、それが人間の初心者にどのような大混乱をもたらすのか見てみましょう。

このロボットはGoogle DeepMindの研究チームによって作成され、29のロボット対人間の競争のうち45％（29のうち13）で優勝したと報告されています。注目すべきは、すべての人間プレイヤーがロボットを初めて使用したということだ。

ロボットはトッププレイヤーとの対戦ではすべて負けましたが、初心者には100%、中級者には55%勝利しました。

写真｜プロのコーチと一緒に卓球をする様子。

これに対し、プロの卓球コーチであるバーニー・J・リード氏は「ロボットがあらゆるレベルやスタイルの選手と競い合うのを見るのは素晴らしい。私たちの目標はロボットを中級レベルにまで引き上げることだ。このロボットは私の期待をはるかに上回ったと思う」と語った。

「人間レベルの競争力のあるロボット卓球の実現」と題された関連研究論文が、プレプリントウェブサイトarXivに掲載されています。

ロボットに卓球をさせるにはどうすればいいでしょうか?

現在、卓球はパリオリンピックの大きなハイライトとなっている。卓球選手は競技において、極めて高い体力、高速移動能力、様々なボールの正確なコントロール、超人的な感受性を発揮します。

そのため、1980年代以降、研究者たちは卓球をロボットのベンチマークとして活用し、多くの卓球ロボットを開発し、ボールを相手のコートの半分に返す、ターゲットを打つ、スマッシュ、協力プレイなど、卓球の多くの重要な側面において進歩を遂げてきました。しかし、まだロボットが目に見えない人間の相手と卓球の試合を最後までプレイした例はない。

この研究では、階層型およびモジュール型のポリシーアーキテクチャ、タスク配分の反復定義、シミュレーション間の適応層、ドメインのランダム化、未知の対戦相手へのリアルタイム適応、ハードウェアの展開などの技術を通じて、Google DeepMind チームは、ロボットと人間のプレーヤー間の競技卓球でアマチュアの人間レベルのパフォーマンスを達成しました。

図 |方法の概要。

1. スキルライブラリに基づく階層的かつモジュール化された戦略アーキテクチャ

低レベルコントローラー (LLC) : このライブラリには、フォアハンド攻撃、バックハンドの配置、フォアハンドサーブなど、さまざまな卓球スキルが含まれています。各 LLC は、特定のスキルのトレーニングに重点を置いた独立した戦略です。これらの LLC はニューラルネットワークを介して学習され、MuJoCo 物理エンジンを使用してシミュレーションでトレーニングされます。

図｜LLC研修ライブラリ。

ハイレベルコントローラー (HLC) : HLC は、現在のゲーム状況と対戦相手の能力に基づいて、最も適切な LLC を選択する責任を負います。次のモジュールで構成されています。

スタイル選択戦略: この戦略では、ボールの種類 (サーブまたはアタック) に応じて、フォアハンドまたはバックハンドのいずれかを使用することを選択します。

スピン分類器: この分類器は、入ってくるボールにトップスピンがあるかバックスピンがあるかを判断します。

LLC スキル記述子: これらの記述子は、ヒット率やボールの配置など、さまざまなボール条件下での各 LLC のパフォーマンスメトリックを記録します。

戦略選択モジュール: このモジュールは、LLC スキル記述子、試合統計、および対戦相手の能力に基づいて LLC の候補リストを生成します。

LLC の優先度 (H 値): このモジュールは、勾配バンディットアルゴリズムを使用して各 LLC の優先度値をオンラインで学習し、優先度値に基づいて最終的な LLC を選択します。

図 |ボールが打たれると、HLC はまず、現在のボール状態にスタイルポリシーを適用してフォアハンドかバックハンドかを判断し、ボールを返す LLC を決定します (この例ではフォアハンドが選択されています)。

2. ゼロサンプルシミュレーションを現実に近づける技術

タスクの分散を反復的に定義する: この方法では、人間同士のゲームデータから初期のボール状態データを収集し、シミュレートされた環境で LLC と HLC をトレーニングします。シミュレートされたトレーニングによって生成されたデータは実際のデータセットに追加され、このプロセスが繰り返されてトレーニングタスクの分布が徐々に改善されます。

シミュレーションからシミュレーションへの適応層: シミュレーション環境におけるアップスピンモデルとダウンスピンモデルのパラメータの違いによって発生する問題を解決するために、この論文では、回転とシミュレーションからシミュレーションへの適応層という 2 つのソリューションを提案しています。回転問題は LLC トレーニングデータセットを調整することで解決され、アナログからアナログへの適応層は FiLM 層を使用してアップスピンとダウンスピンの間のマッピングを学習します。

ドメインのランダム化: トレーニング中、シミュレーション環境内の観測ノイズ、遅延、テーブルとラケットの減衰、摩擦などのパラメータをランダム化し、現実世界の不確実性をシミュレートします。

図 |ゼロショットシミュレーションから現実への変換。

3. 未知の対戦相手にリアルタイムで適応する

ゲーム統計のリアルタイム追跡：HLC は、ロボット対戦相手と対戦相手のスコアやターンオーバーなどのゲーム統計をリアルタイムで追跡し、このデータに基づいて LLC の優先値を調整して、対戦相手の変化に適応します。

LLC の好みのオンライン学習: 勾配バンディットアルゴリズムを通じて、HLC は各 LLC の好みの値をオンラインで学習し、対戦相手の弱点に応じてより適切な LLC を選択できます。

図｜階層制御。

研究チームは、タスク条件を初期化するために、少量の人間同士の戦闘データを収集しました。次に、強化学習 (RL) を使用してシミュレーションでエージェントをトレーニングし、さまざまな手法を使用してポリシーを実際のハードウェアにゼロショット展開します。エージェントは人間のプレイヤーと対戦して、より多くのトレーニングタスク条件を生成し、その後、トレーニングと展開のサイクルを繰り返します。ロボットが改良されるにつれて、競技の基準は現実世界のタスク条件に基づきながらも、より複雑になっていきます。このハイブリッドシミュレーションと現実のサイクルは、ロボットのスキルが時間の経過とともに向上できるようにするタスクの自動化カリキュラムを作成します。

戦いはどうでしたか？

エージェントのスキルレベルを評価するために、ロボットは、プロの卓球コーチによって決定されたさまざまなスキルレベル (初級、中級、上級、上級以上) の卓球選手 29 名と対戦しました。

すべての対戦相手の中で、ロボットは試合の 45% とラウンドの 46% で勝利しました。スキルレベル別に見ると、ボットは初心者との対戦ではすべて勝ち、上級者および上級者以上のプレイヤーとの対戦ではすべて負け、中級者との対戦では 55% の勝率でした。これは、エージェントがラウンドで中級の人間プレイヤーのレベルに到達することを強く示唆しています。

図 |ロボットは、すべての対戦相手に対して、試合の 45% とゲームの 46% で勝利し、初心者に対しては試合の 100%、中級者に対しては試合の 55% で勝利しました。

研究参加者はロボットで遊ぶことを楽しみ、「楽しい」「魅力的」であると高く評価した。このスコアは、参加者が勝ったか負けたかに関係なく、スキルレベルに関係なく一貫しています。また、圧倒的多数が「必ず」もう一度ロボットと対戦したいと回答しました。ロボットと遊ぶ自由時間が与えられたとき、彼らは平均4分6秒、合計5分間遊びました。

上級プレイヤーはボットの戦略の弱点を突くことができ、それでもボットとのプレイを楽しんでいました。試合後のインタビューでは、彼らはボールマシンよりもダイナミックな練習パートナーだと考えていた。

図｜参加者はロボットと楽しく遊び、「楽しい」「夢中になれる」と高い評価を得ました。

欠点と展望

研究チームによると、このロボット学習システムには、速いボールや低いボールへの対応能力が限られていること、回転検出精度が低いこと、複数のボールに対する戦略や戦術が欠けていることなど、まだいくつかの限界があるという。

今後の研究の方向性としては、ロボットのさまざまなボールの取り扱い能力の向上、より複雑な戦略の学習、モーションキャプチャ技術の向上などが挙げられます。

研究チームはまた、本研究で提案された階層的戦略アーキテクチャとゼロサンプルシミュレーションから現実への変換方法は、他のロボット学習タスクにも適用できると述べた。さらに、リアルタイム適応技術により、ロボットは変化する環境やタスクに適応しやすくなります。さらに、高性能で堅牢なロボット学習システムを開発するには、システム設計の原則も重要です。

<<: 過度な日焼け止めはビタミンDの合成に影響し、くる病を引き起こすのでしょうか？皮膚科医はこう言う

>>: オリンピックの競技はあなたを褒め称えました。日常生活で練習できるオリンピック競技がたくさんあることがわかりました！