著者 |馬雪偉 序文 ロボットも卓球ができるようになり、中級レベルの人間選手と同等のレベルに到達しました。 では、早速、それが人間の初心者にどのような大混乱をもたらすのか見てみましょう。 このロボットはGoogle DeepMindの研究チームによって作成され、29のロボット対人間の競争のうち45%(29のうち13)で優勝したと報告されています。注目すべきは、すべての人間プレイヤーがロボットを初めて使用したということだ。 ロボットはトッププレイヤーとの対戦ではすべて負けましたが、初心者には100%、中級者には55%勝利しました。 写真|プロのコーチと一緒に卓球をする様子。 これに対し、プロの卓球コーチであるバーニー・J・リード氏は「ロボットがあらゆるレベルやスタイルの選手と競い合うのを見るのは素晴らしい。私たちの目標はロボットを中級レベルにまで引き上げることだ。このロボットは私の期待をはるかに上回ったと思う」と語った。 「人間レベルの競争力のあるロボット卓球の実現」と題された関連研究論文が、プレプリントウェブサイトarXivに掲載されています。 ロボットに卓球をさせるにはどうすればいいでしょうか? 現在、卓球はパリオリンピックの大きなハイライトとなっている。卓球選手は競技において、極めて高い体力、高速移動能力、様々なボールの正確なコントロール、超人的な感受性を発揮します。 そのため、1980年代以降、研究者たちは卓球をロボットのベンチマークとして活用し、多くの卓球ロボットを開発し、ボールを相手のコートの半分に返す、ターゲットを打つ、スマッシュ、協力プレイなど、卓球の多くの重要な側面において進歩を遂げてきました。しかし、まだロボットが目に見えない人間の相手と卓球の試合を最後までプレイした例はない。 この研究では、階層型およびモジュール型のポリシー アーキテクチャ、タスク配分の反復定義、シミュレーション間の適応層、ドメインのランダム化、未知の対戦相手へのリアルタイム適応、ハードウェアの展開などの技術を通じて、Google DeepMind チームは、ロボットと人間のプレーヤー間の競技卓球でアマチュアの人間レベルのパフォーマンスを達成しました。 図 |方法の概要。 1. スキルライブラリに基づく階層的かつモジュール化された戦略アーキテクチャ 低レベル コントローラー (LLC) : このライブラリには、フォアハンド攻撃、バックハンドの配置、フォアハンド サーブなど、さまざまな卓球スキルが含まれています。各 LLC は、特定のスキルのトレーニングに重点を置いた独立した戦略です。これらの LLC はニューラル ネットワークを介して学習され、MuJoCo 物理エンジンを使用してシミュレーションでトレーニングされます。 図|LLC研修ライブラリ。 ハイレベル コントローラー (HLC) : HLC は、現在のゲーム状況と対戦相手の能力に基づいて、最も適切な LLC を選択する責任を負います。次のモジュールで構成されています。 スタイル選択戦略: この戦略では、ボールの種類 (サーブまたはアタック) に応じて、フォアハンドまたはバックハンドのいずれかを使用することを選択します。 スピン分類器: この分類器は、入ってくるボールにトップスピンがあるかバックスピンがあるかを判断します。 LLC スキル記述子: これらの記述子は、ヒット率やボールの配置など、さまざまなボール条件下での各 LLC のパフォーマンス メトリックを記録します。 戦略選択モジュール: このモジュールは、LLC スキル記述子、試合統計、および対戦相手の能力に基づいて LLC の候補リストを生成します。 LLC の優先度 (H 値): このモジュールは、勾配バンディット アルゴリズムを使用して各 LLC の優先度値をオンラインで学習し、優先度値に基づいて最終的な LLC を選択します。 図 |ボールが打たれると、HLC はまず、現在のボール状態にスタイル ポリシーを適用してフォアハンドかバックハンドかを判断し、ボールを返す LLC を決定します (この例ではフォアハンドが選択されています)。 2. ゼロサンプルシミュレーションを現実に近づける技術 タスクの分散を反復的に定義する: この方法では、人間同士のゲーム データから初期のボール状態データを収集し、シミュレートされた環境で LLC と HLC をトレーニングします。シミュレートされたトレーニングによって生成されたデータは実際のデータセットに追加され、このプロセスが繰り返されてトレーニング タスクの分布が徐々に改善されます。 シミュレーションからシミュレーションへの適応層: シミュレーション環境におけるアップスピン モデルとダウンスピン モデルのパラメータの違いによって発生する問題を解決するために、この論文では、回転とシミュレーションからシミュレーションへの適応層という 2 つのソリューションを提案しています。回転問題は LLC トレーニング データセットを調整することで解決され、アナログからアナログへの適応層は FiLM 層を使用してアップスピンとダウンスピンの間のマッピングを学習します。 ドメインのランダム化: トレーニング中、シミュレーション環境内の観測ノイズ、遅延、テーブルとラケットの減衰、摩擦などのパラメータをランダム化し、現実世界の不確実性をシミュレートします。 図 |ゼロショットシミュレーションから現実への変換。 3. 未知の対戦相手にリアルタイムで適応する ゲーム統計のリアルタイム追跡:HLC は、ロボット対戦相手と対戦相手のスコアやターンオーバーなどのゲーム統計をリアルタイムで追跡し、このデータに基づいて LLC の優先値を調整して、対戦相手の変化に適応します。 LLC の好みのオンライン学習: 勾配バンディット アルゴリズムを通じて、HLC は各 LLC の好みの値をオンラインで学習し、対戦相手の弱点に応じてより適切な LLC を選択できます。 図|階層制御。 研究チームは、タスク条件を初期化するために、少量の人間同士の戦闘データを収集しました。次に、強化学習 (RL) を使用してシミュレーションでエージェントをトレーニングし、さまざまな手法を使用してポリシーを実際のハードウェアにゼロショット展開します。エージェントは人間のプレイヤーと対戦して、より多くのトレーニング タスク条件を生成し、その後、トレーニングと展開のサイクルを繰り返します。ロボットが改良されるにつれて、競技の基準は現実世界のタスク条件に基づきながらも、より複雑になっていきます。このハイブリッドシミュレーションと現実のサイクルは、ロボットのスキルが時間の経過とともに向上できるようにするタスクの自動化カリキュラムを作成します。 戦いはどうでしたか? エージェントのスキル レベルを評価するために、ロボットは、プロの卓球コーチによって決定されたさまざまなスキル レベル (初級、中級、上級、上級以上) の卓球選手 29 名と対戦しました。 すべての対戦相手の中で、ロボットは試合の 45% とラウンドの 46% で勝利しました。スキルレベル別に見ると、ボットは初心者との対戦ではすべて勝ち、上級者および上級者以上のプレイヤーとの対戦ではすべて負け、中級者との対戦では 55% の勝率でした。これは、エージェントがラウンドで中級の人間プレイヤーのレベルに到達することを強く示唆しています。 図 |ロボットは、すべての対戦相手に対して、試合の 45% とゲームの 46% で勝利し、初心者に対しては試合の 100%、中級者に対しては試合の 55% で勝利しました。 研究参加者はロボットで遊ぶことを楽しみ、「楽しい」「魅力的」であると高く評価した。このスコアは、参加者が勝ったか負けたかに関係なく、スキルレベルに関係なく一貫しています。また、圧倒的多数が「必ず」もう一度ロボットと対戦したいと回答しました。ロボットと遊ぶ自由時間が与えられたとき、彼らは平均4分6秒、合計5分間遊びました。 上級プレイヤーはボットの戦略の弱点を突くことができ、それでもボットとのプレイを楽しんでいました。試合後のインタビューでは、彼らはボールマシンよりもダイナミックな練習パートナーだと考えていた。 図|参加者はロボットと楽しく遊び、「楽しい」「夢中になれる」と高い評価を得ました。 欠点と展望 研究チームによると、このロボット学習システムには、速いボールや低いボールへの対応能力が限られていること、回転検出精度が低いこと、複数のボールに対する戦略や戦術が欠けていることなど、まだいくつかの限界があるという。 今後の研究の方向性としては、ロボットのさまざまなボールの取り扱い能力の向上、より複雑な戦略の学習、モーションキャプチャ技術の向上などが挙げられます。 研究チームはまた、本研究で提案された階層的戦略アーキテクチャとゼロサンプルシミュレーションから現実への変換方法は、他のロボット学習タスクにも適用できると述べた。さらに、リアルタイム適応技術により、ロボットは変化する環境やタスクに適応しやすくなります。さらに、高性能で堅牢なロボット学習システムを開発するには、システム設計の原則も重要です。 |
<<: 過度な日焼け止めはビタミンDの合成に影響し、くる病を引き起こすのでしょうか?皮膚科医はこう言う
>>: オリンピックの競技はあなたを褒め称えました。日常生活で練習できるオリンピック競技がたくさんあることがわかりました!
コーンミールは、私たちの日常生活でよく目にするトウモロコシから作られた一種の小麦粉です。栄養価が高く...
消化不良、食欲不振などの胃腸障害がよく起こります。では、胃に問題がある場合はどうすればいいのでしょう...
オートミール麺の食べ方は?まず、オートミール麺とは何かを理解しましょう。オートミールヌードルは、オー...
塩卵は、私たちが通常塩卵と呼んでいるものです。誰もが食べるのが好きだと思います。とても美味しいです。...
COPD患者によく見られる症状には、頻繁な咳、痰、喘鳴呼吸困難、運動制限などこのため、多くの患者は休...
血液供給不足は、主にいくつかの一般的な脳疾患によって引き起こされ、主に脳への血液供給不足によって引き...
世界の自動車産業が今世紀に例を見ない変化に直面する中、中国の新エネルギー市場の急速な発展は、自動車メ...
ジャックフルーツとドリアンの違いは何でしょうか?私たちの多くは、ジャックフルーツとドリアンを区別でき...
南北導水東ルートプロジェクトの地形は、南側が低く、北側が高い。地形の違いを利用して重力で水を流すこと...
人生において、多くの人が次のようなことを聞いたり言ったりしたことがあるでしょう。 「本当に私を愛...
今はマンゴーの最盛期です。そして栄養価も非常に高いです。それは人体に非常に役立つでしょう。マンゴーの...
最近、「Popular Health Network」ウェブサイトは、アメリカの栄養学の専門家の研究...
インターネット企業は、インターネットテレビやスマートテレビにおける技術的優位性を活用して新たな参入口...
キノコは人々の生活のあらゆるところに見られます。雨上がりの荒れた木造家屋や草むらのそばには、小さな帽...