ロボットはペンを回したりクルミを転がしたりすることを学びました。 GPT-4はより複雑なタスクとより優れたパフォーマンスをサポートします

ロボットはペンを回したりクルミを転がしたりすることを学びました。 GPT-4はより複雑なタスクとより優れたパフォーマンスをサポートします

親愛なる友人たち、人工知能(AI)がチェス、囲碁、Dotaを征服した後、ペン回しのスキルもAIロボットによって学習されました。

非常にスムーズにペンを回転させることができる上記のロボットは、NVIDIA、ペンシルベニア大学、カリフォルニア工科大学、テキサス大学オースティン校の研究プロジェクトである Eureka と呼ばれるインテリジェント エージェントのおかげで実現しました。

ユーレカの指示により、ロボットは引き出しやキャビネットを開けたり、ボールを投げたりキャッチしたり、はさみを使ったりすることもできる。 Nvidia によれば、Eureka には 10 種類あり、29 種類のタスクを実行できるとのことです。

これまで、ペンの回転機能だけを、人間の専門家による手動プログラミングだけで、これほどスムーズに実現することはできなかったことを知っておく必要があります。

ロボットプレートクルミ

Eureka はロボットをトレーニングするための報酬アルゴリズムを独自に作成することができ、そのコーディング能力は強力です。独自に作成した報酬プログラムは、タスクの 83% で人間の専門家を上回り、ロボットのパフォーマンスを平均 52% 向上させることができます。

Eureka は、人間からのフィードバックから勾配のない学習を行う新しい方法を開発しました。人間が提供する報酬やテキストフィードバックを簡単に吸収し、独自の報酬生成メカニズムをさらに改善することができます。

具体的には、Eureka は OpenAI の GPT-4 を活用して、ロボットの試行錯誤学習のための報酬プログラムを作成します。つまり、システムは人間が生成したタスク固有のヒントや事前に設定された報酬パターンに依存しません。

Eureka は、Isaac Gym の GPU アクセラレーション シミュレーションを使用することで、多数の候補報酬の長所と短所を迅速に評価し、より効率的なトレーニングを実現できます。次に、Eureka はトレーニング結果の主要な統計情報の要約を生成し、LLM (言語モデル) をガイドして報酬関数の生成を改善します。このようにして、AI エージェントはロボットへの指示を独自に改善することができます。

ユーレカフレームワーク

研究者らはまた、タスクが複雑になるほど、GPT-4 の指示がいわゆる「報酬エンジニア」による人間の指示よりも優れていることも発見した。この研究に参加した研究者たちはユーレカを「超人的な報酬エンジニア」とさえ呼んだ。

Ureka は、高レベルの推論 (エンコード) と低レベルの運動制御の間のギャップをうまく埋めます。これはいわゆる「ハイブリッド勾配アーキテクチャ」を使用します。純粋な推論ブラックボックス LLM (言語モデル) が学習可能なニューラル ネットワークをガイドします。このアーキテクチャでは、外側のループは GPT-4 を実行して報酬関数を最適化し (勾配フリー)、内側のループは強化学習を実行してロボットのコントローラーをトレーニングします (勾配ベース)。 —NVIDIA のシニア研究科学者、リンシー・「ジム」・ファン

Eureka は人間からのフィードバックを取り入れて、開発者の期待に沿うように報酬をより適切に調整することができます。 Nvidia はこのプロセスを「インコンテキスト RLHF」(人間のフィードバックからのコンテキスト学習) と呼んでいます。

Nvidia の研究チームが Eureka の AI アルゴリズム ライブラリをオープンソース化したことは注目に値します。これにより、個人や機関は Nvidia Isaac Gym を通じてこれらのアルゴリズムを探索し、実験できるようになります。 Isaac Gym は、Open USD フレームワークに基づいて 3D ツールとアプリケーションを作成するための開発フレームワークである Nvidia Omniverse プラットフォーム上に構築されています。

論文リンク: https://arxiv.org/pdf/2310.12931.pdf

プロジェクトリンク: https://eureka-research.github.io/

コードリンク: https://github.com/eureka-research/Eureka

どのように評価しますか?

強化学習は過去 10 年間で大きな成功を収めてきましたが、依然として課題が残っていることを認めなければなりません。これまでにも同様の技術を導入する試みはありましたが、Eureka は、言語モデル (LLM) を使用して報酬設計を支援する L2R (Learning to Reward) と比較して、特定のタスクプロンプトが不要になるという点で際立っています。 Eureka が L2R よりも優れているのは、自由に表現できる報酬アルゴリズムを作成し、環境ソース コードを背景情報として活用できることです。

Nvidia の研究チームは、人間の報酬関数から始めることで何らかの利点が得られるかどうかを調べる調査を実施しました。この実験の目的は、元の人間の報酬関数を、最初の Eureka 反復の出力に正常に置き換えることができるかどうかを確認することです。

テストでは、NVIDIA の研究チームは、同じ強化学習アルゴリズムと同じハイパーパラメータを使用して、各タスクのコンテキストですべての最終報酬関数を最適化しました。これらのタスク固有のハイパーパラメータが適切に調整され、手作りの報酬の有効性が確保されているかどうかをテストするために、研究者らは、以前の研究に基づいて、変更を加えずに適切に調整された近似ポリシー最適化 (PPO) 実装を使用しました。研究者らは、各報酬について 5 回の独立した PPO トレーニング実行を実行し、ポリシー チェックポイントによって達成された最大タスク メトリック値の平均を報酬パフォーマンスの尺度として報告しました。

結果は、人間の設計者は一般的に関連する状態変数をよく理解しているが、効果的な報酬を設計する能力が欠けている可能性があることを示しています。

Nvidia のこの画期的な研究は、強化学習と報酬設計における新たな境地を切り開きます。彼らの一般的な報酬設計アルゴリズムである Eureka は、大規模な言語モデルとコンテキスト進化検索の力を活用して、タスク固有のプロンプトや人間の介入を必要とせずに、幅広いロボットタスクにわたって人間レベルの報酬を生成し、AI と機械学習に対する私たちの理解を大きく変えました。

<<:  世界的なフェスティバルの簡単な歴史丨世界最大の国際組織についてどれくらい知っていますか?

>>:  宇宙クラブに参加しますか?スペイン、初の商用ロケット打ち上げ

推薦する

韓国味噌の作り方

韓国人にとって、テンジャンは一日三食に欠かせない食材です。食品を漬け込むときも、おいしい料理を作ると...

妊娠すると3年間は愚かになる。麻酔:私はこれについて責任を負わない!

さまざまな穀物を食べると、必ず病気になったり怪我をしたりします。病気の治療に手術が必要な場合、ほとん...

2017年のAndroidスマートフォンの展望:フルスクリーンスマートフォンが爆発的に増加、HuaweiとSamsungが首位を争う

海外メディアの報道によると、2016年も残り12日となり、2017年を楽しみに待つ時期となった。今年...

自宅でコールラビを調理する方法

コールラビはキャベツとも呼ばれ、さまざまな方法で食べることができ、多くの人、特に食欲のない子供たちに...

数百万のIPが科学技術の人材を育成し、国を強くする丨地球深部の秘密を探る:「地殻No.1」1万メートル掘削

未知の世界を探求し、限界に挑戦することは、人間の自然に対する限りない好奇心と探究心の真の反映です。地...

ブラックベリーがクラシックモデルを再び発売

「やらなければ死なない」というのは、インターネット上で最も人気のある格言の一つです。数え切れないほど...

氷河にもバタフライ効果はあるのでしょうか? 「暴力的な輸送」から「優しい栄養」へ

これは「須弥」と「芥子種」にまつわるお話です。私たちは日々の生活の中で、夏の木陰で忙しく働くアリを観...

解毒と美容のための「解毒ヒーロー」7人

コアヒント: 人生において中毒の応急処置に関する健康管理の知識を習得することは非常に重要です。多くの...

キャベツ餃子の作り方

キャベツ餃子の餡の作り方はとても簡単で、キャベツ餃子の餡は餃子の餡の中でも最もよく知られている餡の1...

どの家庭にも欠かせないお正月用品ですが、食べ過ぎには注意が必要です!華西医師が推奨...

大晦日までまだ2日あります!最近、移民労働者は仕事への興味を失っている。彼らは家に帰るまでの日数を数...

煮ピーマンの作り方

現代社会はもはや飢餓の時代ではありません。人々は食べるものに対してよりこだわりを持っています。実際、...

生涯にわたってがんを予防するための 9 つの食事原則

臨床疫学研究によると、がん患者の約 40% は食生活の構造、食品の加工、調理方法などの要因に関連して...

ハイアールが透明工場「裸チャット」を開始した後、何が残るのか?

報道によると、ハイアールは8月11日にオンライン記者会見を開催し、生産ラインの映像を世界に公開すると...

今すぐ集めましょう!インフルエンザA型の流行時には、オセルタミビルに加えて、これらの薬も使用できます。

インフルエンザは、感染力が強く、急速に広がる急性呼吸器感染症です。私の国では、北部では冬に、南部では...

もち米ロールはダイエットに役立ちますか?

もち米ロールは、その名の通り、もち米を主原料として作られた食品です。もち米ロールは美味しくて、味もと...