人間が間違いを犯しても、AIエージェントはすぐに学習できます。

人間が間違いを犯しても、AIエージェントはすぐに学習できます。

AI エージェントにキッチンキャビネットを開けるなどの新しいスキルを教えるために、研究者は強化学習の手法をよく使用します。これは試行錯誤のプロセスであり、AI エージェントが正しいアクションを実行して目標に近づくと報酬が与えられます。

ほとんどの場合、AI エージェントがさらに探索するように促すには、報酬関数を慎重に設計するために人間の専門家が必要です。 AIエージェントが探索し試行するにつれて、人間の専門家はこの報酬関数を継続的に更新する必要があります。このプロセスは時間がかかり、非効率的であり、タスクが複雑で多くのステップが含まれる場合には特に拡張が困難です

最近、マサチューセッツ工科大学(MIT)、ハーバード大学、ワシントン大学の研究チームが、専門家が設計した報酬関数に依存せず、多くの非専門家ユーザーからのクラウドソーシングによるフィードバックを使用してAI エージェントが学習目標を達成できるように導く新しい強化学習方法を開発しました。

この新しいアプローチにより、クラウドソーシングされたデータは誤りが多いにもかかわらず、AI エージェントはより迅速に学習できるようになります。これは、専門家以外のフィードバックを使用する他のアプローチとは異なります。専門家以外のフィードバックを使用すると、他のアプローチは失敗することがよくあります。

さらに、この新しいアプローチは非同期のフィードバック収集をサポートしており、世界中の非専門家ユーザーが AI エージェントの教育プロセスに参加できるようになります

「AIエージェントの設計で最も時間がかかり、最も難しい部分の1つは、報酬関数の設定です」と、MITの電気工学およびコンピューターサイエンスの助教授であり、Improbable AI Labの所長であるプルキット・アグラワル氏は語った。 「現在、報酬関数は主に専門家によって設計されており、ロボットにさまざまなタスクを学習させたい場合、拡張が困難です。私たちの研究では、クラウドソーシングを通じて報酬関数を設計し、非専門家に効果的なフィードバックを提供させることで、ロボットの学習範囲を拡大するソリューションを提案しています。」

将来的には、このアプローチにより、人が各タスクを個人的に実演する必要なく、ロボットが人々の家庭内で特定のタスクを迅速に学習できるようになる可能性があります。ロボットは、クラウドソーシングされた非専門家のフィードバックによって探索の方向を指示されながら、独立して探索することができます。

「私たちのアプローチでは、報酬関数はAIエージェントにタスクを完了する方法を直接指示するのではなく、探索する方向を導きます。したがって、人間の監督にある程度の不正確さやノイズがあったとしても、AIエージェントは効果的な探索を実施し、よりよく学習することができます」と、Improbable AI Labの研究助手で論文の主著者の一人であるマルセル・トルネ氏は説明した。

受け取った回答が間違っていてもタスクを完了する

強化学習のためのユーザーフィードバックを収集する 1 つの方法は、AI エージェントが到達した 2 つの状態の写真をユーザーに示し、どちらの状態が目標に近いかを尋ねることです。たとえば、キッチンのキャビネットを開けることを目的とするロボットを想像してください。ある写真ではキャビネットがうまく開けられているのが示され、別の写真では電子レンジが開けられているのが示されるかもしれません。ユーザーは、より良い状態を示す写真を選択する必要があります。

いくつかの初期のアプローチでは、このクラウドソーシング形式のバイナリ フィードバックを使用して、AI エージェントがタスクを学習するために使用する報酬関数を最適化しようとしました。問題は、専門家でない人は間違いを犯しがちで、報酬関数が非常に混乱し、AI エージェントが目標を達成できなくなる可能性があることです。

「現実には、AIエージェントは報酬関数を真剣に受け止めすぎて、それを完璧に適合させようとするだろう」とトルネ氏は語った。 「したがって、報酬関数を直接最適化するのではなく、ロボットがどこを探索すべきかをガイドするために使用します。」

研究チームは、プロセスをそれぞれ独自のアルゴリズムで駆動する 2 つの独立した部分に分割しました。彼らはこの新しい強化学習法を「Human Guided Exploration (HuGE)」と名付けました。

一方、ターゲット選択アルゴリズムは、クラウドソーシングによる人間のフィードバックによって継続的に更新されます。これらのフィードバックは報酬関数としては使われませんが、AI エージェントの探索方向を導くために使用されます。つまり、非専門家のユーザーが提供するガイダンスは、道中に散らばった「パンくず」のようなもので、AI エージェントを徐々に目標に近づけていくのです

一方、AI エージェントは、目標セレクターによって自己監視されガイドされるプロセスである探索を独自に実行します。試行するアクションの画像やビデオを収集し、それを人間に送信してターゲットセレクターを更新します。

そうすることで、AI エージェントが探索する必要のある領域を絞り込み、目標に近い有望な領域へと誘導することができます。しかし、しばらくフィードバックがない場合、またはフィードバックが遅れる場合は、AI エージェントは遅いペースではあるものの、独自に学習を続けます。このアプローチにより、フィードバックをより少ない頻度で非同期的に収集できるようになります。

ロボットは常に新しいことを探索し、学習しているので、探索プロセスは自律的かつ継続的です。より正確な信号を受信すると、より具体的な方法で探索できます。ロボットは自分のペースで行動できます」とトルネ氏は付け加えた。

フィードバックは AI エージェントの動作をわずかにガイドするだけなので、ユーザーが提供する回答が間違っていても、AI エージェントは最終的にタスクを完了する方法を学習します。

より速い学習

研究チームは、シミュレーション環境と現実世界の環境の両方で、さまざまなタスクにわたってこのアプローチをテストしました。

たとえば、シミュレーション環境では、HuGE を使用して、ブロックを特定の順序で積み重ねたり、迷路を進んだりするなど、一連の複雑な動作を効率的に学習しました。

実際のテストでは、HuGE を使用してロボットアームに「U」の文字を描いたり、物を拾ったり置いたりするトレーニングを行いました。テストでは、3大陸13か国から109人の非専門家ユーザーからデータを収集しました。

HuGE により、AI エージェントは現実世界とシミュレーションの両方で他の方法よりも速くタスクを完了することを学習できるようになります。

さらに、非専門家によってクラウドソーシングされたデータは、作成され注釈が付けられた合成データよりも優れたパフォーマンスを発揮します。専門家でないユーザーの場合、30 枚の画像またはビデオへの注釈付けは 2 分以内に完了します。 「これは、このアプローチが幅広い用途に非常に大きな可能性を秘めていることを示しています」とトルネ氏は付け加えた。

関連する研究では、研究チームは最近のロボット学習カンファレンスで、AIエージェントがタスクを完了する方法を学習できるだけでなく、環境を自律的にリセットして学習を継続できるようにHuGEをどのように改良したかを発表しました。たとえば、 AI エージェントが食器棚を開けることを学習した場合、このアプローチによって食器棚を閉めることも教えることができます。

「今では、人間の介入なしに完全に自律的に学習することが可能になりました」と彼は語った。

研究チームはまた、この学習方法や他の学習方法では、AIエージェントが人間の価値観と一致していることを確認することが重要であると強調しています。

今後、研究チームは、HuGE をさらに改良し、AI エージェントが自然言語やロボットとの物理的なやり取りなど、より多くの方法で学習できるようにする予定です。彼らはまた、このアプローチを複数の AI エージェントの同時トレーニングに適用することにも関心を示しました。

参考リンク:

https://news.mit.edu/2023/method-uses-crowdsourced-フィードバック-help-train-robots-1127

https://arxiv.org/pdf/2307.11049.pdf

https://human-guided-exploration.github.io/HuGE/

<<:  新しい緊急チャンネル!ドローンによる配達が救急車を上回る →

>>:  それは現代医学の「聖杯」であり、深海の暗殺者の「隠し武器」でもある。

推薦する

調理済みの食事は安全ではないのでしょうか?栄養価は低下しますか?頻繁に食べると健康に害がありますか?真実は→

ゴシップ生活のペースが速くなり、仕事のプレッシャーが増すにつれ、家庭料理に多くの時間とエネルギーを費...

セロリはインポテンツの原因になります。男性も女性も、爆弾と同じくらい破壊力のある 10 種類の最も破壊的な食品を知っておく必要があります。

さまざまな国の性欲を高める食べ物:古代ローマでは、男性は性的に無関心だったため、妻は男性の性欲を高め...

塩豚骨のレシピ

塩豚骨は豚骨の味を他の豚骨とは違ったものにします。豚の骨の栄養価は非常に高く、食べると骨の成長を促進...

ローズマリーの効果

ローズマリーの効能は何でしょうか?まずはローズマリーとは何かを理解しましょう。ローズマリーは植物です...

【創造栽培プログラム】人類は地球外の居住可能な惑星を探すためにどのような努力をしてきたのでしょうか?

著者: 王 子鋒レビュー: 劉 倩6月20日、NASAは岩石鉱物が存在する可能性のある2つの「新世界...

TechInsights: 中国のチップ製造設備調達は2025年に380億ドルに落ち込み、前年比6%減となる見込み

市場調査会社テックインサイツによると、中国の半導体製造装置の購入は、業界が過剰生産能力に悩まされ、米...

もやしの作り方

現代はファストフードの時代です。人々の生活や仕事のペースは絶えず加速しており、人々の栄養は次第に追い...

フォードと百度が共同で自動運転テストを実施、レベル4自動運転の加速が期待される

10月31日、フォードと百度はレベル4自動運転の2年間の共同試験プロジェクトを開始すると発表した。現...

姿勢調整、降下、パラシュート降下による着陸の「4段階」プロセスで神舟12号の帰還プロセスを分析!

制作:中国科学普及協会制作:トランタースペース制作者: 中国科学院コンピュータネットワーク情報センタ...

あなたが思いつく最大の数字は何ですか?数えることも科学であることが判明

子供に、考えられる最大の数字は何かと尋ねると、たいていは「50兆」と答えるでしょう。もちろん、このよ...

ジャック・マー氏:他国がアメリカの雇用を奪ったとは言えません。それはアメリカ人自身が戦略的な問題を抱えているからです。

北京時間1月19日の早朝、ジャック・マー氏はダボスフォーラムの特別対談セッションでニューヨーク・タイ...

夜に生姜スープを飲むのは良いことですか?

生姜スープは、生姜のスライスといくつかの調味料で作られた薬用スープです。生姜スープの主な機能は風邪の...

農薬残留物が発生しやすい食品

実際、人々が食事の過程で最も心配するのは、食材の選択です。なぜなら、一部の食材、特に野菜には残留農薬...

レモンハニーウォーターの作り方

蜂蜜水は多くの人に好まれています。この種の水は、人間の消化と解毒を促進するのに非常に役立ちます。多く...

苦い菊を美味しくする方法

一般的な食用植物として、その利点を理解する必要があります。タンポポは苦いハーブとしても知られ、体にと...