人間が間違いを犯しても、AIエージェントはすぐに学習できます。

人間が間違いを犯しても、AIエージェントはすぐに学習できます。

AI エージェントにキッチンキャビネットを開けるなどの新しいスキルを教えるために、研究者は強化学習の手法をよく使用します。これは試行錯誤のプロセスであり、AI エージェントが正しいアクションを実行して目標に近づくと報酬が与えられます。

ほとんどの場合、AI エージェントがさらに探索するように促すには、報酬関数を慎重に設計するために人間の専門家が必要です。 AIエージェントが探索し試行するにつれて、人間の専門家はこの報酬関数を継続的に更新する必要があります。このプロセスは時間がかかり、非効率的であり、タスクが複雑で多くのステップが含まれる場合には特に拡張が困難です

最近、マサチューセッツ工科大学(MIT)、ハーバード大学、ワシントン大学の研究チームが、専門家が設計した報酬関数に依存せず、多くの非専門家ユーザーからのクラウドソーシングによるフィードバックを使用してAI エージェントが学習目標を達成できるように導く新しい強化学習方法を開発しました。

この新しいアプローチにより、クラウドソーシングされたデータは誤りが多いにもかかわらず、AI エージェントはより迅速に学習できるようになります。これは、専門家以外のフィードバックを使用する他のアプローチとは異なります。専門家以外のフィードバックを使用すると、他のアプローチは失敗することがよくあります。

さらに、この新しいアプローチは非同期のフィードバック収集をサポートしており、世界中の非専門家ユーザーが AI エージェントの教育プロセスに参加できるようになります

「AIエージェントの設計で最も時間がかかり、最も難しい部分の1つは、報酬関数の設定です」と、MITの電気工学およびコンピューターサイエンスの助教授であり、Improbable AI Labの所長であるプルキット・アグラワル氏は語った。 「現在、報酬関数は主に専門家によって設計されており、ロボットにさまざまなタスクを学習させたい場合、拡張が困難です。私たちの研究では、クラウドソーシングを通じて報酬関数を設計し、非専門家に効果的なフィードバックを提供させることで、ロボットの学習範囲を拡大するソリューションを提案しています。」

将来的には、このアプローチにより、人が各タスクを個人的に実演する必要なく、ロボットが人々の家庭内で特定のタスクを迅速に学習できるようになる可能性があります。ロボットは、クラウドソーシングされた非専門家のフィードバックによって探索の方向を指示されながら、独立して探索することができます。

「私たちのアプローチでは、報酬関数はAIエージェントにタスクを完了する方法を直接指示するのではなく、探索する方向を導きます。したがって、人間の監督にある程度の不正確さやノイズがあったとしても、AIエージェントは効果的な探索を実施し、よりよく学習することができます」と、Improbable AI Labの研究助手で論文の主著者の一人であるマルセル・トルネ氏は説明した。

受け取った回答が間違っていてもタスクを完了する

強化学習のためのユーザーフィードバックを収集する 1 つの方法は、AI エージェントが到達した 2 つの状態の写真をユーザーに示し、どちらの状態が目標に近いかを尋ねることです。たとえば、キッチンのキャビネットを開けることを目的とするロボットを想像してください。ある写真ではキャビネットがうまく開けられているのが示され、別の写真では電子レンジが開けられているのが示されるかもしれません。ユーザーは、より良い状態を示す写真を選択する必要があります。

いくつかの初期のアプローチでは、このクラウドソーシング形式のバイナリ フィードバックを使用して、AI エージェントがタスクを学習するために使用する報酬関数を最適化しようとしました。問題は、専門家でない人は間違いを犯しがちで、報酬関数が非常に混乱し、AI エージェントが目標を達成できなくなる可能性があることです。

「現実には、AIエージェントは報酬関数を真剣に受け止めすぎて、それを完璧に適合させようとするだろう」とトルネ氏は語った。 「したがって、報酬関数を直接最適化するのではなく、ロボットがどこを探索すべきかをガイドするために使用します。」

研究チームは、プロセスをそれぞれ独自のアルゴリズムで駆動する 2 つの独立した部分に分割しました。彼らはこの新しい強化学習法を「Human Guided Exploration (HuGE)」と名付けました。

一方、ターゲット選択アルゴリズムは、クラウドソーシングによる人間のフィードバックによって継続的に更新されます。これらのフィードバックは報酬関数としては使われませんが、AI エージェントの探索方向を導くために使用されます。つまり、非専門家のユーザーが提供するガイダンスは、道中に散らばった「パンくず」のようなもので、AI エージェントを徐々に目標に近づけていくのです

一方、AI エージェントは、目標セレクターによって自己監視されガイドされるプロセスである探索を独自に実行します。試行するアクションの画像やビデオを収集し、それを人間に送信してターゲットセレクターを更新します。

そうすることで、AI エージェントが探索する必要のある領域を絞り込み、目標に近い有望な領域へと誘導することができます。しかし、しばらくフィードバックがない場合、またはフィードバックが遅れる場合は、AI エージェントは遅いペースではあるものの、独自に学習を続けます。このアプローチにより、フィードバックをより少ない頻度で非同期的に収集できるようになります。

ロボットは常に新しいことを探索し、学習しているので、探索プロセスは自律的かつ継続的です。より正確な信号を受信すると、より具体的な方法で探索できます。ロボットは自分のペースで行動できます」とトルネ氏は付け加えた。

フィードバックは AI エージェントの動作をわずかにガイドするだけなので、ユーザーが提供する回答が間違っていても、AI エージェントは最終的にタスクを完了する方法を学習します。

より速い学習

研究チームは、シミュレーション環境と現実世界の環境の両方で、さまざまなタスクにわたってこのアプローチをテストしました。

たとえば、シミュレーション環境では、HuGE を使用して、ブロックを特定の順序で積み重ねたり、迷路を進んだりするなど、一連の複雑な動作を効率的に学習しました。

実際のテストでは、HuGE を使用してロボットアームに「U」の文字を描いたり、物を拾ったり置いたりするトレーニングを行いました。テストでは、3大陸13か国から109人の非専門家ユーザーからデータを収集しました。

HuGE により、AI エージェントは現実世界とシミュレーションの両方で他の方法よりも速くタスクを完了することを学習できるようになります。

さらに、非専門家によってクラウドソーシングされたデータは、作成され注釈が付けられた合成データよりも優れたパフォーマンスを発揮します。専門家でないユーザーの場合、30 枚の画像またはビデオへの注釈付けは 2 分以内に完了します。 「これは、このアプローチが幅広い用途に非常に大きな可能性を秘めていることを示しています」とトルネ氏は付け加えた。

関連する研究では、研究チームは最近のロボット学習カンファレンスで、AIエージェントがタスクを完了する方法を学習できるだけでなく、環境を自律的にリセットして学習を継続できるようにHuGEをどのように改良したかを発表しました。たとえば、 AI エージェントが食器棚を開けることを学習した場合、このアプローチによって食器棚を閉めることも教えることができます。

「今では、人間の介入なしに完全に自律的に学習することが可能になりました」と彼は語った。

研究チームはまた、この学習方法や他の学習方法では、AIエージェントが人間の価値観と一致していることを確認することが重要であると強調しています。

今後、研究チームは、HuGE をさらに改良し、AI エージェントが自然言語やロボットとの物理的なやり取りなど、より多くの方法で学習できるようにする予定です。彼らはまた、このアプローチを複数の AI エージェントの同時トレーニングに適用することにも関心を示しました。

参考リンク:

https://news.mit.edu/2023/method-uses-crowdsourced-フィードバック-help-train-robots-1127

https://arxiv.org/pdf/2307.11049.pdf

https://human-guided-exploration.github.io/HuGE/

<<:  新しい緊急チャンネル!ドローンによる配達が救急車を上回る →

>>:  それは現代医学の「聖杯」であり、深海の暗殺者の「隠し武器」でもある。

推薦する

妊婦はアーモンドミルクを飲んでも大丈夫ですか?

女性は妊娠した後、好きな食べ物、特に栄養価の高いものを選ぶようにすべきです。特に女性は妊娠した後、牛...

吉利汽車の11月の販売台数は10万2422台に達し、前年比99%の大幅増加となった。

吉利汽車は12月5日、11月の販売データを発表した。11月の総販売台数は初めて10万台を超え、前年同...

テスラは第2四半期の納車台数を発表、市場は8万~9万台を予想

例年通り、テスラは今週、第2四半期の車両納入データを発表する予定だ。テスラは2019年第1四半期に6...

食品安全ガイド |スイートスティッキーコーンの食べ方、選び方、保存方法は?理解するための1つの記事

フルーツコーンが甘いのは砂糖が加えられているからでしょうか?スイートスティッキーコーンは遺伝子組み換...

サムスンの爆発後、アップルの最大の問題は神のような敵がいないことだ

テクノロジーウェブサイトCNETによると、勝者は必ずしもその称号に値するわけではなく、勝者になる理由...

また来ました!屋内で充電中の電気自動車がまた火災発生!安全上の危険を排除するにはどうすればよいでしょうか?

最近、上海市青浦区会社の従業員が仕事に出かける前に室内で電動自転車のリチウム電池を充電する2日間の料...

妊婦はアミガサタケを食べることができますか?

妊婦さんは体が敏感になっているので、特に食生活の面では注意すべき点がたくさんあります。妊婦は食欲が増...

麦芽茶の効能と機能

麦芽茶は、お茶を飲むのが好きな友人、特に広東省の潮汕の人々にとっては馴染み深いものかもしれません。彼...

Cynomorium songaricum を使ったワインの作り方

漢方医学に少しでも精通している人なら、不老不死の薬としても知られるキノモリウム・ソンガリクムが寄生植...

カシューナッツシュリンプのレシピ

エビの肉は柔らかく、栄養価が高く、たんぱく質、カルシウム、カリウム、リンなどの微量元素を多く含み、虚...

肉家茄子の煮込み豚肉のレシピの作り方

肉家茅の煮込み豚のレシピといえば、ほとんどの人は絶対に知りません。ほとんどの人が肉家茅の食べ方を知ら...

糖尿病患者はアガリクスビスポラスを食べることができますか?

中国は糖尿病の発症率が高い国です。中国には数千万人の糖尿病患者がいます。糖尿病患者は一般病院で定期的...

アンコウのレシピ

アンコウをご存知ですか?アンコウは深海魚です。その肉は特に美味しく、ゼラチン質を多く含みます。海のフ...

自家製ブロッコリーフライ

ブロッコリーは非常に一般的な野菜であり、その淡白な味と豊富な栄養から人々に人気があります。ブロッコリ...

肝臓が健康かどうかは、体に4つの兆候が現れます。医師はあなたに注意を促します: これらの 3 つの習慣を変える必要があります。

この記事は、北京大学人民病院肝胆外科主任医師兼准教授の李趙氏によってレビューされました。今年32歳に...