人間が間違いを犯しても、AIエージェントはすぐに学習できます。

AI エージェントにキッチンキャビネットを開けるなどの新しいスキルを教えるために、研究者は強化学習の手法をよく使用します。これは試行錯誤のプロセスであり、AI エージェントが正しいアクションを実行して目標に近づくと報酬が与えられます。

ほとんどの場合、AI エージェントがさらに探索するように促すには、報酬関数を慎重に設計するために人間の専門家が必要です。 AIエージェントが探索し試行するにつれて、人間の専門家はこの報酬関数を継続的に更新する必要があります。このプロセスは時間がかかり、非効率的であり、タスクが複雑で多くのステップが含まれる場合には特に拡張が困難です。

最近、マサチューセッツ工科大学（MIT）、ハーバード大学、ワシントン大学の研究チームが、専門家が設計した報酬関数に依存せず、多くの非専門家ユーザーからのクラウドソーシングによるフィードバックを使用してAI エージェントが学習目標を達成できるように導く新しい強化学習方法を開発しました。

この新しいアプローチにより、クラウドソーシングされたデータは誤りが多いにもかかわらず、AI エージェントはより迅速に学習できるようになります。これは、専門家以外のフィードバックを使用する他のアプローチとは異なります。専門家以外のフィードバックを使用すると、他のアプローチは失敗することがよくあります。

さらに、この新しいアプローチは非同期のフィードバック収集をサポートしており、世界中の非専門家ユーザーが AI エージェントの教育プロセスに参加できるようになります。

「AIエージェントの設計で最も時間がかかり、最も難しい部分の1つは、報酬関数の設定です」と、MITの電気工学およびコンピューターサイエンスの助教授であり、Improbable AI Labの所長であるプルキット・アグラワル氏は語った。「現在、報酬関数は主に専門家によって設計されており、ロボットにさまざまなタスクを学習させたい場合、拡張が困難です。私たちの研究では、クラウドソーシングを通じて報酬関数を設計し、非専門家に効果的なフィードバックを提供させることで、ロボットの学習範囲を拡大するソリューションを提案しています。」

将来的には、このアプローチにより、人が各タスクを個人的に実演する必要なく、ロボットが人々の家庭内で特定のタスクを迅速に学習できるようになる可能性があります。ロボットは、クラウドソーシングされた非専門家のフィードバックによって探索の方向を指示されながら、独立して探索することができます。

「私たちのアプローチでは、報酬関数はAIエージェントにタスクを完了する方法を直接指示するのではなく、探索する方向を導きます。したがって、人間の監督にある程度の不正確さやノイズがあったとしても、AIエージェントは効果的な探索を実施し、よりよく学習することができます」と、Improbable AI Labの研究助手で論文の主著者の一人であるマルセル・トルネ氏は説明した。

受け取った回答が間違っていてもタスクを完了する

強化学習のためのユーザーフィードバックを収集する 1 つの方法は、AI エージェントが到達した 2 つの状態の写真をユーザーに示し、どちらの状態が目標に近いかを尋ねることです。たとえば、キッチンのキャビネットを開けることを目的とするロボットを想像してください。ある写真ではキャビネットがうまく開けられているのが示され、別の写真では電子レンジが開けられているのが示されるかもしれません。ユーザーは、より良い状態を示す写真を選択する必要があります。

いくつかの初期のアプローチでは、このクラウドソーシング形式のバイナリフィードバックを使用して、AI エージェントがタスクを学習するために使用する報酬関数を最適化しようとしました。問題は、専門家でない人は間違いを犯しがちで、報酬関数が非常に混乱し、AI エージェントが目標を達成できなくなる可能性があることです。

「現実には、AIエージェントは報酬関数を真剣に受け止めすぎて、それを完璧に適合させようとするだろう」とトルネ氏は語った。「したがって、報酬関数を直接最適化するのではなく、ロボットがどこを探索すべきかをガイドするために使用します。」

研究チームは、プロセスをそれぞれ独自のアルゴリズムで駆動する 2 つの独立した部分に分割しました。彼らはこの新しい強化学習法を「Human Guided Exploration (HuGE)」と名付けました。

一方、ターゲット選択アルゴリズムは、クラウドソーシングによる人間のフィードバックによって継続的に更新されます。これらのフィードバックは報酬関数としては使われませんが、AI エージェントの探索方向を導くために使用されます。つまり、非専門家のユーザーが提供するガイダンスは、道中に散らばった「パンくず」のようなもので、AI エージェントを徐々に目標に近づけていくのです。

一方、AI エージェントは、目標セレクターによって自己監視されガイドされるプロセスである探索を独自に実行します。試行するアクションの画像やビデオを収集し、それを人間に送信してターゲットセレクターを更新します。

そうすることで、AI エージェントが探索する必要のある領域を絞り込み、目標に近い有望な領域へと誘導することができます。しかし、しばらくフィードバックがない場合、またはフィードバックが遅れる場合は、AI エージェントは遅いペースではあるものの、独自に学習を続けます。このアプローチにより、フィードバックをより少ない頻度で非同期的に収集できるようになります。

「ロボットは常に新しいことを探索し、学習しているので、探索プロセスは自律的かつ継続的です。より正確な信号を受信すると、より具体的な方法で探索できます。ロボットは自分のペースで行動できます」とトルネ氏は付け加えた。

フィードバックは AI エージェントの動作をわずかにガイドするだけなので、ユーザーが提供する回答が間違っていても、AI エージェントは最終的にタスクを完了する方法を学習します。

より速い学習

研究チームは、シミュレーション環境と現実世界の環境の両方で、さまざまなタスクにわたってこのアプローチをテストしました。

たとえば、シミュレーション環境では、HuGE を使用して、ブロックを特定の順序で積み重ねたり、迷路を進んだりするなど、一連の複雑な動作を効率的に学習しました。

実際のテストでは、HuGE を使用してロボットアームに「U」の文字を描いたり、物を拾ったり置いたりするトレーニングを行いました。テストでは、3大陸13か国から109人の非専門家ユーザーからデータを収集しました。

HuGE により、AI エージェントは現実世界とシミュレーションの両方で他の方法よりも速くタスクを完了することを学習できるようになります。

さらに、非専門家によってクラウドソーシングされたデータは、作成され注釈が付けられた合成データよりも優れたパフォーマンスを発揮します。専門家でないユーザーの場合、30 枚の画像またはビデオへの注釈付けは 2 分以内に完了します。「これは、このアプローチが幅広い用途に非常に大きな可能性を秘めていることを示しています」とトルネ氏は付け加えた。

関連する研究では、研究チームは最近のロボット学習カンファレンスで、AIエージェントがタスクを完了する方法を学習できるだけでなく、環境を自律的にリセットして学習を継続できるようにHuGEをどのように改良したかを発表しました。たとえば、 AI エージェントが食器棚を開けることを学習した場合、このアプローチによって食器棚を閉めることも教えることができます。

「今では、人間の介入なしに完全に自律的に学習することが可能になりました」と彼は語った。

研究チームはまた、この学習方法や他の学習方法では、AIエージェントが人間の価値観と一致していることを確認することが重要であると強調しています。

今後、研究チームは、HuGE をさらに改良し、AI エージェントが自然言語やロボットとの物理的なやり取りなど、より多くの方法で学習できるようにする予定です。彼らはまた、このアプローチを複数の AI エージェントの同時トレーニングに適用することにも関心を示しました。

参考リンク:

https://news.mit.edu/2023/method-uses-crowdsourced-フィードバック-help-train-robots-1127

https://arxiv.org/pdf/2307.11049.pdf

https://human-guided-exploration.github.io/HuGE/

<<: 新しい緊急チャンネル！ドローンによる配達が救急車を上回る →

>>: それは現代医学の「聖杯」であり、深海の暗殺者の「隠し武器」でもある。