このAIエージェントはわずか数分で人間の専門家の行動を学習できる

専門家の行動をうまく模倣し、学んだ知識をすべて記憶するには、わずか数分しかかかりません。 Google DeepMindが開発したAIエージェントがNature誌に掲載されました。

3Dシミュレーションでは、エージェントは初めて見るタスクで専門家をリアルタイムで模倣し、第三者の視点から人間のパートナーからリアルタイムで確実に知識を獲得できることが報告されています。

エージェントはこれまで人間を見たことはありませんが、さまざまな困難なナビゲーション問題について人間や AI の専門家からすぐに学習できます。たとえば、多数の障害物がある複雑な地形を移動できます。

「文化の伝達としての少数ショットの模倣の学習」と題された関連研究論文が、ネイチャーの子会社であるネイチャーコミュニケーションズに掲載されました。

研究チームは、この研究の結果が、具現化されたAIを通じた知識の急速な普及の概念実証であり、人間とAIの相互作用のオープンな文化の進化に向けた第一歩であると考えています。

さらに、 AI 実践者は、人間の社会的学習からインスピレーションを得て、現在の人間のパートナーに適応し、プライバシーを適切に保護する具現化された AI エージェントを構築できます。さらに、ソーシャル学習機能を備えた AI エージェントは、人間の文化的能力の発達を研究するための新しいモデリングツールも提供できる可能性があります。

リアルタイムの文化的コミュニケーション能力を有する

文化の伝達は、人々が社会的な状況において、高い精度と保持力でリアルタイムに情報を取得し、使用できるようにする普遍的なスキルです。人間社会では、文化的進化により、技術、道具、知識が世代から世代へと受け継がれ、その過程でそれらは絶えず蓄積され、改善されていきます。

本研究では、研究チームはエージェント環境共適応法を適用することで、リアルタイムの文化コミュニケーション機能を備えたAIエージェントを生成することに成功しました。

上に示したように、この目標を達成するために、彼らは仮想 3D ミッション空間を導入しました。それぞれの空間には、手続き的に生成された地形、障害物、ターゲットボールが含まれています。

各タスクでは、AI エージェントは報酬を得るために特定のループ順序でターゲットボールを訪問する必要があり、この順序はタスクの開始時にランダムに決定されます。ただし、AI エージェントは正しい順序を知らないため、実験や専門家からの学習を通じて正しい順序を把握する必要があります。ただし、このミッション空間は複雑に設計されており、ワールドの広さ、障害物の数、地形の起伏、ターゲットボールの数などのパラメータを調整することで、ナビゲーションの難易度を変えることができます。

研究者らは、慎重に設計された実験を通じて、AI エージェントにおける文化伝達の出現には、関数近似、記憶、専門家の共同参加者、専門家の損失、専門家への注意の偏り、自動ドメインランダム化などを含む、 MEDAL-ADRと呼ばれる最小限かつ十分な一連のトレーニング要素が必要であることを発見しました。

図｜MEDAL-ADR要素

メモリは LSTM ネットワークを通じて実装され、専門家の共同参加者はハードコードされたロボットであり、自動ドメインランダム化は AI エージェントがさまざまなタスクでより優れた動作を発揮できるようにトレーニングするのに役立ちます。

これらのコンポーネントを巧みに組み合わせることで、想起、一般化、忠実度の 3 つの側面で優れた文化伝達能力を備えた強力な AI エージェントが形成されます。

再現度は、エージェントが専門家のいない状況でデモンストレーションをコピーする能力を評価し、一般化は、エージェントが未知のタスクで文化的に転移できるかどうかを測定し、忠実度は、エージェントの選択が専門家のデモンストレーターの選択とどの程度一致しているかを計算します。

最も驚くべきことは、この AI エージェントの「脳」内のニューロンが強力な説明力を示し、特に社会的情報と目標状態のエンコードを担っていたことです。このアプローチにより、AI エージェントはトレーニング分布を超えて一般化できるだけでなく、専門家が去った後も単一のコンテキスト内でデモンストレーションを思い出すことができるため、特に人間によるデータ収集が困難で、タスクが異なり、プライバシーが重要である場合に、実用的なアプリケーションシナリオの可能性が広がります。

いくつかの制限

本研究で提案された MEDAL-ADR 方式により、AI エージェントはオープン学習において多様な文化環境に適応できるようになります。

しかし、研究チームは評価方法にいくつかの限界があることも指摘した。

まず、この研究では複数の個人からの文化伝達をテストするのではなく、研究チーム内の 1 人の参加者を選択しました。したがって、この研究では、集団全体にわたる堅牢性について統計的に有意な主張を行うことはできません。

第二に、ナビゲーションタスクは、人間のあり得る行動の多様性に一定の制限を課します。普遍的な文化的コミュニケーションをより深く理解するためには、研究にはより幅広く深い戦略を伴うタスクが必要です。

最後に、研究者たちは、訓練されたエージェントが地理的な経路を記憶したかどうか、そして球の正しい順序を記憶したかどうかを明確に区別しませんでした。

MEDAL-ADR は GoalCycle3D タスク空間以外でもより一般的ですか?答えはおそらく条件付きで「ノー」でしょう。

GoalCycle3D は、より広範なクラスのタスクのナビゲーションの代表として機能する、手順的に生成された大規模なタスクスペースです。これらのタスクには、調理、ナビゲーション、問題解決など、戦略的な選択のシーケンスを繰り返し実行する必要があるアクティビティが含まれます。

ただし、このアプローチには、可視性、終了、専門家のプログラム生成など、いくつかの環境条件が必要です。特定の環境で近似条件を作成できない場合、その方法は適用できません。

さらに、研究者たちは、MEDAL-ADR アプローチが人間の文化的コミュニケーションの発達の直接的なモデルであるとは考えていません。しかし、彼らは将来の研究者に対し、MEDAL-ADR モデルをさまざまな段階の子供や人間以外の動物の行動と比較したり、実験室環境で人間と AI の文化的蓄積を研究したりするなど、より多くの実験的研究を実施するよう奨励しています。このような実証研究により、文化の伝達、メタ学習、オープンエンド学習に関連する問題への理解が深まることが期待されます。

研究チームは、AIと文化進化心理学の分野での今後の学際的な交流に期待していると述べた。

論文リンク:

https://www.nature.com/articles/s41467-023-42875-2

著者: ヤン・イーミ

編集者: 学術

<<: 周りの人は熱や咳が出ていますか？一般的な呼吸器感染症には以下のものがあります→

>>: マウスが人間のような想像力を持っていることを証明する論文をサイエンス誌に発表するまでに、8年かかりました。