このAIエージェントはわずか数分で人間の専門家の行動を学習できる

このAIエージェントはわずか数分で人間の専門家の行動を学習できる

専門家の行動をうまく模倣し、学んだ知識をすべて記憶するには、わずか数分しかかかりません。 Google DeepMindが開発したAIエージェントがNature誌に掲載されました。

3Dシミュレーションでは、エージェントは初めて見るタスクで専門家をリアルタイムで模倣し、第三者の視点から人間のパートナーからリアルタイムで確実に知識を獲得できることが報告されています。

エージェントはこれまで人間を見たことはありませんが、さまざまな困難なナビゲーション問題について人間や AI の専門家からすぐに学習できます。たとえば、多数の障害物がある複雑な地形を移動できます。

「文化の伝達としての少数ショットの模倣の学習」と題された関連研究論文が、ネイチャーの子会社であるネイチャーコミュニケーションズに掲載されました。

研究チームは、この研究の結果が、具現化されたAIを通じた知識の急速な普及の概念実証であり、人間とAIの相互作用のオープンな文化の進化に向けた第一歩であると考えています。

さらに、 AI 実践者は、人間の社会的学習からインスピレーションを得て、現在の人間のパートナーに適応し、プライバシーを適切に保護する具現化された AI エージェントを構築できます。さらに、ソーシャル学習機能を備えた AI エージェントは、人間の文化的能力の発達を研究するための新しいモデリング ツールも提供できる可能性があります。

リアルタイムの文化的コミュニケーション能力を有する

文化の伝達は、人々が社会的な状況において、高い精度と保持力でリアルタイムに情報を取得し、使用できるようにする普遍的なスキルです。人間社会では、文化的進化により、技術、道具、知識が世代から世代へと受け継がれ、その過程でそれらは絶えず蓄積され、改善されていきます。

本研究では、研究チームはエージェント環境共適応法を適用することで、リアルタイムの文化コミュニケーション機能を備えたAIエージェントを生成することに成功しました

上に示したように、この目標を達成するために、彼らは仮想 3D ミッション空間を導入しました。それぞれの空間には、手続き的に生成された地形、障害物、ターゲット ボールが含まれています

各タスクでは、AI エージェントは報酬を得るために特定のループ順序でターゲット ボールを訪問する必要があり、この順序はタスクの開始時にランダムに決定されます。ただし、AI エージェントは正しい順序を知らないため、実験や専門家からの学習を通じて正しい順序を把握する必要があります。ただし、このミッション空間は複雑に設計されており、ワールドの広さ、障害物の数、地形の起伏、ターゲットボールの数などのパラメータを調整することで、ナビゲーションの難易度を変えることができます。

研究者らは、慎重に設計された実験を通じて、AI エージェントにおける文化伝達の出現には、関数近似、記憶、専門家の共同参加者、専門家の損失、専門家への注意の偏り、自動ドメインランダム化などを含む、 MEDAL-ADRと呼ばれる最小限かつ十分な一連のトレーニング要素が必要であることを発見しました。

図|MEDAL-ADR要素

メモリは LSTM ネットワークを通じて実装され、専門家の共同参加者はハードコードされたロボットであり、自動ドメインランダム化は AI エージェントがさまざまなタスクでより優れた動作を発揮できるようにトレーニングするのに役立ちます。

これらのコンポーネントを巧みに組み合わせることで、想起、一般化、忠実度の 3 つの側面で優れた文化伝達能力を備えた強力な AI エージェントが形成されます。

再現度は、エージェントが専門家のいない状況でデモンストレーションをコピーする能力を評価し、一般化は、エージェントが未知のタスクで文化的に転移できるかどうかを測定し、忠実度は、エージェントの選択が専門家のデモンストレーターの選択とどの程度一致しているかを計算します。

最も驚くべきことは、この AI エージェントの「脳」内のニューロンが強力な説明力を示し、特に社会的情報と目標状態のエンコードを担っていたことです。このアプローチにより、AI エージェントはトレーニング分布を超えて一般化できるだけでなく、専門家が去った後も単一のコンテキスト内でデモンストレーションを思い出すことができるため、特に人間によるデータ収集が困難で、タスクが異なり、プライバシーが重要である場合に、実用的なアプリケーション シナリオの可能性が広がります。

いくつかの制限

本研究で提案された MEDAL-ADR 方式により、AI エージェントはオープン学習において多様な文化環境に適応できるようになります。

しかし、研究チームは評価方法にいくつかの限界があることも指摘した。

まず、この研究では複数の個人からの文化伝達をテストするのではなく、研究チーム内の 1 人の参加者を選択しました。したがって、この研究では、集団全体にわたる堅牢性について統計的に有意な主張を行うことはできません。

第二に、ナビゲーションタスクは、人間のあり得る行動の多様性に一定の制限を課します。普遍的な文化的コミュニケーションをより深く理解するためには、研究にはより幅広く深い戦略を伴うタスクが必要です。

最後に、研究者たちは、訓練されたエージェントが地理的な経路を記憶したかどうか、そして球の正しい順序を記憶したかどうかを明確に区別しませんでした。

MEDAL-ADR は GoalCycle3D タスク空間以外でもより一般的ですか?答えはおそらく条件付きで「ノー」でしょう。

GoalCycle3D は、より広範なクラスのタスクのナビゲーションの代表として機能する、手順的に生成された大規模なタスク スペースです。これらのタスクには、調理、ナビゲーション、問題解決など、戦略的な選択のシーケンスを繰り返し実行する必要があるアクティビティが含まれます。

ただし、このアプローチには、可視性、終了、専門家のプログラム生成など、いくつかの環境条件が必要です。特定の環境で近似条件を作成できない場合、その方法は適用できません。

さらに、研究者たちは、MEDAL-ADR アプローチが人間の文化的コミュニケーションの発達の直接的なモデルであるとは考えていません。しかし、彼らは将来の研究者に対し、MEDAL-ADR モデルをさまざまな段階の子供や人間以外の動物の行動と比較したり、実験室環境で人間と AI の文化的蓄積を研究したりするなど、より多くの実験的研究を実施するよう奨励しています。このような実証研究により、文化の伝達、メタ学習、オープンエンド学習に関連する問題への理解が深まることが期待されます。

研究チームは、AIと文化進化心理学の分野での今後の学際的な交流に期待していると述べた。

論文リンク:

https://www.nature.com/articles/s41467-023-42875-2

著者: ヤン・イーミ

編集者: 学術

<<:  周りの人は熱や咳が出ていますか?一般的な呼吸器感染症には以下のものがあります→

>>:  マウスが人間のような想像力を持っていることを証明する論文をサイエンス誌に発表するまでに、8年かかりました。

推薦する

馬蘭頭って何ですか?

アマランサスは実は草本性の根茎植物で、漢方薬の一種でもあります。道端の野生の花々の間に生えていて、い...

中国の歴史に名を残す船(VIII)

今日は、中国人が自ら建造した最初の木造二等巡洋艦「楊武」を紹介したいと思います。 ▲ 「楊武」船(イ...

「鉄の木が咲く」よりもずっと難しい鉄の木がついに開花しました!

最近、昆明植物園で野生植物のごく少数の個体が開花したというニュースが業界の注目を集めている。天目鉄木...

味噌牡蠣焼きの作り方

暑い夏が過ぎ、涼しくなってきて、養殖牡蠣の収穫時期になりました。生け簀に入れられた大量の牡蠣が海から...

もち米ゼリーの作り方

もち米ゼリーは北京の伝統的なお菓子です。もち米ゼリーの材料はもち米です。もち米は栄養価が高く、健康維...

今年の地球上の穴は、南極よりも大きく、火山によって作られました。

今年 9 月の南極上空のオゾンホール (画像提供: ESA)オゾンホールが再び現れ、その面積は史上最...

専門家が警告:若者が整形手術を受ける傾向に注意してください!しかし、このようなプロジェクトは早く完了するほど良いでしょう。

近年、冬休みや夏休み、卒業シーズンになると、美容整形手術を受ける学生たちが押し寄せます。 2000年...

インターネット上の電球?研究者はLEDをルーターとして利用したいと考えている

今日では、WiFiは私たちの生活に欠かせないものとなっています。私たちは、読書、娯楽、仕事などにこれ...

便秘の場合でも柿を食べてもいいですか?

柿、この果物は誰もが知っていると思います。柿は私たちの生活の中でよく見かける果物です。柿が人間にもた...

なぜ従来のテレビ局は「独占放送」という新たな賭けに出ているのか?

従来のテレビは、ビデオ ウェブサイトに対してこれまでで最も強力な「マニフェスト」を発行しました。最近...

出発する!中国の5大国立公園を訪ねる

2021年10月12日国連生物多様性条約締約国会議においてCBD第15回会合(COP15)中国政府は...

すぐに他の人がホットスツールに座ることはできないのですか?専門家による解説→

バス、地下鉄、公園などのシーン、 「ホットチェア」に直接接触することは避けられない最近、トピック「な...

義和団の学生から中国科学院の院長にまでなった彼は、なぜ科学技術による国家の発展を最初に提唱したのか?

1937年8月17日は上海の戦いの5日目でした。上海の呉淞口埠頭では、第5回中英義和団奨学金を受け...

日中はデイクリーム、夜はナイトクリームを使いますか?気軽に使ってもいいですか?

評者: 楊栄雅、人民解放軍総合病院第七医療センター主任医師美しい肌を持ちたくない人がいるでしょうか?...

あんこの作り方

あんこの主原料は、もちろん小豆です。小豆は食用にも薬用にも使えます。食用と薬用の両用原料です。小豆に...