ロボットは人間の模倣者として優れていますが、そのほとんどは、事前設定されたプログラミングなどの人間の助けなしには動作できません。特に家庭用ロボットの場合、複雑な家事に直面したときに「脳」に十分な常識がなければ、人間の家族の日常的なニーズを満たすことは困難になるでしょう。 現在、大規模言語モデル(LLM)によって駆動される家庭用ロボットは、すでに「常識的な知識」を獲得し、人間の助けなしに自らを修正し、複雑な家事をうまくこなすことができます。 「反事実的摂動によるデモンストレーションにおける言語計画の根拠付け」と題された関連研究論文が、トップクラスの人工知能(AI)カンファレンス ICLR 2024 の会議論文として発表されました。 ヤンウェイ・ワン博士マサチューセッツ工科大学(MIT)の電気工学およびコンピュータサイエンス学部の学生であり、この研究論文の責任著者です。 同氏は、模倣学習が家庭用ロボットを実現するための主流のアプローチであると述べた。しかし、ロボットが人間の動作の軌跡を盲目的に模倣すると、小さなエラーが蓄積され続け、最終的には実行プロセスで他のエラーが発生します。 「私たちのアプローチにより、ロボットは実行エラーを自己修正し、全体的なミッションの成功率を向上させることができます。 」 ロボットに家事の一部をマスターさせよう こぼしたものを拭き取ることから料理を配ることまで、ロボットはますます複雑化する家事のやり方を学んでいます。実際、多くの家庭用ロボットは人間の行動を模倣して学習します。ロボットは、人間が指示した動作を再現するようにプログラムされています。しかし、過去のロボットには常識が欠けていたため、人間のエンジニアがあらゆる衝撃や衝撃に適応するようにロボットをプログラムしない限り、ロボットは必ずしもこうした状況に対処する方法を知っているわけではなく、ゼロからミッションを始めなければならなくなる。 おそらく、ある程度の「常識的な知識」を組み込むことで、ロボットは訓練の道から外れるような状況にも備えられるようになるだろう。論文によれば、Yanwei et al.簡単な日常的な作業を通じて、提案された方法の有効性を検証しました。一つのボウルからビー玉をすくい取り、別のボウルに注ぐという作業は、とても簡単なように思えます。 しかし、従来の方法では、ロボットがこのタスクを完了できるようにするために、エンジニアはロボットに「すくう」および「注ぐ」動作を流体軌道上で完了させ、それを何度も繰り返して、ロボットが人間のデモンストレーション動作の一部を模倣できるようにしていました。 問題は、人間はタスクを一度で実行できるかもしれないが、そのタスクは一連のサブタスク、つまり軌跡に依存している点です。たとえば、ロボットは水をすくう前にボウルの中に手を伸ばさなければならず、空のボウルに移動する前にビー玉をすくい上げなければなりません。ロボットがこれらのサブタスクのいずれかの途中で揺さぶられたりミスをしたりした場合、唯一の手段は停止してやり直すことです。 人間のエンジニアが各サブタスクに明示的にラベルを付けてロボットをプログラムしたり、新しいデモンストレーションを収集したりしない限り、ロボットはそのような障害から回復し、一瞬で自分自身を修正することができます。 「このレベルの計画は非常に面倒だ」とヤンウェイ氏は語った。 そこで、この研究では、ヤンウェイ氏と彼のチームは、ロボットの動作データを大規模言語モデルの「常識的知識」と結び付けました。 これにより、ロボットは与えられた多くの家事タスクを論理的にサブタスクに解析し、サブタスク内の注意散漫に適応できるようになりました。これに基づいて、ロボットは戻って最初からタスクを開始する必要なく、前進し続けることができます。そして重要なのは、人間のエンジニアは起こりうるあらゆる障害に対して詳細な修正を書く必要がないということです。 これらのディープラーニングモデルは、大規模なテキストライブラリを処理し、単語、文、段落間のつながりを確立できることが報告されています。これらの接続を通じて、大規模な言語モデルは、前の単語に続く可能性のある単語の種類について学習した内容に基づいて、新しい文を生成できます。 さらに、大規模な言語モデルでは、文章や段落に加えて、プロンプトに基づいて特定のタスクに関係するサブタスクの論理リストを生成することもできます。たとえば、ビー玉をボウルから別のボウルにすくい上げる動作をリストアップするように求められた場合、モデルは「手を伸ばす」「すくう」「運ぶ」「注ぐ」などの動詞のリストを生成する可能性があります。 「大規模な言語モデルは、自然言語を使用してタスクの各ステップを完了する方法をロボットに指示できます。人間による継続的なデモンストレーションは、これらのステップを物理空間で具体化したものです」とヤンウェイ氏は語った。 「ロボットがタスクのどの段階にいるのかを自動的に認識し、自ら再計画して回復できるように、この2つを接続したいと考えています。 」 ヤンウェイ氏によると、彼らのアルゴリズムは遠隔操作システムによって収集されたデータを堅牢なロボット動作に変換できるようになり、外部からの干渉にもかかわらずロボットが複雑なタスクを完了できるようになるという。 欠点と展望 このアプローチにより、ロボットは人間の支援なしに自己修正して複雑な家事作業を実行できるようになりますが、一定の制限もあります。たとえば、彼らのアプローチでは、大量の人間によるデモンストレーションは必要ありませんが、軌跡のタスク成功ラベルを収集するためには、広範囲にわたる試行錯誤とリセット可能な環境が必要です。 しかし、研究チームは、このデータの非効率性の問題は能動学習によって解決できると述べています。さらに、大規模な言語モデルに、分類器を学習するための適切な状態表現を見つけさせるには、ある程度のスキルも必要です。今後の研究では、パターン分類器を組み合わせて、エンドツーエンドで状態表現を学習したいと考えています。 参考リンク: https://sites.google.com/view/grounding-plans https://news.mit.edu/2024/engineering-household-robots-have-little-common-sense-0325 https://openreview.net/forum?id=qoHeuRAcSl https://techcrunch.com/2024/03/25/large- language-models-can-help-home-robots-recover-from-errors-without-human-help/ https://www.youtube.com/watch?v=uerMlHmgPfI https://yanweiw.github.io/ |
<<: 本当に素晴らしいです! 「車を洗うとすぐに雨が降る」といつも感じていませんか?
>>: 地下鉄のトンネルはどんな感じでしょうか?なぜほとんどが丸いのでしょうか?
【9月10日ニュース】北京時間11日早朝、アップルは米国で記者会見を開催する。これは、6 月の WW...
【北京、2024年9月27日】フォルクスワーゲングループ(中国)は2024年世界新エネルギー車両大会...
生活水準の向上に伴い、全粒穀物を食べることが普及し、多くの人がトウモロコシかぼちゃ粥の作り方とその効...
iPhone 6は非常に薄くて軽いものになります。正確な厚さはまだ決まっていませんが、7 mm 未満...
自動車市場全体の減速にもかかわらず、テスラの中国での新車登録台数は12月に再び増加し、3月以来の高水...
レビュー |李南南 湖南省科学記者協会理事 湖南省科学技術協会研究宣伝部副部長 二級研究者 中国科学...
モバイル オペレーティング システム分野における競争は新たな段階に入りました。 Android 7....
「優位性があるかどうか」という大きな論争を伴い、LeTV Super Phoneは正式に国産スマー...
人類の長い進化の過程において、大量のエネルギーを素早く補給できる砂糖は、常に危機的な瞬間に最も役立つ...
最近では、環境に優しく健康的な食べ物を食べるために、自分で育てられる様々な動物や植物を栽培したり飼育...
2019年11月5日、インテルの子会社Mobileyeは中国の高級電気自動車ブランドNIOと戦略的...
中国には「カリフラワーが黄色くなると、愚か者は忙しい」という諺がある。春には、自殺傾向のある人が自殺...
「ニンニクなしで肉を食べると、風味が半分失われる」ということわざがあります。ニンニクは私たちの毎日...
クリーム オブ マッシュルーム スープは、多くの人に好まれています。このスープは主に菌類で構成されて...
大根には多くの種類がありますが、ほとんどの人の日常生活で最も頻繁に登場するのは大根とニンジンです。ニ...