精度がわずか 15% の GPT-4 は人間よりはるかに劣っているのでしょうか?

精度がわずか 15% の GPT-4 は人間よりはるかに劣っているのでしょうか?

現在、大規模言語モデル (LLM) は、汎用人工知能 (AGI) を実現するための「最適なソリューション」である可能性があります。

しかし、大規模モデルは流暢さと知識の広さの点で人間レベルのパフォーマンスに近づいているように見えますが、その評価はますます困難になっています。大規模モデルの急速な発展により、従来のベンチマークの一部は時代遅れになりました。したがって、新たな評価基準を早急に開発する必要があります。

最近、 Meta、HuggingFace、AutoGPTの研究チームが共同で、汎用AIアシスタントをテストするためのベンチマークであるGAIAを提案しました。これは、推論、マルチモーダル処理、Webブラウジング、一般的なツールの使用における熟練したスキルなど、一連の基本機能を必要とする現実世界の問題を提起します。

研究チームによると、これらの質問は人間にとっては概念的には非常に単純だが、ほとんどの大規模モデルにとっては難しいとのこと。直感的なデータによると、人間はこれらの質問に答える成功率が 92% であるのに対し、プラグイン付きの GPT-4 でも成功率は 15% に過ぎない。これは、法律や化学など専門的なスキルを必要とするタスクにおいて、大規模モデルが人間を上回るという近年の傾向とは対照的です。

「GAIA: 汎用 AI アシスタントのベンチマーク」と題された関連研究論文が、プレプリント ウェブサイト arXiv で公開されています。

注目すべきは、GAIA の哲学が、人間にとってますます困難になっているタスクをターゲットとする AI ベンチマークの現在の傾向から逸脱していることです。研究チームは、AGI の出現は、システムがこのような問題に対して一般の人々と同様の堅牢性を示すことができるかどうかにかかっていると考えています。

汎用 AI アシスタント ベンチマーク: 現実世界との対話

大規模モデルの機能が向上するにつれて、既存の評価ベンチマークは新しいモデルの課題に対応できなくなり、従来のベンチマークはすぐにこれらの新しいモデルに追い抜かれることになります。

大規模モデルを汎用アシスタントに変える試みにおいて、現在の評価方法は遅れをとっています。既存の評価は主に、クローズド システム、特定の API 呼び出し、または既存の評価データセットの再利用に依存しています。ただし、これらのアプローチは多くの場合、閉鎖的な設定で実施され、現実世界のやり取りにおけるより一般的な機能ではなく、アシスタントが特定の API の使用方法をどの程度学習したかを評価する可能性があります。

対照的に、GAIA は現実世界とのインタラクションをベンチマークとして使用し、可能な API を制限しません。汎用アシスタントの評価を検討するアプローチは他にもありますが、GAIA との主な違いは、将来の進歩よりも現在のモデルの機能に重点を置いていることです。

論文によると、 GAIA は一般的なアシスタント問題に関して AI システムをテストするための標準であり、LLM 評価におけるさまざまな問題を回避するように設計されています。 GAIA には、人間が設計し注釈を付けた 466 の質問が含まれています。これらの質問は主にテキストベースですが、画像やスプレッドシートなどのファイルが含まれる場合もあります。質問は、日常の個人的なタスク、科学的な質問、一般的な知識など、さまざまな一般的なアシスタントアプリケーションのシナリオをカバーしています。質問は短くて正しい答えが 1 つだけになるように設計されているため、簡単に確認できます。 GAIA を使用するには、これらの質問と関連する証拠(ある場合)を AI アシスタントに提示するだけです。

さらに、GAIA を使用して LLM を評価するには、モデルに質問する機能、つまり API へのアクセスのみが必要です。研究者たちは、モデルに質問する前に前置プロンプトを使用しました。回答の抽出を容易にするために、プレフィックスプロンプトの形式も指定しました。

次に、プラグインありとプラグインなしの GPT4 を評価し、バックエンドとして GPT4 を使用して AutoGPT も評価しました。現在、GPT4 ではプラグインを手動で選択する必要がありますが、AutoGPT ではこの選択を自動的に行うことができます。

結果は、GAIA によって有能なアシスタントを明確にランク付けできることを示していますが、今後数か月から数年の間に改善の余地がまだたくさんあります。

図からわかるように、人間による Web 検索はレベル 1 では良好なパフォーマンスを発揮しますが、より複雑なクエリではパフォーマンスが悪く、わずかに遅くなります。プラグイン付きの GPT-4 は、プラグインなしの GPT-4 よりも、回答の精度と実行計画の改善において優れたパフォーマンスを発揮します。 AutoGPT-4 はツールを自動的に使用しますが、レベル 2 やレベル 1 でもパフォーマンスは期待外れです。これはおそらく、GPT-4 API への依存方法によるものです。全体的に、プラグインを使用して GPT-4 を操作する人間は、スコアと時間の間の最適なバランスを見つけたようです。

AIアシスタントの可能性を評価する第一歩

GAIA の出現により、現在および将来の AI システム評価のパラダイムを再考する必要が生じています。

API によってロックされたモデルは時間の経過とともに変化する可能性があります。つまり、異なる時点で実行された評価は、複製または再現できない可能性があります。さらに、ChatGPT プラグインなどのツールとその機能は ChatGPT の API を介してアクセスされるのではなく、定期的に更新されるため、問題はさらに複雑になる可能性があります。

研究者はモデルのパフォーマンスを評価する際に現実世界のベンチマークに依存することが多く、これらのベンチマークは時間の経過とともに変化する可能性があるため、再現性の達成はより困難になる可能性があります。ただし、GAIA は最終的な回答のみを考慮し、評価には 1 つの正しい応答のみを受け入れるため、生成されたランダム性に対して堅牢です。

さらに、多肢選択式の質問の大規模なデータセットと比較して、GAIA は質問の量ではなく質に重点を置いています。 GAIA の継続的な開発は、AI システムの一般化能力と堅牢性をより包括的に評価するための重要な要素となることが期待されています。

GAIA タスクを完了するには、さまざまなモジュールを呼び出す必要があります。たとえば、画像分類器が誤ったラベルを返す場合があります。 GAIA は、Web ブラウジングやビジョン モジュールなどのシステムのサブパーツにエラーを関連付けるのではなく、システム全体を調べるため、この評価が曖昧であると感じる人もいるかもしれません。ただし、すべてのタスクを実行するために LLM を他のツールと緊密に統合することは、持続可能なアプローチではない可能性があります。将来のモデルでは、言語モデルと視覚言語モデルなどの他の機能がさらに統合される可能性があります。

GAIA は、特定のアーキテクチャ基準だけでなく、AI システム全体を評価することを目的としています。より広い意味では、複雑な生成の自動的、事実に基づいた、説明可能な評価は、生成 AI における長年の課題でした。

現在の評価方法にはいくつかの制限があり、マルチモーダルシステムを組み合わせたり、画像に対して複雑なシーケンス変更を実行して生成モデルの評価を改善したり、自然言語で明示的に質問したりするなど、将来的にはより洗練された方法が必要になる可能性があります。

さまざまな分野でディープラーニングが進歩しているにもかかわらず、完全な自動化は、自動運転車の課題など、予測できない障害にまだ直面しています。 GAIA 問題を解決するには完全な自動化が必要ですが、これにより社会経済状況が変化し、技術所有者が価値獲得を独占するリスクが生じる可能性があります。

さらに、GAIA にもいくつかの制限があります。まず、GAIA は、異なるパスが正しい答えにつながる状況を評価できません。論文の著者らは、このギャップを埋めるために将来的には人間とモデルによる評価を検討することを提案している。

さらに、OpenAI の API は詳細なツール呼び出しログを提供しないため、現在はツールアクセス権を持つ最も強力な言語モデルのみが評価されています。研究チームは、将来的に適切な計測機能とログ機能を備えた他のモデルをオープンソース スペースに追加したいと考えています。

現実的で使いやすいベンチマークを作成するには、2 回の注釈付けが必要でした。最初のラウンドでは注釈者が明確な質問を設計し、2 番目のラウンドでは 2 人の独立した注釈者が質問に答えて、この徹底したプロセスにもかかわらず依然として存在する可能性のある曖昧さを解決しました。

最後に、GAIA の大きな制限は言語の多様性の欠如です。すべての質問は「標準的な」英語でのみ行うことができ、多くの質問は主に英語の Web ページに依存しています。

したがって、GAIA は汎用 AI アシスタントの可能性を評価する第一歩に過ぎず、その成功の絶対的な証明とは見なされません。

参考リンク:

https://arxiv.org/abs/2311.12983

著者: ヤン・イーミ

編集者: 学術

<<:  綿花の「ガン」を克服し、綿花を「選択」から「カスタマイズ」へ

>>:  アメリカの犬の間で謎の呼吸器疾患が蔓延している。ナッツを食べると男性の精子の質が向上する |テクノロジーウィークリー

推薦する

柴静のスモッグに関するドキュメンタリーはなぜ人気になったのでしょうか?

ネットで話題のドゥアンとスカートは依然として人気があり、柴静の大気汚染調査はWeChatモーメントを...

鏡を見るのはどれほど奇妙なことでしょうか?

© ハードコアゲーム101リヴァイアサンプレス: 「私は鏡を怖がる人間だ/透けないガラスに直面する...

偽の火をどうするか

内熱はどうしたらいいでしょうか?内熱になりやすい友人の多くは、この問題についてより心配しています。内...

ナマコとキビのお粥の作り方

ナマコのキビ粥はキビ粥を作る方法の一つであり、キビ粥を作る方法はたくさんあります。さまざまな品種が開...

パリオリンピックでは紫色のランニングトラックが使用される。人間が「パープルフリーダム」を達成するのはどれほど難しいのでしょうか?

あと100日も経たないうちに、第33回夏季オリンピックがフランスのパリで開催されます。このオリンピッ...

キュウリは野菜ですか、それとも果物ですか?

生活の中にはさまざまな食べ物があり、これらの食べ物の分類に戸惑う人もいるかもしれません。キュウリを例...

石鹸水とは何ですか?

食品を作るとき、いくつかの食品添加物は欠かせません。これらのものは、食品の色、食感、味を改善するのに...

穀物や野菜の次に、「森に食べ物を求める」こともできるのでしょうか?

秋風が涼しさをもたらし、果物や木々の香りが空気を満たす季節です。国家林業草原局の統計によると、わが国...

70%満腹になるまで食べる:体重を減らすのに役立つだけでなく、アンチエイジングの秘訣でもあります

春節休暇から戻った後、休暇中に体重が3ポンド増えた人が多いと思うので、今こそ体重管理を議題にすべきで...

Stataista: 中国のソーシャル電子商取引市場は 3,000 億ドルの価値がある

中国のソーシャル電子商取引はすでに3,000億ドル規模の巨大な市場であり、業界トップの座を争うさまざ...

キャベツのカロリー

キャベツは、私たちが日常よく食べる野菜の一種です。キャベツとも呼ばれ、水分含有量が非常に高い野菜です...

牛乳の栄養は単なるカルシウム補給以上のものですが、間違った飲み方は「負担」になることがあります

牛乳は「白い血」として知られています。子どもの成長・発達に大切な栄養源であるだけでなく、大人にとって...

電話のせいにしないでください!パソコンが売れない理由はテレビと同じだった

テクノロジー分野の衰退産業といえば、まずPCを思い浮かべる人が多いかもしれません。アナリスト会社ガー...

関節の寿命はたった60年?今すぐやめてください!これらの習慣は膝の老化を早めます

この記事の専門家:中国中医学科学院広安門病院整形外科副主任医師、Yu Tong 氏中国中医学科学院広...

ナツメ、クコの実、リュウガンの効果

お茶を飲むと健康を維持できることは誰もが知っていますが、健康に最も効果的なお茶の種類は、各個人のニー...