精度がわずか 15% の GPT-4 は人間よりはるかに劣っているのでしょうか?

現在、大規模言語モデル (LLM) は、汎用人工知能 (AGI) を実現するための「最適なソリューション」である可能性があります。

しかし、大規模モデルは流暢さと知識の広さの点で人間レベルのパフォーマンスに近づいているように見えますが、その評価はますます困難になっています。大規模モデルの急速な発展により、従来のベンチマークの一部は時代遅れになりました。したがって、新たな評価基準を早急に開発する必要があります。

最近、 Meta、HuggingFace、AutoGPTの研究チームが共同で、汎用AIアシスタントをテストするためのベンチマークであるGAIAを提案しました。これは、推論、マルチモーダル処理、Webブラウジング、一般的なツールの使用における熟練したスキルなど、一連の基本機能を必要とする現実世界の問題を提起します。

研究チームによると、これらの質問は人間にとっては概念的には非常に単純だが、ほとんどの大規模モデルにとっては難しいとのこと。直感的なデータによると、人間はこれらの質問に答える成功率が 92% であるのに対し、プラグイン付きの GPT-4 でも成功率は 15% に過ぎない。これは、法律や化学など専門的なスキルを必要とするタスクにおいて、大規模モデルが人間を上回るという近年の傾向とは対照的です。

「GAIA: 汎用 AI アシスタントのベンチマーク」と題された関連研究論文が、プレプリントウェブサイト arXiv で公開されています。

注目すべきは、GAIA の哲学が、人間にとってますます困難になっているタスクをターゲットとする AI ベンチマークの現在の傾向から逸脱していることです。研究チームは、AGI の出現は、システムがこのような問題に対して一般の人々と同様の堅牢性を示すことができるかどうかにかかっていると考えています。

汎用 AI アシスタントベンチマーク: 現実世界との対話

大規模モデルの機能が向上するにつれて、既存の評価ベンチマークは新しいモデルの課題に対応できなくなり、従来のベンチマークはすぐにこれらの新しいモデルに追い抜かれることになります。

大規模モデルを汎用アシスタントに変える試みにおいて、現在の評価方法は遅れをとっています。既存の評価は主に、クローズドシステム、特定の API 呼び出し、または既存の評価データセットの再利用に依存しています。ただし、これらのアプローチは多くの場合、閉鎖的な設定で実施され、現実世界のやり取りにおけるより一般的な機能ではなく、アシスタントが特定の API の使用方法をどの程度学習したかを評価する可能性があります。

対照的に、GAIA は現実世界とのインタラクションをベンチマークとして使用し、可能な API を制限しません。汎用アシスタントの評価を検討するアプローチは他にもありますが、GAIA との主な違いは、将来の進歩よりも現在のモデルの機能に重点を置いていることです。

論文によると、 GAIA は一般的なアシスタント問題に関して AI システムをテストするための標準であり、LLM 評価におけるさまざまな問題を回避するように設計されています。 GAIA には、人間が設計し注釈を付けた 466 の質問が含まれています。これらの質問は主にテキストベースですが、画像やスプレッドシートなどのファイルが含まれる場合もあります。質問は、日常の個人的なタスク、科学的な質問、一般的な知識など、さまざまな一般的なアシスタントアプリケーションのシナリオをカバーしています。質問は短くて正しい答えが 1 つだけになるように設計されているため、簡単に確認できます。 GAIA を使用するには、これらの質問と関連する証拠（ある場合）を AI アシスタントに提示するだけです。

さらに、GAIA を使用して LLM を評価するには、モデルに質問する機能、つまり API へのアクセスのみが必要です。研究者たちは、モデルに質問する前に前置プロンプトを使用しました。回答の抽出を容易にするために、プレフィックスプロンプトの形式も指定しました。

次に、プラグインありとプラグインなしの GPT4 を評価し、バックエンドとして GPT4 を使用して AutoGPT も評価しました。現在、GPT4 ではプラグインを手動で選択する必要がありますが、AutoGPT ではこの選択を自動的に行うことができます。

結果は、GAIA によって有能なアシスタントを明確にランク付けできることを示していますが、今後数か月から数年の間に改善の余地がまだたくさんあります。

図からわかるように、人間による Web 検索はレベル 1 では良好なパフォーマンスを発揮しますが、より複雑なクエリではパフォーマンスが悪く、わずかに遅くなります。プラグイン付きの GPT-4 は、プラグインなしの GPT-4 よりも、回答の精度と実行計画の改善において優れたパフォーマンスを発揮します。 AutoGPT-4 はツールを自動的に使用しますが、レベル 2 やレベル 1 でもパフォーマンスは期待外れです。これはおそらく、GPT-4 API への依存方法によるものです。全体的に、プラグインを使用して GPT-4 を操作する人間は、スコアと時間の間の最適なバランスを見つけたようです。

AIアシスタントの可能性を評価する第一歩

GAIA の出現により、現在および将来の AI システム評価のパラダイムを再考する必要が生じています。

API によってロックされたモデルは時間の経過とともに変化する可能性があります。つまり、異なる時点で実行された評価は、複製または再現できない可能性があります。さらに、ChatGPT プラグインなどのツールとその機能は ChatGPT の API を介してアクセスされるのではなく、定期的に更新されるため、問題はさらに複雑になる可能性があります。

研究者はモデルのパフォーマンスを評価する際に現実世界のベンチマークに依存することが多く、これらのベンチマークは時間の経過とともに変化する可能性があるため、再現性の達成はより困難になる可能性があります。ただし、GAIA は最終的な回答のみを考慮し、評価には 1 つの正しい応答のみを受け入れるため、生成されたランダム性に対して堅牢です。

さらに、多肢選択式の質問の大規模なデータセットと比較して、GAIA は質問の量ではなく質に重点を置いています。 GAIA の継続的な開発は、AI システムの一般化能力と堅牢性をより包括的に評価するための重要な要素となることが期待されています。

GAIA タスクを完了するには、さまざまなモジュールを呼び出す必要があります。たとえば、画像分類器が誤ったラベルを返す場合があります。 GAIA は、Web ブラウジングやビジョンモジュールなどのシステムのサブパーツにエラーを関連付けるのではなく、システム全体を調べるため、この評価が曖昧であると感じる人もいるかもしれません。ただし、すべてのタスクを実行するために LLM を他のツールと緊密に統合することは、持続可能なアプローチではない可能性があります。将来のモデルでは、言語モデルと視覚言語モデルなどの他の機能がさらに統合される可能性があります。

GAIA は、特定のアーキテクチャ基準だけでなく、AI システム全体を評価することを目的としています。より広い意味では、複雑な生成の自動的、事実に基づいた、説明可能な評価は、生成 AI における長年の課題でした。

現在の評価方法にはいくつかの制限があり、マルチモーダルシステムを組み合わせたり、画像に対して複雑なシーケンス変更を実行して生成モデルの評価を改善したり、自然言語で明示的に質問したりするなど、将来的にはより洗練された方法が必要になる可能性があります。

さまざまな分野でディープラーニングが進歩しているにもかかわらず、完全な自動化は、自動運転車の課題など、予測できない障害にまだ直面しています。 GAIA 問題を解決するには完全な自動化が必要ですが、これにより社会経済状況が変化し、技術所有者が価値獲得を独占するリスクが生じる可能性があります。

さらに、GAIA にもいくつかの制限があります。まず、GAIA は、異なるパスが正しい答えにつながる状況を評価できません。論文の著者らは、このギャップを埋めるために将来的には人間とモデルによる評価を検討することを提案している。

さらに、OpenAI の API は詳細なツール呼び出しログを提供しないため、現在はツールアクセス権を持つ最も強力な言語モデルのみが評価されています。研究チームは、将来的に適切な計測機能とログ機能を備えた他のモデルをオープンソーススペースに追加したいと考えています。

現実的で使いやすいベンチマークを作成するには、2 回の注釈付けが必要でした。最初のラウンドでは注釈者が明確な質問を設計し、2 番目のラウンドでは 2 人の独立した注釈者が質問に答えて、この徹底したプロセスにもかかわらず依然として存在する可能性のある曖昧さを解決しました。

最後に、GAIA の大きな制限は言語の多様性の欠如です。すべての質問は「標準的な」英語でのみ行うことができ、多くの質問は主に英語の Web ページに依存しています。

したがって、GAIA は汎用 AI アシスタントの可能性を評価する第一歩に過ぎず、その成功の絶対的な証明とは見なされません。

参考リンク:

https://arxiv.org/abs/2311.12983

著者: ヤン・イーミ

編集者: 学術

<<: 綿花の「ガン」を克服し、綿花を「選択」から「カスタマイズ」へ

>>: アメリカの犬の間で謎の呼吸器疾患が蔓延している。ナッツを食べると男性の精子の質が向上する |テクノロジーウィークリー

精度がわずか 15% の GPT-4 は人間よりはるかに劣っているのでしょうか?

大規模に漁場に侵入し、貝類を捕食します。この「キラー」とは何でしょうか?

東北涼皮の作り方

マスタードグリーンのピクルス入りミートパイ

セミの蛹の栄養価

魚のブリスターの栄養価は？

2年前の今日、揚子江竜の生命線は断たれ、絶滅が宣言されました。

黒と白が晩秋のダイエットの鍵

フルーツアイスクリームの作り方

Red Magic 7 ゲーミングフォンのレビュー: 165Hz ゲーミングスクリーンと極度の放熱性により、Snapdragon 8 搭載のゲーミングフラッグシップが誕生

ポピュラーサイエンスオンライン |世界中のすべての病気は免疫システムが戦いに負けることによって引き起こされます

推薦する

もはや単に大きいだけではないハイテクトラックを見に来てください

7人のノーベル賞受賞者が西湖に集まり、最も話題になったのは、あなたや私が仕事を続けられるかどうかでした。

クリスピーポテトの作り方

黄色い米粉とは何ですか？

なぜ世界中の山々の標高は10,000メートル以下なのでしょうか？

デロイト：2022年ホリデー小売調査レポート

牛ブリスケットスープのレシピ

ロバの皮のゼラチンと同じくらい効果的な血液強化食品

センザンコウの食べ方

9,000年の時を旅して、遠く離れた「骨」のフルートは文明の星と火花を奏でる

豆腐と豚肉の煮込みの作り方

自家製スパイシー豆腐

クコの実は良いものですが、過剰に摂取するのではなく、継続的に摂取する必要があります。

15インチ新型MacBook Proのポイント：大幅なパフォーマンス向上

ルーターのバックドア脆弱性には無限の危険が潜んでおり、セキュリティ保護の強化が急務となっている