精度がわずか 15% の GPT-4 は人間よりはるかに劣っているのでしょうか?

精度がわずか 15% の GPT-4 は人間よりはるかに劣っているのでしょうか?

現在、大規模言語モデル (LLM) は、汎用人工知能 (AGI) を実現するための「最適なソリューション」である可能性があります。

しかし、大規模モデルは流暢さと知識の広さの点で人間レベルのパフォーマンスに近づいているように見えますが、その評価はますます困難になっています。大規模モデルの急速な発展により、従来のベンチマークの一部は時代遅れになりました。したがって、新たな評価基準を早急に開発する必要があります。

最近、 Meta、HuggingFace、AutoGPTの研究チームが共同で、汎用AIアシスタントをテストするためのベンチマークであるGAIAを提案しました。これは、推論、マルチモーダル処理、Webブラウジング、一般的なツールの使用における熟練したスキルなど、一連の基本機能を必要とする現実世界の問題を提起します。

研究チームによると、これらの質問は人間にとっては概念的には非常に単純だが、ほとんどの大規模モデルにとっては難しいとのこと。直感的なデータによると、人間はこれらの質問に答える成功率が 92% であるのに対し、プラグイン付きの GPT-4 でも成功率は 15% に過ぎない。これは、法律や化学など専門的なスキルを必要とするタスクにおいて、大規模モデルが人間を上回るという近年の傾向とは対照的です。

「GAIA: 汎用 AI アシスタントのベンチマーク」と題された関連研究論文が、プレプリント ウェブサイト arXiv で公開されています。

注目すべきは、GAIA の哲学が、人間にとってますます困難になっているタスクをターゲットとする AI ベンチマークの現在の傾向から逸脱していることです。研究チームは、AGI の出現は、システムがこのような問題に対して一般の人々と同様の堅牢性を示すことができるかどうかにかかっていると考えています。

汎用 AI アシスタント ベンチマーク: 現実世界との対話

大規模モデルの機能が向上するにつれて、既存の評価ベンチマークは新しいモデルの課題に対応できなくなり、従来のベンチマークはすぐにこれらの新しいモデルに追い抜かれることになります。

大規模モデルを汎用アシスタントに変える試みにおいて、現在の評価方法は遅れをとっています。既存の評価は主に、クローズド システム、特定の API 呼び出し、または既存の評価データセットの再利用に依存しています。ただし、これらのアプローチは多くの場合、閉鎖的な設定で実施され、現実世界のやり取りにおけるより一般的な機能ではなく、アシスタントが特定の API の使用方法をどの程度学習したかを評価する可能性があります。

対照的に、GAIA は現実世界とのインタラクションをベンチマークとして使用し、可能な API を制限しません。汎用アシスタントの評価を検討するアプローチは他にもありますが、GAIA との主な違いは、将来の進歩よりも現在のモデルの機能に重点を置いていることです。

論文によると、 GAIA は一般的なアシスタント問題に関して AI システムをテストするための標準であり、LLM 評価におけるさまざまな問題を回避するように設計されています。 GAIA には、人間が設計し注釈を付けた 466 の質問が含まれています。これらの質問は主にテキストベースですが、画像やスプレッドシートなどのファイルが含まれる場合もあります。質問は、日常の個人的なタスク、科学的な質問、一般的な知識など、さまざまな一般的なアシスタントアプリケーションのシナリオをカバーしています。質問は短くて正しい答えが 1 つだけになるように設計されているため、簡単に確認できます。 GAIA を使用するには、これらの質問と関連する証拠(ある場合)を AI アシスタントに提示するだけです。

さらに、GAIA を使用して LLM を評価するには、モデルに質問する機能、つまり API へのアクセスのみが必要です。研究者たちは、モデルに質問する前に前置プロンプトを使用しました。回答の抽出を容易にするために、プレフィックスプロンプトの形式も指定しました。

次に、プラグインありとプラグインなしの GPT4 を評価し、バックエンドとして GPT4 を使用して AutoGPT も評価しました。現在、GPT4 ではプラグインを手動で選択する必要がありますが、AutoGPT ではこの選択を自動的に行うことができます。

結果は、GAIA によって有能なアシスタントを明確にランク付けできることを示していますが、今後数か月から数年の間に改善の余地がまだたくさんあります。

図からわかるように、人間による Web 検索はレベル 1 では良好なパフォーマンスを発揮しますが、より複雑なクエリではパフォーマンスが悪く、わずかに遅くなります。プラグイン付きの GPT-4 は、プラグインなしの GPT-4 よりも、回答の精度と実行計画の改善において優れたパフォーマンスを発揮します。 AutoGPT-4 はツールを自動的に使用しますが、レベル 2 やレベル 1 でもパフォーマンスは期待外れです。これはおそらく、GPT-4 API への依存方法によるものです。全体的に、プラグインを使用して GPT-4 を操作する人間は、スコアと時間の間の最適なバランスを見つけたようです。

AIアシスタントの可能性を評価する第一歩

GAIA の出現により、現在および将来の AI システム評価のパラダイムを再考する必要が生じています。

API によってロックされたモデルは時間の経過とともに変化する可能性があります。つまり、異なる時点で実行された評価は、複製または再現できない可能性があります。さらに、ChatGPT プラグインなどのツールとその機能は ChatGPT の API を介してアクセスされるのではなく、定期的に更新されるため、問題はさらに複雑になる可能性があります。

研究者はモデルのパフォーマンスを評価する際に現実世界のベンチマークに依存することが多く、これらのベンチマークは時間の経過とともに変化する可能性があるため、再現性の達成はより困難になる可能性があります。ただし、GAIA は最終的な回答のみを考慮し、評価には 1 つの正しい応答のみを受け入れるため、生成されたランダム性に対して堅牢です。

さらに、多肢選択式の質問の大規模なデータセットと比較して、GAIA は質問の量ではなく質に重点を置いています。 GAIA の継続的な開発は、AI システムの一般化能力と堅牢性をより包括的に評価するための重要な要素となることが期待されています。

GAIA タスクを完了するには、さまざまなモジュールを呼び出す必要があります。たとえば、画像分類器が誤ったラベルを返す場合があります。 GAIA は、Web ブラウジングやビジョン モジュールなどのシステムのサブパーツにエラーを関連付けるのではなく、システム全体を調べるため、この評価が曖昧であると感じる人もいるかもしれません。ただし、すべてのタスクを実行するために LLM を他のツールと緊密に統合することは、持続可能なアプローチではない可能性があります。将来のモデルでは、言語モデルと視覚言語モデルなどの他の機能がさらに統合される可能性があります。

GAIA は、特定のアーキテクチャ基準だけでなく、AI システム全体を評価することを目的としています。より広い意味では、複雑な生成の自動的、事実に基づいた、説明可能な評価は、生成 AI における長年の課題でした。

現在の評価方法にはいくつかの制限があり、マルチモーダルシステムを組み合わせたり、画像に対して複雑なシーケンス変更を実行して生成モデルの評価を改善したり、自然言語で明示的に質問したりするなど、将来的にはより洗練された方法が必要になる可能性があります。

さまざまな分野でディープラーニングが進歩しているにもかかわらず、完全な自動化は、自動運転車の課題など、予測できない障害にまだ直面しています。 GAIA 問題を解決するには完全な自動化が必要ですが、これにより社会経済状況が変化し、技術所有者が価値獲得を独占するリスクが生じる可能性があります。

さらに、GAIA にもいくつかの制限があります。まず、GAIA は、異なるパスが正しい答えにつながる状況を評価できません。論文の著者らは、このギャップを埋めるために将来的には人間とモデルによる評価を検討することを提案している。

さらに、OpenAI の API は詳細なツール呼び出しログを提供しないため、現在はツールアクセス権を持つ最も強力な言語モデルのみが評価されています。研究チームは、将来的に適切な計測機能とログ機能を備えた他のモデルをオープンソース スペースに追加したいと考えています。

現実的で使いやすいベンチマークを作成するには、2 回の注釈付けが必要でした。最初のラウンドでは注釈者が明確な質問を設計し、2 番目のラウンドでは 2 人の独立した注釈者が質問に答えて、この徹底したプロセスにもかかわらず依然として存在する可能性のある曖昧さを解決しました。

最後に、GAIA の大きな制限は言語の多様性の欠如です。すべての質問は「標準的な」英語でのみ行うことができ、多くの質問は主に英語の Web ページに依存しています。

したがって、GAIA は汎用 AI アシスタントの可能性を評価する第一歩に過ぎず、その成功の絶対的な証明とは見なされません。

参考リンク:

https://arxiv.org/abs/2311.12983

著者: ヤン・イーミ

編集者: 学術

<<:  綿花の「ガン」を克服し、綿花を「選択」から「カスタマイズ」へ

>>:  アメリカの犬の間で謎の呼吸器疾患が蔓延している。ナッツを食べると男性の精子の質が向上する |テクノロジーウィークリー

推薦する

もはや単に大きいだけではないハイテクトラックを見に来てください

自動車分野のテクノロジーに関して言えば、ほとんどのメーカーとユーザーは民間のセダンとSUVに重点を置...

7人のノーベル賞受賞者が西湖に集まり、最も話題になったのは、あなたや私が仕事を続けられるかどうかでした。

地球と月の表面に奇妙な黒い石が突然現れた理由を解明するために、人類は木星に宇宙船を送りました。宇宙船...

クリスピーポテトの作り方

食べ物は、すべての食通にとって最高のものです。食べ物は、1日3食、スナック、ケーキなど、さまざまな種...

黄色い米粉とは何ですか?

近代化が進むにつれて、人々の生活の質も絶えず向上し、人々の生活水準も絶えず向上し、人々のライフスタイ...

なぜ世界中の山々の標高は10,000メートル以下なのでしょうか?

地球上には、さまざまな形や高さを持つ、あらゆる大きさの山が無数にあります。いくつかの山は鉱物が豊富で...

デロイト:2022年ホリデー小売調査レポート

毎年恒例のホリデー シーズン調査は 37 年間にわたり、社交、贈り物、旅行の準備をする買い物客の支出...

牛ブリスケットスープのレシピ

牛にはブリスケットと呼ばれる部位があります。ブリスケットは料理に非常に適した材料です。ブリスケットを...

ロバの皮のゼラチンと同じくらい効果的な血液強化食品

血液は人間の生存の基盤であり、内臓に栄養を供給します。しかし、貧血になりやすい人は多く、気血の不足の...

センザンコウの食べ方

どんな食べ物にも何らかの栄養素が含まれています。食べ物を選ぶ前に、その栄養素をよく理解しておく必要が...

9,000年の時を旅して、遠く離れた「骨」のフルートは文明の星と火花を奏でる

「このフルートを演奏するとどんな音がするのでしょうか?」先日、記者は洛河市武陽県にある賈湖遺跡博物館...

豆腐と豚肉の煮込みの作り方

豆腐は多くの人に好まれる食べ物です。栄養が豊富で、豆腐を長く食べると健康に良いです。しかし、豆腐を選...

自家製スパイシー豆腐

豆腐は誰もが日常的に食べる食品です。豆腐の食べ方はいろいろあり、豆腐はとても栄養価が高いです。私が昔...

クコの実は良いものですが、過剰に摂取するのではなく、継続的に摂取する必要があります。

コンピューターを使用する人は、目に栄養を与える食品をもっと食べるべきです。仕事でコンピューターをよく...

15インチ新型MacBook Proのポイント:大幅なパフォーマンス向上

Appleは昨日、13インチモデル3機種と15インチモデル2機種を含む、5つの新しいRetina M...

ルーターのバックドア脆弱性には無限の危険が潜んでおり、セキュリティ保護の強化が急務となっている

先週末、国家インターネット緊急センター(CNCERT)は「2013年における我が国のインターネットネ...