認知の覆し: AI の大規模モデルは信頼性が低く、大きくなるほど信頼性も低くなるのでしょうか? !

認知の覆し: AI の大規模モデルは信頼性が低く、大きくなるほど信頼性も低くなるのでしょうか? !

人工知能 (AI) モデルのパラメータ サイズが大きいほど、生成される回答の精度は高くなりますか?もっと信憑性があるのでしょうか?

必ずしもそうではありません!

最近、権威ある科学雑誌「ネイチャー」に掲載された研究によると、小さなパラメータのモデルと比較して、大きなパラメータのモデルは「無知」を認めず、間違った答えを出す可能性が高いことが示されました

注目すべきは、人々がこれらのエラーを検出するのがあまり得意ではないということです。

この研究はバレンシア工科大学のチームとその協力者によって行われた。 GPT、LLaMA、BLOOMシリーズの大規模言語モデル(LLM)を研究した結果、

いくつかの微調整方法(RLFHなど)により予想されるように、パラメータサイズが大きいLLMは、特に複雑なタスクではより正確な回答を生成しますが全体的な信頼性は低くなります

不正確な回答全体の中で、間違った回答の割合が増加し、いくつかの単純なタスクではさらに多くの低レベルのエラーが発生していました。たとえば、GPT-4 が単純な加算パズルやクロスワードパズルを解くときのエラー率は、一部の小規模なモデルよりも 15% 高かった。これは、モデルが質問に答えることを避ける可能性が低いためです。たとえば、モデルが知らないことを認めたり、話題を変えたりします。

上記の結果は、大きなパラメータ モデルは単純なタスクで過剰適合または誤推定のリスクがあり、信頼性が低下する可能性があることを示しています。

モデルの拡大は「能力の対比」をもたらす

この研究では、研究者らは、人間のユーザーと LLM の相互作用の観点から、難易度の一貫性、タスク回避、および手がかりの安定性という 3 つの中核的な絡み合った要素が LLM の信頼性に与える影響を調査しました。

この研究の責任著者であるホセ・エルナンデス・オラロ教授は、「言語モデルの信頼性は、タスクの難しさに対する人間の認識と一致していません。このモデルは博士レベルの数学の問題を解くことができますが、同時に単純な加算で間違いを犯す可能性があります」と述べています。

研究チームは、GPT、LLaMA、BLOOMという3つの主要モデルシリーズのパフォーマンスを、さまざまなタスク、特にデジタル計算、言葉遊び、地理知識、基礎的および高度な科学問題、情報変換などのタスクで比較しました。これらのタスクの精度、エラー率、回避行動を分析することで、モデル拡張によってもたらされる能力コントラスト現象が明らかになりました。

1. 難易度のパラドックス: 「シンプルであればあるほど、間違いが多くなる?」

驚くべき重要な発見は、複雑なタスクに直面したときにモデルのパフォーマンスが大幅に向上したが、単純なタスクでのエラー率が大幅に増加したことです。この現象は「難易度の不一致」と呼ばれ、拡張モデルでは複雑なタスクの精度が徐々に向上しますが、単純なタスクではエラーが発生しやすくなります。

加算タスクを例にとると、モデルは複雑な複数桁の加算を解くことができますが、単純な 2 桁の加算では頻繁に間違いを犯します。たとえば、最も単純なタスクではすべての LLaMA モデルの精度は 60% を超えませんでしたが、より難しいタスクでは比較的良好なパフォーマンスを示しました。

この現象は GPT モデルでも特に顕著です。特に、単純な加算や単語パズルのタスクを扱う場合、最適化されたモデルは間違った答えを出す可能性が高くなります。研究チームは、この現象は現在のモデルの拡張が複雑なタスクに重点を置きすぎて、単純なタスクを無視している可能性があることを示していると指摘した。

図 | GPT、LLaMA、BLOOMモデルの主要な指標

この結果は、LLM の従来の認識を覆すものであり、拡張モデルが必ずしも包括的な改善につながるわけではないことを示し、実際のアプリケーションにおける信頼性に疑問を投げかけています。

2. エラー率と回避行動 - 「過信」

この研究では、難易度の不一致現象に加えて、最適化されたモデルにおける回避行動とエラー率の間に微妙な関係があることも明らかになりました。

回避行動とは、モデルが質問に正しく答えられない場合に、答えないことを選択したり、不適切な応答をしたりすることを指します。

モデルが最適化されていない場合、回避行動がより一般的になります。つまり、モデルが答えに確信が持てない場合、多くの場合、「答えなし」を選択したり、あいまいな応答を提供したりします。しかし、モデルを拡張して最適化すると、回避行動が大幅に減少し、代わりに一見「合理的」だが実際には間違った答えがより多く返されるようになりました。

つまり、一部の最適化方法ではモデルの「信頼性」が高まり、回避行動が減りますが、エラー率は増加します。この現象は、スケール拡張によって期待される安定性が得られなかった GPT-4 や GPT-3.5-turbo などのモデルで特に顕著です。 LLaMA モデルや BLOOM モデルと比較すると、この傾向はそれほど明白ではありませんが、それでも存在します。

図 | GPTとLLaMAモデルのパフォーマンスは難易度が上がるにつれて向上する

研究チームは、この現象は、特にユーザーが一見単純なタスクに直面したときに、ユーザーがモデルに対して抱く過度の信頼と密接に関係していると述べた。

「これは、当初モデルに過度に依存していたユーザーにフラストレーションをもたらす可能性がある」と論文の筆頭著者であるレキシン・ジョウ氏は述べた。 「また、人間とは異なり、答えを避ける傾向は難易度が増すにつれて強くなるわけではありません。たとえば、人間は自分の能力を超えた質問に対してはフィードバックを避ける傾向があります。これにより、モデルとのやり取り中にエラーを発見する責任はユーザーに課せられます。」

3. プロンプトワードは安定をもたらすのか、それとも罠をもたらすのか?

この研究では、手がかりとなる言葉に対するモデルの感度、具体的には特定の手がかりに対して「安全地帯」があるかどうかを分析した。

結果は、モデルのサイズが大きくなるにつれて、モデルがさまざまな自然言語表現に対してより敏感になり、言葉遣いの微調整にうまく対応できることを示しています。ただし、スケーリングと最適化を行った後でも、モデルは難易度の異なるタスクに対して一貫性のないパフォーマンスを示します。さらに、モデルの回答精度は、さまざまなステートメントによって変動します。

研究では、人々の困難さに対する認識は一貫していないことが判明した。 「モデルは、我々が予想するところで失敗するのだろうか? 人間が難しいと感じるタスクではモデルの精度が低くなる傾向があるが、簡単なタスクでも100%正確ではないことがわかった」と論文の著者の一人、ヤエル・モロス・ダバル氏は述べた。 「これは、モデルが完璧に機能すると信頼できる『安全地帯』が存在しないことを意味します。」

具体的には、最適化されていない GPT モデルと LLaMA モデルは、特に単純なタスクにおいて、手がかりとなる単語の選択に対して高い感度を示します。手がかりとなる単語が適切に選択されると、モデルのパフォーマンスが向上します。最適化されたモデルでは、手がかり語の感度が向上し、パフォーマンスがより安定しましたが、ある程度の変動もあります。

最適化されたモデルは、プロンプトの変更に関してはより安定しており、元のモデルよりも精度率が高くなっていますが、一貫性と注意力に関しては、人間の判断の難しさの点でパフォーマンスが低下しています。

図 | LLaMA、BLOOM シリーズ、非構造化 GPT モデルのスケーリング分析

研究では、特に単純なタスクの場合、ユーザーの難易度の予想がモデルの出力と一致しない場合、モデルとユーザーの誤った監督が増加し、人間の監督ではこれらの問題を補うことができないことがわかりました。

タスクの難易度に関する人間の予想はモデルの正確さの予測因子として使用できますが、モデルは単純なタスクでも依然としてエラーが発生します。モデルサイズの拡大と最適化は回避行動を減らすだけでなく、エラー率の増加にもつながり、回避行動はタスクの難易度とは関係ありません。モデルが拡張され最適化されたとしても、キューエンジニアリングの必要性は依然として存在し、キューパフォーマンスの改善は難易度とともに単調に増加するわけではありません。

この研究は、大規模モデルの拡張における主要な盲点を明らかにするだけでなく、AI の将来の発展に新たな方向性を示しています。モデルのサイズとタスクの難易度の最適なバランスを見つけることが、知能の進化の真の鍵となる可能性があります。

「結局のところ、LLMは人間の観点から見るとますます信頼性が低くなり、エラーを修正するためのユーザー監視は解決策ではない。なぜなら、さまざまな難易度レベルで誤った結果を識別するためにモデルに頼りすぎる傾向があるからだ」と論文の著者の一人であるワウト・シェラールト氏は述べた。 「したがって、特に言語モデルのパフォーマンスを予測し、そのエラーを検出することが非常に重要である重要なアプリケーションでは、汎用人工知能(AGI)の設計と開発に根本的な変更が必要です。」

欠点と展望

この研究は、LLM の手がかり感度と拡張および最適化がパフォーマンスに与える影響を明らかにする上で重要な結果を達成しましたが、まだいくつかの限界があります。

まず、この研究の参加者はほとんどが非専門家であったため、キャリブレーションの難易度の値を解釈する際には注意が必要です。一部のベンチマーク データセットでは、専門家以外では多数の問題を解決できない可能性があります。この調査の目的は、一般の人々が予想する難易度を把握し、すべてのデータセットにわたって比較可能な分析を可能にすることです。

さらに、この研究で使用された「自然な」手がかりはさまざまな情報源から収集されましたが、これらの手がかりが現実世界のシナリオに現れる頻度に関するデータは得られませんでした。

同時に、この研究では、特に外部ツールや複雑な推論技術に依存するモデルのみを取り上げています。これにより、より複雑なシナリオにおける LLM の動的パフォーマンスの理解が制限され、さまざまなモデルの可能性と問題を完全に評価できなくなります。

さらに、モデル ファミリのサブセットのみがカバーされます。特に、外部ツールや複雑な推論手法に依存するモデルは含まれません。これにより、より複雑なシナリオにおける LLM の動的パフォーマンスに関する理解が制限され、さまざまなモデル ファミリの可能性と問題を完全に評価することが不可能になります。

研究者らは、人間の難易度の予想と出力の監督に関するデータセットをさらに拡大し、これらのより高品質なデータをモデルのトレーニングに導入し、AIを通じて監督者をトレーニングしてモデルの最適化プロセスを改善していくと述べた。

ヘルスケアなどの重要な分野では、モデルは拒否オプションを設計したり、外部の AI スーパーバイザーと組み合わせたりすることで回避能力を向上させることができ、最終的には LLM が人間の期待に沿った信頼性と一貫性を実証できるようになります。

著者: ティアン・シャオティン

<<:  なぜ一部の人々は「悪魔の顔」を見るのでしょうか?それは「視覚障害」に関係しているかもしれません...

>>:  「シおじさん」の串焼きブームが子供たちにも影響!小学生は串刺し遊びで腱鞘炎になるのでしょうか?

推薦する

デロイト: 2024 年デロイト ホリデー ショッピング調査

調査では、消費者はより楽観的になり、支出を前年比8%増やす予定であることが判明した。彼らは今シーズン...

Idealは、高圧油管を突き破った鉄板が原因である可能性があるIdeal ONEの火災に対応します。

新エネルギー車は一般的な傾向ではあるが、新技術の使用により、新勢力の多くの製品は初期段階では必然的に...

食通の私にとって、食物アレルギーは本当に厄介なものです。

あるごく普通の夜、夕食後、オタマジャクシは嘔吐と下痢に苦しみ、体中に発疹が出て、かゆみを感じて泣きた...

胸を大きくするために何を食べるべきか

胸を大きくすることは、今日非常に一般的な話題です。胸を大きくする方法はたくさんあります。一般的に、女...

キャデラックCT6が広州モーターショーでデビュー:大統領専用車にもハイブリッドバージョンあり

アメリカとヨーロッパはどちらも世界で最も成熟した自動車市場ですが、アメリカの高級ブランドのスタイルは...

台湾地震前の「奇妙で美しい空の写真」が白熱した議論を巻き起こす! 「地震雲」って本当にあるの?

中国地震ネットワークセンターの公式測定によると、北京時間4月3日午前7時58分、台湾花蓮県海域(北緯...

OPPO Find7 ユーザーエクスペリエンス

Fan7を3日間使用しました。私の経験を書き留めておきます。私が使用した最初の携帯電話からN番目の携...

ドリアンの殻の効能と機能

私の友達の多くはドリアンを食べるのが好きですが、そのほとんどはドリアンの味が好きではありません。しか...

IMF: AIは世界中の仕事の約40%に影響を与え、より高いスキルが求められる仕事ほど大きな影響を与える

最近、国内メディアの報道によると、国際通貨基金(IMF)のゲオルギエバ専務理事は、IMFの最新の調査...

シードッグホイップスペシャルトニックワイン

最近では、日々の健康とウェルネスに気を配る人が増えています。自分の体を気にし、健康食品を頻繁に摂取す...

牛肉のブリスケットとジャガイモの調理方法

ジャガイモは多くの人に好まれる食べ物です。この種の食べ物を食べることは、あらゆる面で体に非常に役立ち...

全国フィットネスデー |体の一部分だけを一生懸命鍛えると、その部分は痩せるのでしょうか?多くの人が、フィットネスに関する 10 の誤解に陥っています...

インターネット上にはスポーツやフィットネスに関する意見が数多くあり、真実と虚偽を区別することが困難で...

勝つための一手?曲面スクリーンのNote Edgeはサムスンを救えるか?

一般ユーザーのNote 4に対する期待は毎年の「定跡」であるのに対し、サムスン自身は、このような重量...

ムール貝の調理方法

ムール貝は貝の一種で、タンパク質が豊富です。長い間この種の食べ物を選ぶことは、人体の体格を改善するの...

カリフラワーの栄養価

カリフラワーといえば、誰もが知っていると言ってもいいでしょう。私たちの生活に身近な野菜です。広く栽培...