認知の覆し: AI の大規模モデルは信頼性が低く、大きくなるほど信頼性も低くなるのでしょうか? ！

人工知能 (AI) モデルのパラメータサイズが大きいほど、生成される回答の精度は高くなりますか?もっと信憑性があるのでしょうか?

必ずしもそうではありません!

最近、権威ある科学雑誌「ネイチャー」に掲載された研究によると、小さなパラメータのモデルと比較して、大きなパラメータのモデルは「無知」を認めず、間違った答えを出す可能性が高いことが示されました。

注目すべきは、人々がこれらのエラーを検出するのがあまり得意ではないということです。

この研究はバレンシア工科大学のチームとその協力者によって行われた。 GPT、LLaMA、BLOOMシリーズの大規模言語モデル（LLM）を研究した結果、

いくつかの微調整方法（RLFHなど）により予想されるように、パラメータサイズが大きいLLMは、特に複雑なタスクではより正確な回答を生成しますが、全体的な信頼性は低くなります。

不正確な回答全体の中で、間違った回答の割合が増加し、いくつかの単純なタスクではさらに多くの低レベルのエラーが発生していました。たとえば、GPT-4 が単純な加算パズルやクロスワードパズルを解くときのエラー率は、一部の小規模なモデルよりも 15% 高かった。これは、モデルが質問に答えることを避ける可能性が低いためです。たとえば、モデルが知らないことを認めたり、話題を変えたりします。

上記の結果は、大きなパラメータモデルは単純なタスクで過剰適合または誤推定のリスクがあり、信頼性が低下する可能性があることを示しています。

モデルの拡大は「能力の対比」をもたらす

この研究では、研究者らは、人間のユーザーと LLM の相互作用の観点から、難易度の一貫性、タスク回避、および手がかりの安定性という 3 つの中核的な絡み合った要素が LLM の信頼性に与える影響を調査しました。

この研究の責任著者であるホセ・エルナンデス・オラロ教授は、「言語モデルの信頼性は、タスクの難しさに対する人間の認識と一致していません。このモデルは博士レベルの数学の問題を解くことができますが、同時に単純な加算で間違いを犯す可能性があります」と述べています。

研究チームは、GPT、LLaMA、BLOOMという3つの主要モデルシリーズのパフォーマンスを、さまざまなタスク、特にデジタル計算、言葉遊び、地理知識、基礎的および高度な科学問題、情報変換などのタスクで比較しました。これらのタスクの精度、エラー率、回避行動を分析することで、モデル拡張によってもたらされる能力コントラスト現象が明らかになりました。

1. 難易度のパラドックス: 「シンプルであればあるほど、間違いが多くなる?」

驚くべき重要な発見は、複雑なタスクに直面したときにモデルのパフォーマンスが大幅に向上したが、単純なタスクでのエラー率が大幅に増加したことです。この現象は「難易度の不一致」と呼ばれ、拡張モデルでは複雑なタスクの精度が徐々に向上しますが、単純なタスクではエラーが発生しやすくなります。

加算タスクを例にとると、モデルは複雑な複数桁の加算を解くことができますが、単純な 2 桁の加算では頻繁に間違いを犯します。たとえば、最も単純なタスクではすべての LLaMA モデルの精度は 60% を超えませんでしたが、より難しいタスクでは比較的良好なパフォーマンスを示しました。

この現象は GPT モデルでも特に顕著です。特に、単純な加算や単語パズルのタスクを扱う場合、最適化されたモデルは間違った答えを出す可能性が高くなります。研究チームは、この現象は現在のモデルの拡張が複雑なタスクに重点を置きすぎて、単純なタスクを無視している可能性があることを示していると指摘した。

図 | GPT、LLaMA、BLOOMモデルの主要な指標

この結果は、LLM の従来の認識を覆すものであり、拡張モデルが必ずしも包括的な改善につながるわけではないことを示し、実際のアプリケーションにおける信頼性に疑問を投げかけています。

2. エラー率と回避行動 - 「過信」

この研究では、難易度の不一致現象に加えて、最適化されたモデルにおける回避行動とエラー率の間に微妙な関係があることも明らかになりました。

回避行動とは、モデルが質問に正しく答えられない場合に、答えないことを選択したり、不適切な応答をしたりすることを指します。

モデルが最適化されていない場合、回避行動がより一般的になります。つまり、モデルが答えに確信が持てない場合、多くの場合、「答えなし」を選択したり、あいまいな応答を提供したりします。しかし、モデルを拡張して最適化すると、回避行動が大幅に減少し、代わりに一見「合理的」だが実際には間違った答えがより多く返されるようになりました。

つまり、一部の最適化方法ではモデルの「信頼性」が高まり、回避行動が減りますが、エラー率は増加します。この現象は、スケール拡張によって期待される安定性が得られなかった GPT-4 や GPT-3.5-turbo などのモデルで特に顕著です。 LLaMA モデルや BLOOM モデルと比較すると、この傾向はそれほど明白ではありませんが、それでも存在します。

図 | GPTとLLaMAモデルのパフォーマンスは難易度が上がるにつれて向上する

研究チームは、この現象は、特にユーザーが一見単純なタスクに直面したときに、ユーザーがモデルに対して抱く過度の信頼と密接に関係していると述べた。

「これは、当初モデルに過度に依存していたユーザーにフラストレーションをもたらす可能性がある」と論文の筆頭著者であるレキシン・ジョウ氏は述べた。「また、人間とは異なり、答えを避ける傾向は難易度が増すにつれて強くなるわけではありません。たとえば、人間は自分の能力を超えた質問に対してはフィードバックを避ける傾向があります。これにより、モデルとのやり取り中にエラーを発見する責任はユーザーに課せられます。」

3. プロンプトワードは安定をもたらすのか、それとも罠をもたらすのか?

この研究では、手がかりとなる言葉に対するモデルの感度、具体的には特定の手がかりに対して「安全地帯」があるかどうかを分析した。

結果は、モデルのサイズが大きくなるにつれて、モデルがさまざまな自然言語表現に対してより敏感になり、言葉遣いの微調整にうまく対応できることを示しています。ただし、スケーリングと最適化を行った後でも、モデルは難易度の異なるタスクに対して一貫性のないパフォーマンスを示します。さらに、モデルの回答精度は、さまざまなステートメントによって変動します。

研究では、人々の困難さに対する認識は一貫していないことが判明した。「モデルは、我々が予想するところで失敗するのだろうか？人間が難しいと感じるタスクではモデルの精度が低くなる傾向があるが、簡単なタスクでも100％正確ではないことがわかった」と論文の著者の一人、ヤエル・モロス・ダバル氏は述べた。「これは、モデルが完璧に機能すると信頼できる『安全地帯』が存在しないことを意味します。」

具体的には、最適化されていない GPT モデルと LLaMA モデルは、特に単純なタスクにおいて、手がかりとなる単語の選択に対して高い感度を示します。手がかりとなる単語が適切に選択されると、モデルのパフォーマンスが向上します。最適化されたモデルでは、手がかり語の感度が向上し、パフォーマンスがより安定しましたが、ある程度の変動もあります。

最適化されたモデルは、プロンプトの変更に関してはより安定しており、元のモデルよりも精度率が高くなっていますが、一貫性と注意力に関しては、人間の判断の難しさの点でパフォーマンスが低下しています。

図 | LLaMA、BLOOM シリーズ、非構造化 GPT モデルのスケーリング分析

研究では、特に単純なタスクの場合、ユーザーの難易度の予想がモデルの出力と一致しない場合、モデルとユーザーの誤った監督が増加し、人間の監督ではこれらの問題を補うことができないことがわかりました。

タスクの難易度に関する人間の予想はモデルの正確さの予測因子として使用できますが、モデルは単純なタスクでも依然としてエラーが発生します。モデルサイズの拡大と最適化は回避行動を減らすだけでなく、エラー率の増加にもつながり、回避行動はタスクの難易度とは関係ありません。モデルが拡張され最適化されたとしても、キューエンジニアリングの必要性は依然として存在し、キューパフォーマンスの改善は難易度とともに単調に増加するわけではありません。

この研究は、大規模モデルの拡張における主要な盲点を明らかにするだけでなく、AI の将来の発展に新たな方向性を示しています。モデルのサイズとタスクの難易度の最適なバランスを見つけることが、知能の進化の真の鍵となる可能性があります。

「結局のところ、LLMは人間の観点から見るとますます信頼性が低くなり、エラーを修正するためのユーザー監視は解決策ではない。なぜなら、さまざまな難易度レベルで誤った結果を識別するためにモデルに頼りすぎる傾向があるからだ」と論文の著者の一人であるワウト・シェラールト氏は述べた。「したがって、特に言語モデルのパフォーマンスを予測し、そのエラーを検出することが非常に重要である重要なアプリケーションでは、汎用人工知能（AGI）の設計と開発に根本的な変更が必要です。」

欠点と展望

この研究は、LLM の手がかり感度と拡張および最適化がパフォーマンスに与える影響を明らかにする上で重要な結果を達成しましたが、まだいくつかの限界があります。

まず、この研究の参加者はほとんどが非専門家であったため、キャリブレーションの難易度の値を解釈する際には注意が必要です。一部のベンチマークデータセットでは、専門家以外では多数の問題を解決できない可能性があります。この調査の目的は、一般の人々が予想する難易度を把握し、すべてのデータセットにわたって比較可能な分析を可能にすることです。

さらに、この研究で使用された「自然な」手がかりはさまざまな情報源から収集されましたが、これらの手がかりが現実世界のシナリオに現れる頻度に関するデータは得られませんでした。

同時に、この研究では、特に外部ツールや複雑な推論技術に依存するモデルのみを取り上げています。これにより、より複雑なシナリオにおける LLM の動的パフォーマンスの理解が制限され、さまざまなモデルの可能性と問題を完全に評価できなくなります。

さらに、モデルファミリのサブセットのみがカバーされます。特に、外部ツールや複雑な推論手法に依存するモデルは含まれません。これにより、より複雑なシナリオにおける LLM の動的パフォーマンスに関する理解が制限され、さまざまなモデルファミリの可能性と問題を完全に評価することが不可能になります。

研究者らは、人間の難易度の予想と出力の監督に関するデータセットをさらに拡大し、これらのより高品質なデータをモデルのトレーニングに導入し、AIを通じて監督者をトレーニングしてモデルの最適化プロセスを改善していくと述べた。

ヘルスケアなどの重要な分野では、モデルは拒否オプションを設計したり、外部の AI スーパーバイザーと組み合わせたりすることで回避能力を向上させることができ、最終的には LLM が人間の期待に沿った信頼性と一貫性を実証できるようになります。

著者: ティアン・シャオティン

<<: なぜ一部の人々は「悪魔の顔」を見るのでしょうか?それは「視覚障害」に関係しているかもしれません...

>>: 「シおじさん」の串焼きブームが子供たちにも影響！小学生は串刺し遊びで腱鞘炎になるのでしょうか？

認知の覆し: AI の大規模モデルは信頼性が低く、大きくなるほど信頼性も低くなるのでしょうか? ！

シトラス・オーランチウムの効能、効果、禁忌

患者の75%は、初めて診断された時点ですでに中期または後期段階にあります。この癌の早期検査は非常に重要です!

1頭のイルカが3つの役割を果たします。 5年間も独りでいたイルカが独り言を言うのはなぜか？丨自然のトランペット

旅行中にこれが簡単に使えるとは思っていませんでした。

空気乾燥ビーフジャーキー

今夏のインフルエンザ、感染しないために「己を知り敵を知る」方法

ポピュラーサイエンスイラストレーション |グリーンエネルギーへの移行を支援するために、炭素排出量が正確に「表示」されるようになりました。

卵麺の作り方

緑茶とは何ですか？

ズッキーニの肉炒め

推薦する

地球の磁気圏から発せられるこれらの奇妙な音は何を意味するのでしょうか?

100 歩離れたところから「ポプラ」の木を撃つ: ターゲットはポプラか柳の木か?

携帯電話の国庫補助がスタート！ @携帯電話を変更する場合は、これらの注意事項を必ずお読みください

アップルサイダービネガーを飲むと体重が減りますか？

脂肪吸引は本当に安全ですか？これを読めば分かるよ！

蜂蜜入り緑茶の効能

肉入り干し豆腐巻き

黄色いライスヌードルは美味しいですか？

キノコは血糖値を下げることができますか？

携帯電話の写真やテキストメッセージは復活しましたが、削除されたデータはなぜ復元できるのでしょうか?

ハイセンスがOLEDテレビを発売、カラーテレビの競争はハイエンド時代へ

私の国の平均的なオフィスワーカーは1日7.5時間寝ます！もっと健康的に眠るにはどうすればいいでしょうか?

ココナッツオイルの効能と機能

新世界ワイン

クコの実龍眼茶の効能