ネイチャーニュース：大規模モデルの嘘をどうやって打ち破るか？

世界保健機関（WHO）の人工知能健康リソースアシスタントSARAHは、サンフランシスコにある存在しないクリニックの偽の名前と住所をリストアップした。

Meta の短命な科学チャットボットである Galactica は、学術論文を捏造し、宇宙のクマの歴史に関する Wikipedia の記事を生成しました。

2月にエア・カナダは、顧客サービスチャットボットが作成した払い戻しポリシーに従うよう命じられた。

昨年、ChatGPTによって捏造された虚偽の司法意見や法的な引用文が満載の裁判所文書を提出したとして、ある弁護士が罰金を科せられた。

…

最近では、大規模言語モデル（LLM）がナンセンスをでっち上げる例を目にすることは珍しくありませんが、問題は、LLMが真面目にナンセンスをでっち上げるのが非常に上手いことと、でっち上げた内容のほとんどが真実のように見え、本物と偽物の区別がつきにくくなっていることです。

場合によっては冗談として笑い飛ばせることもありますが、法律や医学などの専門分野が絡むと、非常に深刻な結果を招く可能性があります。

大規模モデルにおける幻覚をいかに効果的かつ迅速に検出するかは、国内外のテクノロジー企業や研究機関が競い合う注目の研究テーマとなっている。

現在、オックスフォード大学のチームが提案した新しい方法は、大規模なモデルで幻覚を迅速に検出するのに役立ちます。彼らは、LLMが幻覚を生成する度合いを定量化し、生成されたコンテンツが提供されたソースコンテンツにどれだけ忠実であるかを判断して、質問への回答の精度を向上させようとしています。

研究チームによると、この手法は、LLMが作成した個人プロフィールや雑学、一般知識、生命科学などのトピックに対する回答から「作話」を特定できるという。

この研究は、人間の監督や分野固有の知識を必要とせずに LLM 幻覚を検出するための一般的な方法を提供するという点で重要です。これにより、ユーザーは LLM の限界を理解し、さまざまな分野での応用が促進されます。

「意味エントロピーを用いた大規模言語モデルにおける幻覚の検出」と題された関連研究論文が、権威ある科学雑誌「ネイチャー」に掲載されました。

この記事と併せて掲載された News & Views の記事で、RMIT 大学コンピューティング技術学部の学部長 Karin Verspoor 教授は、ある LLM によってタスクが完了し、3 人目の LLM によって評価されることは、「火に火をもって対抗する」ことに等しいと指摘しました。

しかし、彼女はまた、「 LLM ベースの方法を評価するのに LLM を使用するのは循環的であり、偏りがある可能性がある」とも書いています。しかし、著者らは、彼らの方法は、どのような場合に LLM の回答の使用に注意が必要かをユーザーが理解するのに役立つことが期待されており、それはまた、より多くのアプリケーションシナリオで LLM の信頼性を向上できることを意味していると指摘しています。

LLM で幻覚の程度を定量化するにはどうすればよいでしょうか?

まず、大きなモデルの錯覚がどのように生み出されるかを理解しましょう。

LLM は新しいコンテンツを生成するように設計されています。チャットボットにいくつか質問すると、その回答はすべてデータベース内の既成の情報を検索して生成されるわけではなく、多くのデジタル計算を通じて生成される必要もあります。

これらのモデルは、文中の次の単語を予測してテキストを生成します。モデル内には、巨大なスプレッドシートのように、単語間の出現確率を記録する数億の数字があります。これらの値は、モデルのトレーニング中に常に調整され、その予測がインターネット上の膨大な量のテキストの言語パターンと一致するようになります。

したがって、大規模言語モデルは、実際には統計的確率に基づいてテキストを生成する「統計スロットマシン」です。ジョイスティックを動かすと単語が表示されます。

LLM 幻覚を検出するための既存の方法のほとんどは教師あり学習に依存していますが、教師あり学習では大量のラベル付きデータが必要であり、新しい領域に一般化することは困難です。

この研究では、研究チームは、ラベル付けされたデータを必要とせず、複数のデータセットとタスクで優れたパフォーマンスを発揮するセマンティックエントロピー法を使用しました。

意味エントロピーは、言語モデルによって生成されたテキスト内の潜在的な意味の不確実性を測定する方法です。さまざまな文脈における単語や文の意味の変化を考慮して、モデル予測の信頼性を評価します。

この方法は、「幻覚」のサブカテゴリである「作話」を検出できます。作話は不正確で恣意的な内容を指し、LLM に特定の種類の知識が欠けている場合によく発生します。このアプローチでは、言語の微妙な違いと、応答がさまざまな方法で表現され、それによってさまざまな意味を持つ可能性があることを考慮に入れます。

図｜意味エントロピーと虚構コンテンツ検出の簡単な紹介

上の図に示すように、従来のエントロピーベースの不確実性の尺度では、正確な答えを特定するのに限界があります。たとえば、「パリ」、「ここはパリです」、「フランスの首都パリ」はそれぞれ異なる回答として扱われます。しかし、言語タスクに関しては、これらの回答は表現が異なりますが同じ意味を持つため、このアプローチは明らかに適用できません。セマンティックエントロピー法では、エントロピーを計算する前に、同じ意味を持つ回答をクラスター化します。意味エントロピーが低いということは、大規模言語モデルがそのコンテンツの意味について高い確実性を持っていることを意味します。

さらに、意味エントロピー法は、長い段落内の架空のコンテンツを効果的に検出できます。研究チームはまず、生成された長い回答をいくつかの小さな事実単位に分解しました。次に、それぞれの小さな事実に対して、LLM はそれに関連する一連の考えられる質問を生成します。オリジナルの LLM は、これらの質問に対して M 個の潜在的な回答を提供します。次に、研究チームは、元の小さな事実自体も含め、これらの質問に対する回答の意味エントロピーを計算しました。平均意味エントロピーが高いということは、この小さな事実に関連する質問に架空の要素が含まれている可能性があることを示しています。ここで、意味エントロピーは事実 1 をノンフィクションコンテンツとして正常に分類します。これは、生成された回答が、従来のエントロピー手法では見逃される可能性のある、表現が大きく異なるにもかかわらず、一般的に同じ意味を伝えているためです。

研究チームは、主に次の 2 つの点において、意味エントロピーと他の検出方法を比較しました。

1. Q&Aや数学の問題における虚偽の内容の検出

図 |文の長さの生成における架空のコンテンツの検出。

上の図から、セマンティックエントロピーがすべてのベースラインメソッドよりも優れていることがわかります。セマンティックエントロピーは、AUROC メトリックと AURAC メトリックの両方で優れたパフォーマンスを示し、モデルが質問への回答を拒否した場合に LLM エラーをより正確に予測し、精度を向上できることを示しています。

2. 伝記におけるフィクションの検出

図 |段落の長さの伝記における GPT-4 の架空のコンテンツの検出。

上の図に示すように、セマンティックエントロピー推定器の離散バリアントは、AUROC メトリックと AURAC メトリック (y 軸のスコア) の両方でベースラインメソッドよりも優れています。 AUROC と AURAC は両方とも 2 つのベースラインよりも大幅に高くなりました。セマンティックエントロピーは、80% 以上の質問に正確に回答しました。最も虚偽である可能性が高い回答の上位 20% を拒否した場合にのみ、残りの回答に対する P(True) ベースラインの精度が意味エントロピーを超えて向上します。

欠点と展望

研究チームが提案した確率的手法は、意味的等価性を十分に考慮し、幻覚現象の主要なクラス、つまり LLM 知識の欠如によって引き起こされる幻覚をうまく特定します。こうした幻覚は、現在起こっている多くの失敗の根底にあり、人間があらゆる状況や事例を完全に監視することはできないため、モデルがさらに強力になっても存在し続けるでしょう。架空のコンテンツは、特に質疑応答の領域で顕著ですが、他の領域でも見られます。

この研究で使用された意味エントロピー法は特定のドメイン知識に依存する必要がないことは注目に値します。これは、抽象的な要約などのより多くのアプリケーションシナリオで同様の進歩が達成できることを示しています。さらに、このアプローチを、言い換えや反事実シナリオなどの他の入力バリアントに拡張すると、クロスチェックの可能性が広がるだけでなく、議論の形でスケーラブルな監督も可能になります。これは、この方法の幅広い適用性と柔軟性を実証しています。意味エントロピーがエラー検出に成功したことは、LLM の「知らないことを知る」能力が、これまでの研究で明らかになったよりもさらに優れている可能性があることをさらに裏付けています。

しかし、意味エントロピー法は、何もないところから何かを作り出したり、何かを他人に誤って帰属させたりするなど、不十分な LLM 知識によって引き起こされる幻覚を主に対象としています。誤ったトレーニングデータやモデル設計の欠陥によって引き起こされる幻覚など、他の種類の幻覚に対してはあまり効果がない可能性があります。さらに、セマンティッククラスタリングプロセスは自然言語推論ツールに依存しており、その精度もセマンティックエントロピーの推定に影響します。

今後、研究者らは、意味エントロピー法のさらなる応用分野を模索し、他の方法と組み合わせて、LLM の信頼性と信憑性を向上させることを望んでいます。たとえば、セマンティックエントロピー法を敵対的トレーニングや強化学習などの他の手法と組み合わせて、LLM のパフォーマンスをさらに向上させる方法を研究することができます。さらに、意味エントロピー法を他の指標と組み合わせて、LLM の信頼性をより包括的に評価する方法を検討します。

しかし、LLM が確率に基づいている限り、生成されるコンテンツにはある程度のランダム性が存在することを認識する必要があります。 100 個のサイコロを振るとパターンが得られ、もう一度振ると別のパターンが得られます。これらのサイコロが LLM のように重み付けされて特定のパターンがより頻繁に生成されるようになったとしても、毎回まったく同じ結果が得られるとは限りません。たとえ 1,000 回または 10,000 回に 1 回しかエラーが発生しなかったとしても、このテクノロジが毎日何回使用されているかを考えると、エラーの数は非常に多いことになります。これらのモデルが正確であればあるほど、警戒を緩めやすくなります。

大きなモデルの錯覚についてどう思いますか?

参考文献:

https://www.nature.com/articles/s41586-024-07421-0

https://www.technologyreview.com/2023/12/19/1084505/generative-ai-artificial-intelligence-bias-jobs-copyright-misinformation/

<<: 夏に泳ぐときはこの色の水着を着ないでください。本当に危険です!

>>: いびきはよく眠れていることを意味するものではなく、病気の警告を示すものでもありません。軽く考えないでください！