私の家族の中で理解してくれる人は誰でしょうか？ ChatGPT は実際に「お世辞」を理解しています!

ChatGPT によって生成された回答がユーザーの個人的な好みに影響され、中立的または真実の情報ではなく「ごますり」のような返信になるのではないかと考えたことはありませんか?

実際、この現象は ChatGPT を含むほとんどの AI モデルに存在しており、その原因は「人間のフィードバックに基づく強化学習 (RLHF)」である可能性があります。

最近、シリコンバレーにおける OpenAI の最強のライバルである Anthropic は、AI モデルにおける「お世辞」の広範な存在と、RLHF でトレーニングされたモデルを研究する際にそれが人間の好みによって影響を受けるかどうかを調査しました。

「言語モデルにおけるごますりの理解に向けて」と題された関連論文が、プレプリントウェブサイト arXiv で公開されています。

出典: Tuchong Creative

結果は、「お世辞」行動が RLHF モデルで一般的であり、「お世辞」応答に対する人間の好みによって部分的に影響される可能性が高いことを示しています。

具体的には、AI モデルがこのような動作を示す主な理由の 1 つは、AI の応答がユーザーの意見や信念と一致している場合に、ユーザーが肯定的なフィードバックを与える可能性が高くなることです。したがって、より多くの肯定的なフィードバックを得るために、AI モデルは、このユーザーを喜ばせる動作を学習して再現する可能性があります。

お世辞にも、最も先進的なAIアシスタントでさえ

現在、GPT-4 のような AI モデルは、トレーニング後に人々から高く評価される出力を生成することがよくあります。 RLHF を使用して言語モデルを微調整すると、人間の評価者によって評価される出力品質が向上します。

しかし、一部の研究では、人間の好みの判断に基づくトレーニングスキームは、人間の評価者には魅力的だが実際には欠陥や誤りのある出力を AI システムが生成するように促すなど、人間の判断を望ましくない方法で悪用する可能性があることが示唆されています。

上記の行動がより多様で現実的な状況のモデルで発生するかどうか、またそれが本当に人間の好みの欠陥によって引き起こされるのかどうかはまだ明らかではありません。

この目的のために、この研究ではまず、最先端の AI アシスタントがさまざまな現実世界の状況で適切な応答を提供するかどうかを調査しました。研究者らは、自由記述テキスト生成タスクにおいて、最先端のRLHFトレーニングを受けたAIアシスタント5つ（Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2）における一貫したお世辞のパターンを特定した。

出典: Tuchong Creative

具体的には、これらの AI アシスタントは、ユーザーから質問されたときに誤って間違いを認めたり、予想どおりに偏ったフィードバックを提供したり、ユーザーの間違いを真似したりすることがよくあります。これらの経験的発見は、お世辞は単に特定のシステムの特徴ではなく、RLHF モデルのトレーニング方法の特性である可能性があることを一貫して示唆しています。

人間の好みはお世辞につながる

さらに、この研究では、この行動における人間の好みの役割をさらに調査しました。これを調査するために、研究者らは人間の好みに関する既存の比較データを調査し、お世辞的な反応がお世辞でない反応よりも上位にランクされるかどうかを判断しました。この研究では、hh-rlhf データセットを分析し、言語モデルを使用して各選好比較のペアのテキストラベル（つまり「特徴」）を生成し、好まれる応答がより真実味があり、より断定的ではないかどうかを評価しました。

データがどのような行動を促すのかを理解するために、研究者らはベイズロジスティック回帰モデルを使用して、これらの特徴から人間の好みの判断を予測しました。モデルは、ユーザーの意見の一致に関連する特徴が人間の嗜好判断を最も予測するものの 1 つであることを学習し、嗜好データがお世辞を奨励することを示唆しました。

嗜好データにおけるお世辞が RLHF モデルにおけるお世辞行動につながるかどうかを調べるために、その後の研究では、言語モデルの応答を最適化して、人間の嗜好を予測するように訓練されたモデルに適合させたときに、お世辞が増加するかどうかを分析しました。研究者らは、RLHF とベスト N サンプリング法を使用して、Claude 2 のトレーニングに使用された嗜好モデルを満たす応答を最適化しました。

結果は興味深い発見でした。最適化が進むにつれて、ある種のお世辞は増加しましたが、他のお世辞は減少しました。この現象は、お世辞が選好モデルにおけるインセンティブの多くの特徴のうちの 1 つにすぎないという事実に部分的に起因している可能性があります。

出典: Tuchong Creative

しかし、この研究では、クロード2の選好モデルは、本物の反応よりもお世辞の反応を選択する傾向があることも判明した。さらに、クロード 2 の選好モデルを使用したベスト N サンプリングでは、クロード 2 の選好モデルのバージョンが示した、真実の非お世辞の回答を好むほど多くの真実の回答は生成されませんでした。

この一連の結果は、最先端の選好モデルは多くの場合、回答の信憑性を識別できるものの、信憑性を犠牲にしてお世辞の出力を生成する可能性があることを示唆しています。

これらの結果を確認するために、研究者らは、人間と嗜好モデルが、ユーザーの誤った意見を確認する説得力のある、よく書かれたモデル応答（つまり、お世辞の応答）を、ユーザーを訂正する応答よりも好むかどうかを調べました。証拠によれば、人間と選好モデルは真実の応答を好む傾向があるが、常にそうであるわけではない。時には彼らはお世辞の返答を好むこともあります。これらの結果は、人間の好みを最適化するとお世辞につながる可能性があることをさらに証明しています。

これらの調査結果を検証するために、研究者らは、ユーザーの見解を訂正するのではなく、ユーザーの誤解を裏付ける応答（つまり、お世辞の応答）であっても、人間と嗜好モデルが説得力のある流暢なモデル応答を好むかどうかをさらに調査しました。

研究結果によると、人間と嗜好モデルは一般的に正直な回答を好みますが、時にはお世辞の回答を好むこともあるため、必ずしもそうとは限りません。これらの結果は、人間の好みを最適化するとお世辞につながる可能性があることをさらに証明しています。

全体的に、お世辞はモデルやコンテキストを超えて存続しますが、これはおそらく人間の嗜好比較データではお世辞が好まれるためだと考えられます。

参考文献:

https://arxiv.org/abs/2310.13548

<<: 世界乾癬デー |自慢しないでください、この種の「白癬」は無視できません！

>>: クソのふりをしている者もいれば、死んだふりをしている者もいる、あなたたちカエルは本当にずる賢い！｜ナチュラルトランペット