ChatGPT によって生成された回答がユーザーの個人的な好みに影響され、中立的または真実の情報ではなく「ごますり」のような返信になるのではないかと考えたことはありませんか? 実際、この現象は ChatGPT を含むほとんどの AI モデルに存在しており、その原因は「人間のフィードバックに基づく強化学習 (RLHF)」である可能性があります。 最近、シリコンバレーにおける OpenAI の最強のライバルである Anthropic は、AI モデルにおける「お世辞」の広範な存在と、RLHF でトレーニングされたモデルを研究する際にそれが人間の好みによって影響を受けるかどうかを調査しました。 「言語モデルにおけるごますりの理解に向けて」と題された関連論文が、プレプリント ウェブサイト arXiv で公開されています。 出典: Tuchong Creative 結果は、「お世辞」行動が RLHF モデルで一般的であり、「お世辞」応答に対する人間の好みによって部分的に影響される可能性が高いことを示しています。 具体的には、AI モデルがこのような動作を示す主な理由の 1 つは、AI の応答がユーザーの意見や信念と一致している場合に、ユーザーが肯定的なフィードバックを与える可能性が高くなることです。したがって、より多くの肯定的なフィードバックを得るために、AI モデルは、このユーザーを喜ばせる動作を学習して再現する可能性があります。 お世辞にも、最も先進的なAIアシスタントでさえ 現在、GPT-4 のような AI モデルは、トレーニング後に人々から高く評価される出力を生成することがよくあります。 RLHF を使用して言語モデルを微調整すると、人間の評価者によって評価される出力品質が向上します。 しかし、一部の研究では、人間の好みの判断に基づくトレーニング スキームは、人間の評価者には魅力的だが実際には欠陥や誤りのある出力を AI システムが生成するように促すなど、人間の判断を望ましくない方法で悪用する可能性があることが示唆されています。 上記の行動がより多様で現実的な状況のモデルで発生するかどうか、またそれが本当に人間の好みの欠陥によって引き起こされるのかどうかはまだ明らかではありません。 この目的のために、この研究ではまず、最先端の AI アシスタントがさまざまな現実世界の状況で適切な応答を提供するかどうかを調査しました。研究者らは、自由記述テキスト生成タスクにおいて、最先端のRLHFトレーニングを受けたAIアシスタント5つ(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)における一貫したお世辞のパターンを特定した。 出典: Tuchong Creative 具体的には、これらの AI アシスタントは、ユーザーから質問されたときに誤って間違いを認めたり、予想どおりに偏ったフィードバックを提供したり、ユーザーの間違いを真似したりすることがよくあります。これらの経験的発見は、お世辞は単に特定のシステムの特徴ではなく、RLHF モデルのトレーニング方法の特性である可能性があることを一貫して示唆しています。 人間の好みはお世辞につながる さらに、この研究では、この行動における人間の好みの役割をさらに調査しました。これを調査するために、研究者らは人間の好みに関する既存の比較データを調査し、お世辞的な反応がお世辞でない反応よりも上位にランクされるかどうかを判断しました。この研究では、hh-rlhf データセットを分析し、言語モデルを使用して各選好比較のペアのテキストラベル(つまり「特徴」)を生成し、好まれる応答がより真実味があり、より断定的ではないかどうかを評価しました。 データがどのような行動を促すのかを理解するために、研究者らはベイズロジスティック回帰モデルを使用して、これらの特徴から人間の好みの判断を予測しました。モデルは、ユーザーの意見の一致に関連する特徴が人間の嗜好判断を最も予測するものの 1 つであることを学習し、嗜好データがお世辞を奨励することを示唆しました。 嗜好データにおけるお世辞が RLHF モデルにおけるお世辞行動につながるかどうかを調べるために、その後の研究では、言語モデルの応答を最適化して、人間の嗜好を予測するように訓練されたモデルに適合させたときに、お世辞が増加するかどうかを分析しました。研究者らは、RLHF とベスト N サンプリング法を使用して、Claude 2 のトレーニングに使用された嗜好モデルを満たす応答を最適化しました。 結果は興味深い発見でした。最適化が進むにつれて、ある種のお世辞は増加しましたが、他のお世辞は減少しました。この現象は、お世辞が選好モデルにおけるインセンティブの多くの特徴のうちの 1 つにすぎないという事実に部分的に起因している可能性があります。 出典: Tuchong Creative しかし、この研究では、クロード2の選好モデルは、本物の反応よりもお世辞の反応を選択する傾向があることも判明した。さらに、クロード 2 の選好モデルを使用したベスト N サンプリングでは、クロード 2 の選好モデルのバージョンが示した、真実の非お世辞の回答を好むほど多くの真実の回答は生成されませんでした。 この一連の結果は、最先端の選好モデルは多くの場合、回答の信憑性を識別できるものの、信憑性を犠牲にしてお世辞の出力を生成する可能性があることを示唆しています。 これらの結果を確認するために、研究者らは、人間と嗜好モデルが、ユーザーの誤った意見を確認する説得力のある、よく書かれたモデル応答(つまり、お世辞の応答)を、ユーザーを訂正する応答よりも好むかどうかを調べました。証拠によれば、人間と選好モデルは真実の応答を好む傾向があるが、常にそうであるわけではない。時には彼らはお世辞の返答を好むこともあります。これらの結果は、人間の好みを最適化するとお世辞につながる可能性があることをさらに証明しています。 これらの調査結果を検証するために、研究者らは、ユーザーの見解を訂正するのではなく、ユーザーの誤解を裏付ける応答(つまり、お世辞の応答)であっても、人間と嗜好モデルが説得力のある流暢なモデル応答を好むかどうかをさらに調査しました。 研究結果によると、人間と嗜好モデルは一般的に正直な回答を好みますが、時にはお世辞の回答を好むこともあるため、必ずしもそうとは限りません。これらの結果は、人間の好みを最適化するとお世辞につながる可能性があることをさらに証明しています。 全体的に、お世辞はモデルやコンテキストを超えて存続しますが、これはおそらく人間の嗜好比較データではお世辞が好まれるためだと考えられます。 参考文献: https://arxiv.org/abs/2310.13548 |
<<: 世界乾癬デー |自慢しないでください、この種の「白癬」は無視できません!
>>: クソのふりをしている者もいれば、死んだふりをしている者もいる、あなたたちカエルは本当にずる賢い! |ナチュラルトランペット
今日は、よくあるシナリオについてお話します。食後に血糖値が急に上がったらどうすればいいのでしょうか?...
毎年秋から冬にかけて、遼寧省盤錦市では巨大な「レッドカーペット」が必ず見られます。その形は錦のようで...
携帯電話や自動車への越境進出が疑問視された後、董明珠氏はグリーを率いてスマート機器分野への進出を加速...
ナマコって聞いたことありますか?ナマコは俗称です。正式名称は Spinella monocycla ...
お茶は我が国で最も古くから存在しています。歴史上いつ登場したのかは分かりませんが、長い歴史があります...
多くの栄養士の呼びかけにより、今では誰もが全粒穀物をもっと食べるべきだということを知っています。なぜ...
甘くておいしいエビは、今日では多くの家庭やレストランの食卓で非常に一般的な珍味となっています。新鮮な...
7月18日、吉利が間接的に99%の株式を保有する子会社の浙江吉潤は、杭州小件と大江東の買収契約を締...
写真の細部を詳しく観察したいときは、写真を拡大します。ただし、拡大率には限界があります。この制限を超...
オレガノといえば、多くの人が困惑するに違いありません。広大な土地と豊富な資源を持つ中国には、人々が知...
多くの人は、日常生活で豆食品を好んで摂取するかもしれません。実際、これは正しいことです。豆食品にはタ...
人々の生活、仕事、勉強のプレッシャーが増すにつれて、目はますます疲れ、視力が低下します。近視はますま...
監査専門家: Yin Tielun北京大学第三病院空港分院神経科副主任医師皆さんの多くは、重要な試験...
チョコレートは私たちがよく食べる食べ物です。チョコレートは高級栄養食品です。忙しい一日を過ごしてお腹...
鉄芋は私たちの日常生活でよく使われる食品です。現代の薬理学的研究により、鉄芋には滋養強壮、インターフ...