ChatGPT によって生成された回答がユーザーの個人的な好みに影響され、中立的または真実の情報ではなく「ごますり」のような返信になるのではないかと考えたことはありませんか? 実際、この現象は ChatGPT を含むほとんどの AI モデルに存在しており、その原因は「人間のフィードバックに基づく強化学習 (RLHF)」である可能性があります。 最近、シリコンバレーにおける OpenAI の最強のライバルである Anthropic は、AI モデルにおける「お世辞」の広範な存在と、RLHF でトレーニングされたモデルを研究する際にそれが人間の好みによって影響を受けるかどうかを調査しました。 「言語モデルにおけるごますりの理解に向けて」と題された関連論文が、プレプリント ウェブサイト arXiv で公開されています。 出典: Tuchong Creative 結果は、「お世辞」行動が RLHF モデルで一般的であり、「お世辞」応答に対する人間の好みによって部分的に影響される可能性が高いことを示しています。 具体的には、AI モデルがこのような動作を示す主な理由の 1 つは、AI の応答がユーザーの意見や信念と一致している場合に、ユーザーが肯定的なフィードバックを与える可能性が高くなることです。したがって、より多くの肯定的なフィードバックを得るために、AI モデルは、このユーザーを喜ばせる動作を学習して再現する可能性があります。 お世辞にも、最も先進的なAIアシスタントでさえ 現在、GPT-4 のような AI モデルは、トレーニング後に人々から高く評価される出力を生成することがよくあります。 RLHF を使用して言語モデルを微調整すると、人間の評価者によって評価される出力品質が向上します。 しかし、一部の研究では、人間の好みの判断に基づくトレーニング スキームは、人間の評価者には魅力的だが実際には欠陥や誤りのある出力を AI システムが生成するように促すなど、人間の判断を望ましくない方法で悪用する可能性があることが示唆されています。 上記の行動がより多様で現実的な状況のモデルで発生するかどうか、またそれが本当に人間の好みの欠陥によって引き起こされるのかどうかはまだ明らかではありません。 この目的のために、この研究ではまず、最先端の AI アシスタントがさまざまな現実世界の状況で適切な応答を提供するかどうかを調査しました。研究者らは、自由記述テキスト生成タスクにおいて、最先端のRLHFトレーニングを受けたAIアシスタント5つ(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)における一貫したお世辞のパターンを特定した。 出典: Tuchong Creative 具体的には、これらの AI アシスタントは、ユーザーから質問されたときに誤って間違いを認めたり、予想どおりに偏ったフィードバックを提供したり、ユーザーの間違いを真似したりすることがよくあります。これらの経験的発見は、お世辞は単に特定のシステムの特徴ではなく、RLHF モデルのトレーニング方法の特性である可能性があることを一貫して示唆しています。 人間の好みはお世辞につながる さらに、この研究では、この行動における人間の好みの役割をさらに調査しました。これを調査するために、研究者らは人間の好みに関する既存の比較データを調査し、お世辞的な反応がお世辞でない反応よりも上位にランクされるかどうかを判断しました。この研究では、hh-rlhf データセットを分析し、言語モデルを使用して各選好比較のペアのテキストラベル(つまり「特徴」)を生成し、好まれる応答がより真実味があり、より断定的ではないかどうかを評価しました。 データがどのような行動を促すのかを理解するために、研究者らはベイズロジスティック回帰モデルを使用して、これらの特徴から人間の好みの判断を予測しました。モデルは、ユーザーの意見の一致に関連する特徴が人間の嗜好判断を最も予測するものの 1 つであることを学習し、嗜好データがお世辞を奨励することを示唆しました。 嗜好データにおけるお世辞が RLHF モデルにおけるお世辞行動につながるかどうかを調べるために、その後の研究では、言語モデルの応答を最適化して、人間の嗜好を予測するように訓練されたモデルに適合させたときに、お世辞が増加するかどうかを分析しました。研究者らは、RLHF とベスト N サンプリング法を使用して、Claude 2 のトレーニングに使用された嗜好モデルを満たす応答を最適化しました。 結果は興味深い発見でした。最適化が進むにつれて、ある種のお世辞は増加しましたが、他のお世辞は減少しました。この現象は、お世辞が選好モデルにおけるインセンティブの多くの特徴のうちの 1 つにすぎないという事実に部分的に起因している可能性があります。 出典: Tuchong Creative しかし、この研究では、クロード2の選好モデルは、本物の反応よりもお世辞の反応を選択する傾向があることも判明した。さらに、クロード 2 の選好モデルを使用したベスト N サンプリングでは、クロード 2 の選好モデルのバージョンが示した、真実の非お世辞の回答を好むほど多くの真実の回答は生成されませんでした。 この一連の結果は、最先端の選好モデルは多くの場合、回答の信憑性を識別できるものの、信憑性を犠牲にしてお世辞の出力を生成する可能性があることを示唆しています。 これらの結果を確認するために、研究者らは、人間と嗜好モデルが、ユーザーの誤った意見を確認する説得力のある、よく書かれたモデル応答(つまり、お世辞の応答)を、ユーザーを訂正する応答よりも好むかどうかを調べました。証拠によれば、人間と選好モデルは真実の応答を好む傾向があるが、常にそうであるわけではない。時には彼らはお世辞の返答を好むこともあります。これらの結果は、人間の好みを最適化するとお世辞につながる可能性があることをさらに証明しています。 これらの調査結果を検証するために、研究者らは、ユーザーの見解を訂正するのではなく、ユーザーの誤解を裏付ける応答(つまり、お世辞の応答)であっても、人間と嗜好モデルが説得力のある流暢なモデル応答を好むかどうかをさらに調査しました。 研究結果によると、人間と嗜好モデルは一般的に正直な回答を好みますが、時にはお世辞の回答を好むこともあるため、必ずしもそうとは限りません。これらの結果は、人間の好みを最適化するとお世辞につながる可能性があることをさらに証明しています。 全体的に、お世辞はモデルやコンテキストを超えて存続しますが、これはおそらく人間の嗜好比較データではお世辞が好まれるためだと考えられます。 参考文献: https://arxiv.org/abs/2310.13548 |
<<: 世界乾癬デー |自慢しないでください、この種の「白癬」は無視できません!
>>: クソのふりをしている者もいれば、死んだふりをしている者もいる、あなたたちカエルは本当にずる賢い! |ナチュラルトランペット
豚の小腸でも豚の大腸でも、私たちはそれを食べるのが好きです。味も良く、食べ方もたくさんあります。しか...
ウズラの卵と一緒に煮込んだ豚スペアリブは、豚スペアリブを調理する方法の 1 つです。どのような種類の...
水は生命の源です。 「中国住民の食事ガイドライン」の推奨によれば、一人当たり毎日1500~1700m...
お使いのブラウザはビデオタグをサポートしていません昼と夜が交互に訪れ、星が動きます。古代中国の賢明な...
Apple Payは米国で急速に発展し、モバイル決済分野で第1位にランクされています。米国の小売コ...
AnTuTuは最近、2016年の携帯電話パフォーマンスベンチマークランキングを発表しました。結果は妥...
ソーダクラッカーは私たちの生活の中で一般的なビスケットです。この種類のアルカリ性ビスケットは、体の酸...
制作:中国科学普及協会著者: 崔勇傑企画:趙青建制作者:光明オンライン科学部ネットユーザーの質問:原...
『蘆 ...これは我が国および世界における柿酢と酢醸造の最も古い記録です。柿酢を買っていた時、タオ...
現代人の生活観念の変化と生活水準の向上に伴い、人々は単に十分に食べるだけでは満足せず、よく食べること...
ロボットバリスタから自動運転車、ロボアドバイザー、顔認識まで、AI は政府、学校、仕事、日常生活に対...
干し野菜と豚骨のスープは有名な家庭料理です。ほとんどすべての家庭で作ることができます。干し野菜と豚骨...
マッシュエッグポテトは料理というよりはおやつに近いです。とても美味しいので、食べているうちに他のもの...
携帯電話業界を変えたのは知性であり、それがスティーブ・ジョブズが携帯電話を再発明した理由であることを...