人間によるフィードバックによる強化学習 (RLHF) に匹敵する技術が登場しました。 最近、 Google Research の研究者は、AI フィードバックによる強化学習 (RLAIF) を提案しました。これは、人間レベルのパフォーマンスを生み出し、人間によるフィードバックによる強化学習 (RLHF) のスケーラビリティの制限に対する潜在的な解決策を提供できる手法です。 「RLAIF: 人間のフィードバックから AI フィードバックによる強化学習のスケーリング」と題された関連論文が、プレプリント ウェブサイト arXiv で公開されています。 RLHF: 不正確または有害な行動につながる RLHF は、人間のガイダンスを使用して、事前トレーニング済みの大規模言語モデル (LLM) を微調整する方法です。これは、フィードバック収集、報酬モデリング、ポリシー最適化という 3 つの相互に関連するプロセスで構成されます。 その中で、フィードバック収集は、LLM 出力の人間による評価を収集する役割を担っています。これらのフィードバック データは、教師あり学習を通じて報酬モデルをトレーニングするために使用されます。報酬モデルは人間の好みを模倣するように設計されています。その後、ポリシー最適化プロセスは強化学習ループを使用して LLM を最適化し、報酬モデルから好意的な評価を受ける出力を生成します。これらの手順は反復的に実行することも、同時に実行することもできます。 従来の RL 方法と比較した RLHF の主な利点は、人間の意図とのより良い一致、将来のフィードバックを条件とした計画、さまざまな種類のフィードバックからの流動的な学習、および必要に応じたフィードバックの照合であり、これらはすべて、真にインテリジェントなエージェントを作成するために不可欠です。 さらに、RLHF により、機械は人間の行動を単純に模倣するのではなく、人間の価値観を抽象化して学習できるようになり、エージェントの適応性、解釈性、意思決定の信頼性が向上します。 現在、 RLHFはOpenAIのChatGPT、DeepMindのSparrow、AnthropicのClaudeなど、ビジネス、教育、医療、エンターテイメントなどの分野で広く活用されています。 ただし、RLHF ベースの AI モデルは、不正確な動作や有害な動作をする可能性があります。さらに、フィードバックとして人間の好みのデータを収集するにはコストがかかり、人間の注釈者間の意見の不一致によってトレーニング データに矛盾が生じ、真実が曖昧な場合に混乱が生じる可能性があります (例: 道徳的ジレンマ)。さらに、RLHF における人間によるフィードバックは、提供される情報が限られている優先順位の形式に制限されることが多く、適用範囲が制限されます。 RLAIF 対 RLHF この研究では、 RLAIF が RLHF 問題を解決する可能性を示しました。 研究者らは、一般的な LLM モデルを使用して候補ペア間の好みを注釈付けしました。このモデルは、一般的な目的のために事前トレーニングまたは微調整されていますが、特定の下流タスクのために微調整されていません。 テキストと 2 つの要約候補が与えられた場合、LLM はどちらの要約が優れているかを評価するように求められます。入力構造は次のとおりです。 1. はじめに – 手元のタスクを紹介し説明する手順。 2. 少数の例 - テキストの例、要約のペア、思考の連鎖(CoT)の論理的根拠、および好みの判断。 3. 注釈を付けるサンプル - 注釈を付けるテキストと要約のペア。 4. End – LLM の終了を示すために使用される終了文字列。 LLM が入力を受け取った後、研究者はトークン「1」と「2」を生成する対数確率を取得し、ソフトマックスを計算して好みの分布を取得しました。 彼らは2種類の前置き実験を行った。 「Base」実験では、「どちらの要約の方が優れているか」と簡単に質問しましたが、「OpenAI」実験では、OpenAI TLDR プロジェクトの人間の嗜好注釈者によって生成された評価指示を模倣しました。これらのトークンには、強力な要約を構築するために必要な詳細情報が含まれています。 さらに、さまざまなトピックをカバーする手動で選択された例をいくつか追加することで、より多くのコンテキストを提供するためのコンテキスト学習実験を実施しました。 LLM が好みをマークした後、研究者は好みを予測する報酬モデル (RM) をトレーニングしました。続いて、AI ラベルのアライメント、ペアワイズ精度、勝率を評価するために 3 つの指標が使用されました。 実験結果は、RLAIF が人間の注釈者に頼ることなく RLHF の実行可能な代替手段として機能できることを示しています。人間による評価では、RLAIF はベースラインの教師あり微調整戦略よりも 71% の人気を達成し、RLHF はベースラインの教師あり微調整モデル戦略よりも 73% の人気を達成しました。 さらに、この研究では、人間の好みの観点からRLAIFとRLHFの勝率を直接比較し、人間の評価では両者の人気は同じであることが示されました。この研究では、RLAIF と RLHF の抄録を手動で書かれた参考文献の抄録と比較しました。 RLAIF アブストラクトは 79% のケースで参照アブストラクトを上回り、RLHF は 80% のケースで参照アブストラクトを上回りました。 しかし、この研究は RLAIF の可能性を強調していますが、いくつかの制限もあります。 まず、この研究は要約タスクにのみ焦点を当てており、他のタスクに対する一般化のパフォーマンスは不明です。第二に、この研究では、手動注釈と比較したLLM推論の費用対効果を十分に評価していない。さらに、RLHF と RLAIF を組み合わせることで単一の方法を超えることができるかどうか、報酬を割り当てるために LLM を直接使用することがどれだけ効果的か、AI ラベルのアライメントを改善することが最終戦略の改善につながるかどうか、ポリシー モデルと同じサイズの LLM アノテーターを使用することで戦略をさらに改善できるかどうかなど、多くの興味深い未解決の問題があります。 この研究がRLAIF分野における詳細な研究のための強固な基盤を築いたことは否定できないことであり、今後この分野でさらに優れた成果が期待されます。 参考リンク: https://arxiv.org/abs/2309.00267 https://bdtechtalks.com/2023/09/04/rlhf-limitations/ 著者: ヤン・イーミ 編集者: 学術 |
<<: 2元のビタミンCと数百元のビタミンCではどちらが良いでしょうか?
>>: UIUC Li Bo 氏へのインタビュー |使いやすさから信頼性まで、AIに関する学術界の究極の考え
現在、市場には胸を大きくする商品がどんどん増えています。女性の友人が体型を気にし始めると、多くの企業...
宇宙飛行士は宇宙に閉じ込められている? !彼らを乗せた宇宙船は帰還した。どうしたの? CCTVニュー...
以前は、臨床現場で便秘の患者さんのほとんどは中高年でしたが、現在では便秘の患者さんのほとんどは若年層...
辛口鴨頭鍋は多くの人に好まれています。この種の珍味は栄養価が高いです。しかし、適度に食べる必要があり...
最近の研究によると、1日にトマトを1個食べると、家族を心臓病やガンから守ることができるそうです。タマ...
米国半導体工業会(SIA)は、2023年の米国半導体産業の概要をまとめた「2023 SIA ファクト...
最近、ハルビン工業大学(深圳)材料科学工学部の張倩教授と茅軍教授のチームが塑性熱電材料の分野で新たな...
日常生活で誰もが軟骨を食べるべきです。軟骨、特に豚の軟骨を食べるのが好きな人もたくさんいます。普段、...
テスラの新型車モデル3の生産能力問題がついにテスラの他の製品にも影響を及ぼした。ちょうど昨日、テスラ...
自家製ワインを好む人は多くいます。しかし、自分で醸造した自家製ワインも非常に美味しく、非常に衛生的な...
生活水準の継続的な向上に伴い、人々の体も大きな変化を遂げています。食事の節制がないため、体に多くの問...
現代生活では、松の実を食べるのが好きな人がたくさんいます。松の実には貴重な栄養素が含まれているからで...
キンモクセイは美味しい料理ですが、多くのグルメは、キンモクセイが何の料理に属するのかを最初は知りませ...
ブルームバーグによると、トヨタ自動車はハイブリッド車エンジン技術の詳細を中国と共有する準備ができてお...