ChatGPT のコアテクノロジーは置き換えられるのでしょうか?

人間によるフィードバックによる強化学習 (RLHF) に匹敵する技術が登場しました。

最近、 Google Research の研究者は、AI フィードバックによる強化学習 (RLAIF) を提案しました。これは、人間レベルのパフォーマンスを生み出し、人間によるフィードバックによる強化学習 (RLHF) のスケーラビリティの制限に対する潜在的な解決策を提供できる手法です。

「RLAIF: 人間のフィードバックから AI フィードバックによる強化学習のスケーリング」と題された関連論文が、プレプリントウェブサイト arXiv で公開されています。

RLHF: 不正確または有害な行動につながる

RLHF は、人間のガイダンスを使用して、事前トレーニング済みの大規模言語モデル (LLM) を微調整する方法です。これは、フィードバック収集、報酬モデリング、ポリシー最適化という 3 つの相互に関連するプロセスで構成されます。

その中で、フィードバック収集は、LLM 出力の人間による評価を収集する役割を担っています。これらのフィードバックデータは、教師あり学習を通じて報酬モデルをトレーニングするために使用されます。報酬モデルは人間の好みを模倣するように設計されています。その後、ポリシー最適化プロセスは強化学習ループを使用して LLM を最適化し、報酬モデルから好意的な評価を受ける出力を生成します。これらの手順は反復的に実行することも、同時に実行することもできます。

従来の RL 方法と比較した RLHF の主な利点は、人間の意図とのより良い一致、将来のフィードバックを条件とした計画、さまざまな種類のフィードバックからの流動的な学習、および必要に応じたフィードバックの照合であり、これらはすべて、真にインテリジェントなエージェントを作成するために不可欠です。

さらに、RLHF により、機械は人間の行動を単純に模倣するのではなく、人間の価値観を抽象化して学習できるようになり、エージェントの適応性、解釈性、意思決定の信頼性が向上します。

現在、 RLHFはOpenAIのChatGPT、DeepMindのSparrow、AnthropicのClaudeなど、ビジネス、教育、医療、エンターテイメントなどの分野で広く活用されています。

ただし、RLHF ベースの AI モデルは、不正確な動作や有害な動作をする可能性があります。さらに、フィードバックとして人間の好みのデータを収集するにはコストがかかり、人間の注釈者間の意見の不一致によってトレーニングデータに矛盾が生じ、真実が曖昧な場合に混乱が生じる可能性があります (例: 道徳的ジレンマ)。さらに、RLHF における人間によるフィードバックは、提供される情報が限られている優先順位の形式に制限されることが多く、適用範囲が制限されます。

RLAIF 対 RLHF

この研究では、 RLAIF が RLHF 問題を解決する可能性を示しました。

研究者らは、一般的な LLM モデルを使用して候補ペア間の好みを注釈付けしました。このモデルは、一般的な目的のために事前トレーニングまたは微調整されていますが、特定の下流タスクのために微調整されていません。

テキストと 2 つの要約候補が与えられた場合、LLM はどちらの要約が優れているかを評価するように求められます。入力構造は次のとおりです。

1. はじめに – 手元のタスクを紹介し説明する手順。

2. 少数の例 - テキストの例、要約のペア、思考の連鎖（CoT）の論理的根拠、および好みの判断。

3. 注釈を付けるサンプル - 注釈を付けるテキストと要約のペア。

4. End – LLM の終了を示すために使用される終了文字列。

LLM が入力を受け取った後、研究者はトークン「1」と「2」を生成する対数確率を取得し、ソフトマックスを計算して好みの分布を取得しました。

彼らは2種類の前置き実験を行った。「Base」実験では、「どちらの要約の方が優れているか」と簡単に質問しましたが、「OpenAI」実験では、OpenAI TLDR プロジェクトの人間の嗜好注釈者によって生成された評価指示を模倣しました。これらのトークンには、強力な要約を構築するために必要な詳細情報が含まれています。

さらに、さまざまなトピックをカバーする手動で選択された例をいくつか追加することで、より多くのコンテキストを提供するためのコンテキスト学習実験を実施しました。

LLM が好みをマークした後、研究者は好みを予測する報酬モデル (RM) をトレーニングしました。続いて、AI ラベルのアライメント、ペアワイズ精度、勝率を評価するために 3 つの指標が使用されました。

実験結果は、RLAIF が人間の注釈者に頼ることなく RLHF の実行可能な代替手段として機能できることを示しています。人間による評価では、RLAIF はベースラインの教師あり微調整戦略よりも 71% の人気を達成し、RLHF はベースラインの教師あり微調整モデル戦略よりも 73% の人気を達成しました。

さらに、この研究では、人間の好みの観点からRLAIFとRLHFの勝率を直接比較し、人間の評価では両者の人気は同じであることが示されました。この研究では、RLAIF と RLHF の抄録を手動で書かれた参考文献の抄録と比較しました。 RLAIF アブストラクトは 79% のケースで参照アブストラクトを上回り、RLHF は 80% のケースで参照アブストラクトを上回りました。

しかし、この研究は RLAIF の可能性を強調していますが、いくつかの制限もあります。

まず、この研究は要約タスクにのみ焦点を当てており、他のタスクに対する一般化のパフォーマンスは不明です。第二に、この研究では、手動注釈と比較したLLM推論の費用対効果を十分に評価していない。さらに、RLHF と RLAIF を組み合わせることで単一の方法を超えることができるかどうか、報酬を割り当てるために LLM を直接使用することがどれだけ効果的か、AI ラベルのアライメントを改善することが最終戦略の改善につながるかどうか、ポリシーモデルと同じサイズの LLM アノテーターを使用することで戦略をさらに改善できるかどうかなど、多くの興味深い未解決の問題があります。

この研究がRLAIF分野における詳細な研究のための強固な基盤を築いたことは否定できないことであり、今後この分野でさらに優れた成果が期待されます。

参考リンク:

https://arxiv.org/abs/2309.00267

https://bdtechtalks.com/2023/09/04/rlhf-limitations/

著者: ヤン・イーミ

編集者: 学術

<<: 2元のビタミンCと数百元のビタミンCではどちらが良いでしょうか？

>>: UIUC Li Bo 氏へのインタビュー |使いやすさから信頼性まで、AIに関する学術界の究極の考え