人間によるフィードバックによる強化学習 (RLHF) に匹敵する技術が登場しました。 最近、 Google Research の研究者は、AI フィードバックによる強化学習 (RLAIF) を提案しました。これは、人間レベルのパフォーマンスを生み出し、人間によるフィードバックによる強化学習 (RLHF) のスケーラビリティの制限に対する潜在的な解決策を提供できる手法です。 「RLAIF: 人間のフィードバックから AI フィードバックによる強化学習のスケーリング」と題された関連論文が、プレプリント ウェブサイト arXiv で公開されています。 RLHF: 不正確または有害な行動につながる RLHF は、人間のガイダンスを使用して、事前トレーニング済みの大規模言語モデル (LLM) を微調整する方法です。これは、フィードバック収集、報酬モデリング、ポリシー最適化という 3 つの相互に関連するプロセスで構成されます。 その中で、フィードバック収集は、LLM 出力の人間による評価を収集する役割を担っています。これらのフィードバック データは、教師あり学習を通じて報酬モデルをトレーニングするために使用されます。報酬モデルは人間の好みを模倣するように設計されています。その後、ポリシー最適化プロセスは強化学習ループを使用して LLM を最適化し、報酬モデルから好意的な評価を受ける出力を生成します。これらの手順は反復的に実行することも、同時に実行することもできます。 従来の RL 方法と比較した RLHF の主な利点は、人間の意図とのより良い一致、将来のフィードバックを条件とした計画、さまざまな種類のフィードバックからの流動的な学習、および必要に応じたフィードバックの照合であり、これらはすべて、真にインテリジェントなエージェントを作成するために不可欠です。 さらに、RLHF により、機械は人間の行動を単純に模倣するのではなく、人間の価値観を抽象化して学習できるようになり、エージェントの適応性、解釈性、意思決定の信頼性が向上します。 現在、 RLHFはOpenAIのChatGPT、DeepMindのSparrow、AnthropicのClaudeなど、ビジネス、教育、医療、エンターテイメントなどの分野で広く活用されています。 ただし、RLHF ベースの AI モデルは、不正確な動作や有害な動作をする可能性があります。さらに、フィードバックとして人間の好みのデータを収集するにはコストがかかり、人間の注釈者間の意見の不一致によってトレーニング データに矛盾が生じ、真実が曖昧な場合に混乱が生じる可能性があります (例: 道徳的ジレンマ)。さらに、RLHF における人間によるフィードバックは、提供される情報が限られている優先順位の形式に制限されることが多く、適用範囲が制限されます。 RLAIF 対 RLHF この研究では、 RLAIF が RLHF 問題を解決する可能性を示しました。 研究者らは、一般的な LLM モデルを使用して候補ペア間の好みを注釈付けしました。このモデルは、一般的な目的のために事前トレーニングまたは微調整されていますが、特定の下流タスクのために微調整されていません。 テキストと 2 つの要約候補が与えられた場合、LLM はどちらの要約が優れているかを評価するように求められます。入力構造は次のとおりです。 1. はじめに – 手元のタスクを紹介し説明する手順。 2. 少数の例 - テキストの例、要約のペア、思考の連鎖(CoT)の論理的根拠、および好みの判断。 3. 注釈を付けるサンプル - 注釈を付けるテキストと要約のペア。 4. End – LLM の終了を示すために使用される終了文字列。 LLM が入力を受け取った後、研究者はトークン「1」と「2」を生成する対数確率を取得し、ソフトマックスを計算して好みの分布を取得しました。 彼らは2種類の前置き実験を行った。 「Base」実験では、「どちらの要約の方が優れているか」と簡単に質問しましたが、「OpenAI」実験では、OpenAI TLDR プロジェクトの人間の嗜好注釈者によって生成された評価指示を模倣しました。これらのトークンには、強力な要約を構築するために必要な詳細情報が含まれています。 さらに、さまざまなトピックをカバーする手動で選択された例をいくつか追加することで、より多くのコンテキストを提供するためのコンテキスト学習実験を実施しました。 LLM が好みをマークした後、研究者は好みを予測する報酬モデル (RM) をトレーニングしました。続いて、AI ラベルのアライメント、ペアワイズ精度、勝率を評価するために 3 つの指標が使用されました。 実験結果は、RLAIF が人間の注釈者に頼ることなく RLHF の実行可能な代替手段として機能できることを示しています。人間による評価では、RLAIF はベースラインの教師あり微調整戦略よりも 71% の人気を達成し、RLHF はベースラインの教師あり微調整モデル戦略よりも 73% の人気を達成しました。 さらに、この研究では、人間の好みの観点からRLAIFとRLHFの勝率を直接比較し、人間の評価では両者の人気は同じであることが示されました。この研究では、RLAIF と RLHF の抄録を手動で書かれた参考文献の抄録と比較しました。 RLAIF アブストラクトは 79% のケースで参照アブストラクトを上回り、RLHF は 80% のケースで参照アブストラクトを上回りました。 しかし、この研究は RLAIF の可能性を強調していますが、いくつかの制限もあります。 まず、この研究は要約タスクにのみ焦点を当てており、他のタスクに対する一般化のパフォーマンスは不明です。第二に、この研究では、手動注釈と比較したLLM推論の費用対効果を十分に評価していない。さらに、RLHF と RLAIF を組み合わせることで単一の方法を超えることができるかどうか、報酬を割り当てるために LLM を直接使用することがどれだけ効果的か、AI ラベルのアライメントを改善することが最終戦略の改善につながるかどうか、ポリシー モデルと同じサイズの LLM アノテーターを使用することで戦略をさらに改善できるかどうかなど、多くの興味深い未解決の問題があります。 この研究がRLAIF分野における詳細な研究のための強固な基盤を築いたことは否定できないことであり、今後この分野でさらに優れた成果が期待されます。 参考リンク: https://arxiv.org/abs/2309.00267 https://bdtechtalks.com/2023/09/04/rlhf-limitations/ 著者: ヤン・イーミ 編集者: 学術 |
<<: 2元のビタミンCと数百元のビタミンCではどちらが良いでしょうか?
>>: UIUC Li Bo 氏へのインタビュー |使いやすさから信頼性まで、AIに関する学術界の究極の考え
生活の中でアルカリ性の食品を多く食べることは健康に良いので、多くの人がキノコ類を食べることを選択しま...
年齢を重ねるにつれて、記憶力は低下しているようです。どうすればいいでしょうか?心配しないでください。...
10月31日、「Tmall Meizu Blue Night Concert」で、MeizuはMe...
デザートは誰もが好きな食べ物だと思いますが、特にデザートが好きな女性の友達はたくさんいます。夏が近づ...
最近、新型コロナウイルス感染症の波が再び世界各地に広がっています。 WHOは、世界的に見ると、 JN...
一般的な食品の種類は数多くあり、食品によって人体への効能は大きく異なります。特に野菜や果物はそうです...
3月5日、アメリカ海洋大気庁化学科学研究所の科学者らは、宇宙ゴミの除去や衛星の廃止の過程で金属粒子...
9月17日、神舟14号の宇宙飛行士乗組員は2回目の船外活動を実施した。宇宙飛行士の陳東、劉洋、蔡旭...
アロエベラは多くの人に愛されている植物なので、観賞用に家に植えている人をよく見かけますし、美容目的で...
旧暦1月2日は、結婚した娘たちが実家に帰る日です。家族の絆を深め、家族の幸せを分かち合う素晴らしい時...
妊婦は黒豆を食べても大丈夫でしょうか?この問題を詳しく理解するには、まず黒豆に関する基本的な対策を理...
乾燥蓮の葉は蓮の葉から作られた食品であり、その栄養価は蓮の葉に反映されています。一般的にそのような植...
「1日1個のデーツを食べれば医者いらず」という古い諺があるように、実生活でも多くの人がデーツ、特に酸...
最近、核科学の分野で大きなニュースがありました。これを達成した科学者たちでさえ、これは信じられない、...
嶺南の伝統的な無形文化遺産である灰色の彫刻と現代の航空宇宙技術は、一見何の関係もなさそうだ。灰色の彫...