人間によるフィードバックによる強化学習 (RLHF) に匹敵する技術が登場しました。 最近、 Google Research の研究者は、AI フィードバックによる強化学習 (RLAIF) を提案しました。これは、人間レベルのパフォーマンスを生み出し、人間によるフィードバックによる強化学習 (RLHF) のスケーラビリティの制限に対する潜在的な解決策を提供できる手法です。 「RLAIF: 人間のフィードバックから AI フィードバックによる強化学習のスケーリング」と題された関連論文が、プレプリント ウェブサイト arXiv で公開されています。 RLHF: 不正確または有害な行動につながる RLHF は、人間のガイダンスを使用して、事前トレーニング済みの大規模言語モデル (LLM) を微調整する方法です。これは、フィードバック収集、報酬モデリング、ポリシー最適化という 3 つの相互に関連するプロセスで構成されます。 その中で、フィードバック収集は、LLM 出力の人間による評価を収集する役割を担っています。これらのフィードバック データは、教師あり学習を通じて報酬モデルをトレーニングするために使用されます。報酬モデルは人間の好みを模倣するように設計されています。その後、ポリシー最適化プロセスは強化学習ループを使用して LLM を最適化し、報酬モデルから好意的な評価を受ける出力を生成します。これらの手順は反復的に実行することも、同時に実行することもできます。 従来の RL 方法と比較した RLHF の主な利点は、人間の意図とのより良い一致、将来のフィードバックを条件とした計画、さまざまな種類のフィードバックからの流動的な学習、および必要に応じたフィードバックの照合であり、これらはすべて、真にインテリジェントなエージェントを作成するために不可欠です。 さらに、RLHF により、機械は人間の行動を単純に模倣するのではなく、人間の価値観を抽象化して学習できるようになり、エージェントの適応性、解釈性、意思決定の信頼性が向上します。 現在、 RLHFはOpenAIのChatGPT、DeepMindのSparrow、AnthropicのClaudeなど、ビジネス、教育、医療、エンターテイメントなどの分野で広く活用されています。 ただし、RLHF ベースの AI モデルは、不正確な動作や有害な動作をする可能性があります。さらに、フィードバックとして人間の好みのデータを収集するにはコストがかかり、人間の注釈者間の意見の不一致によってトレーニング データに矛盾が生じ、真実が曖昧な場合に混乱が生じる可能性があります (例: 道徳的ジレンマ)。さらに、RLHF における人間によるフィードバックは、提供される情報が限られている優先順位の形式に制限されることが多く、適用範囲が制限されます。 RLAIF 対 RLHF この研究では、 RLAIF が RLHF 問題を解決する可能性を示しました。 研究者らは、一般的な LLM モデルを使用して候補ペア間の好みを注釈付けしました。このモデルは、一般的な目的のために事前トレーニングまたは微調整されていますが、特定の下流タスクのために微調整されていません。 テキストと 2 つの要約候補が与えられた場合、LLM はどちらの要約が優れているかを評価するように求められます。入力構造は次のとおりです。 1. はじめに – 手元のタスクを紹介し説明する手順。 2. 少数の例 - テキストの例、要約のペア、思考の連鎖(CoT)の論理的根拠、および好みの判断。 3. 注釈を付けるサンプル - 注釈を付けるテキストと要約のペア。 4. End – LLM の終了を示すために使用される終了文字列。 LLM が入力を受け取った後、研究者はトークン「1」と「2」を生成する対数確率を取得し、ソフトマックスを計算して好みの分布を取得しました。 彼らは2種類の前置き実験を行った。 「Base」実験では、「どちらの要約の方が優れているか」と簡単に質問しましたが、「OpenAI」実験では、OpenAI TLDR プロジェクトの人間の嗜好注釈者によって生成された評価指示を模倣しました。これらのトークンには、強力な要約を構築するために必要な詳細情報が含まれています。 さらに、さまざまなトピックをカバーする手動で選択された例をいくつか追加することで、より多くのコンテキストを提供するためのコンテキスト学習実験を実施しました。 LLM が好みをマークした後、研究者は好みを予測する報酬モデル (RM) をトレーニングしました。続いて、AI ラベルのアライメント、ペアワイズ精度、勝率を評価するために 3 つの指標が使用されました。 実験結果は、RLAIF が人間の注釈者に頼ることなく RLHF の実行可能な代替手段として機能できることを示しています。人間による評価では、RLAIF はベースラインの教師あり微調整戦略よりも 71% の人気を達成し、RLHF はベースラインの教師あり微調整モデル戦略よりも 73% の人気を達成しました。 さらに、この研究では、人間の好みの観点からRLAIFとRLHFの勝率を直接比較し、人間の評価では両者の人気は同じであることが示されました。この研究では、RLAIF と RLHF の抄録を手動で書かれた参考文献の抄録と比較しました。 RLAIF アブストラクトは 79% のケースで参照アブストラクトを上回り、RLHF は 80% のケースで参照アブストラクトを上回りました。 しかし、この研究は RLAIF の可能性を強調していますが、いくつかの制限もあります。 まず、この研究は要約タスクにのみ焦点を当てており、他のタスクに対する一般化のパフォーマンスは不明です。第二に、この研究では、手動注釈と比較したLLM推論の費用対効果を十分に評価していない。さらに、RLHF と RLAIF を組み合わせることで単一の方法を超えることができるかどうか、報酬を割り当てるために LLM を直接使用することがどれだけ効果的か、AI ラベルのアライメントを改善することが最終戦略の改善につながるかどうか、ポリシー モデルと同じサイズの LLM アノテーターを使用することで戦略をさらに改善できるかどうかなど、多くの興味深い未解決の問題があります。 この研究がRLAIF分野における詳細な研究のための強固な基盤を築いたことは否定できないことであり、今後この分野でさらに優れた成果が期待されます。 参考リンク: https://arxiv.org/abs/2309.00267 https://bdtechtalks.com/2023/09/04/rlhf-limitations/ 著者: ヤン・イーミ 編集者: 学術 |
<<: 2元のビタミンCと数百元のビタミンCではどちらが良いでしょうか?
>>: UIUC Li Bo 氏へのインタビュー |使いやすさから信頼性まで、AIに関する学術界の究極の考え
毎年10月14日は世界標準の日です。今日皆さんにご紹介したい文化財は、「標準」と切り離せないものです...
ブルームバーグは、事情に詳しい関係者の話として、小鵬汽車は今月、アリババを含む投資家から6億ドル以上...
家庭の掃除は現代の生活では習慣になっています。データから判断すると、家事は国民の間で人気の「スポーツ...
著者:肖丹、中日友好病院タバコ対策・呼吸器疾患予防管理科長、研究者査読者:唐秦、中国医師会科学普及専...
キムチは多くの人が好んで食べる食べ物です。この種の食べ物は独特の味があり、あらゆる面で人体に非常に役...
鳩の卵は誰もが食べたことがあるはずです。鳩の卵は優れた治療効果があり、優れた滋養強壮食品でもあります...
レビュー専門家:北京大学第三病院空港分院神経科副主任医師、尹鉄倫気温が下がり、冷たい空気が流れ込んで...
6月13日午前、「考古中国」の重要プロジェクトである三星堆遺跡祭祀場の考古学的発掘の進捗状況と主な...
6月15日、杭州アジア競技大会の聖火が杭州良渚古城遺跡公園の大茅角山に無事に集められた。午前9時1...
現代社会の急速な発展により、人々の日常生活や仕事に対するプレッシャーも増大しています。プレッシャーが...
カニは甲殻類の一種で、遺伝物質が複雑で、大きな違いがあります。栄養価が非常に高く、いくつかの共通の栄...
日常生活では、特に冬場はほぼ毎朝豆乳を飲んでいます。温かい豆乳を一杯飲むと、体の冷えを解消できます。...
国家統計局のデータによると、 5月の自動車生産台数は199万台で前年同月比5%減だったが、新エネルギ...
この夏一番人気があるものは何かと聞かれたら、それはブラジルワールドカップに違いありません。サッカーフ...
火鍋は四川省の蘆州で最初に登場しました。現在、火鍋は全国で人気があります。わが国では火鍋は長い歴史を...