文:馬雪偉 編集:ペイジ 序文 現在、ますます熱を帯びている大型モデル業界では、スケーリング法則が依然として機能することが証明されています。 問題は、人間が生成した高品質なデータ(書籍、記事、写真、ビデオなど)が枯渇した場合、大規模モデルのトレーニングはどのように進むのかということです。 現在、最も期待されているのが、「大規模モデル自身が生成したデータで自らをトレーニングする」という手法です。実際、後続モデルのトレーニング データもネットワークから取得する場合、前のモデルによって生成されたデータが必然的に使用されます。 しかし、オックスフォード大学とケンブリッジ大学の研究チームとその協力者は、この考えに「冷水を浴びせた」。 彼らは、モデルがトレーニング中に独自に生成したコンテンツを使用すると、回復不可能な欠陥が発生し、徐々に真のデータ分布を忘れてしまい、モデルのパフォーマンスが低下するという結論に達しました。 つまり、「モデルの崩壊」です。 「再帰的に生成されたデータでトレーニングするとAIモデルが崩壊する」と題された関連研究論文が、権威ある科学雑誌「ネイチャー」に掲載されました。 しかし、古いモデルによって生成されたデータを使用して新しいモデルをトレーニングすることは不可能ではないが、データは厳密にフィルタリングする必要があるとも述べています。 同時に発表されたニュースと意見記事で、デューク大学のエミリー・ウェンガー氏は、「論文の著者らは、モデルが他のモデルによって生成されたデータでトレーニングされた場合に何が起こるかを考慮していない。著者らは、モデルが自身の出力でトレーニングされた結果に焦点を当てている。他のモデルの出力でトレーニングされた場合にモデルが崩壊するかどうかはまだ分からない。したがって、次の課題は、モデル崩壊が発生するメカニズムを解明することだろう」と述べた。 モデル崩壊とは何ですか? 本質的に、「モデルの崩壊」は、大規模なモデルによって生成されたデータが後続のモデルのトレーニング セットを汚染してしまうときに発生します。 GMM や VAE などの小規模モデルは通常、最初からトレーニングされますが、LLM は再トレーニングに非常にコストがかかるため、通常は BERT4、RoBERTa5、GPT-2 などの大規模なテキストコーパスで事前トレーニングされたモデルを使用して初期化され、その後、さまざまな下流タスクに合わせて微調整されます。 では、言語モデルが他のモデルによって生成されたデータを使用して微調整されると何が起こるでしょうか? この目的のために、研究チームは OPT-125m 言語モデルを使用して実験を行い、wikitext2 データセットを使用してそれを微調整しました。実験結果は、元のデータが保持されているかどうかに関係なく、モデルの崩壊が発生することを示しています。反復回数が増えると、モデルによって生成されたサンプル内の低パープレキシティ サンプルの数が蓄積され始め、モデルが実際のデータ分布内の末尾のイベントを忘れ始めることを示します。さらに、困惑度の増加によって示されるように、後続の反復モデルのパフォーマンスは元のモデルと比較して低下しています。さらに、モデルによって生成されたデータには、多数の繰り返しフレーズが含まれています。 図 |モデルの崩壊の影響を受ける OPT-125m モデルのテキスト出力の例 - モデルは世代間で劣化します。 犬の画像を生成する生成 AI モデルを想像してみてください。 AI モデルはトレーニング データ内で最も一般的な犬種を再現する傾向があるため、ゴールデン レトリバーやブルドッグを過剰に表現してしまう可能性があります。この問題は、後続のモデルが、ゴールデン レトリバーを過剰に代表する AI 生成データセットでトレーニングされた場合にさらに悪化します。ゴールデン レトリバーに何度も過度にさらされると、モデルはフレンチ ブルドッグなどのあまり人気のない犬種の存在を忘れ、ゴールデン レトリバーの画像のみを生成します。最終的には、モデルが機能しなくなり、意味のあるコンテンツを生成できなくなります。 図 |モデルは、トレーニング データ内の珍しい要素を徐々に無視します。 一般的に、モデルは、まれな単語やフレーズなど、実際の言語に現れる低確率のイベントを徐々に忘れていきます。その結果、モデルによって生成されるコンテンツの多様性が欠如し、現実世界の複雑さを正しくシミュレートできなくなります。さらに、モデルは、誤った日付、場所、イベントなど、現実世界に対応しないコンテンツを徐々に生成する可能性があります。これにより、モデルによって生成されたコンテンツの信頼性が失われ、信頼性の高い情報検索や知識に基づく質問への回答などのタスクに使用できなくなります。さらに、モデルはトレーニング データ内の偏見や差別を徐々に学習し、生成されたコンテンツに反映します。 なぜそうなるのでしょうか? モデルの崩壊は、モデルによって生成されたコンテンツが次の世代のトレーニング データを汚染し、モデルが実際のデータ分布の記憶を徐々に失う劣化プロセスです。モデルの崩壊は、早期と後期の 2 つのケースに分けられます。初期段階では、モデルは低確率のイベントに関する情報を失い始めます。後期段階では、モデルは元の分布とは非常に異なる分布に収束しますが、通常は分散が大幅に減少します。 図 |学習プロセスにおけるフィードバック メカニズムの高レベルの説明。 世代数が増えるにつれて、モデルは初期モデルによって生成される可能性が高かったサンプルを生成する傾向があります。同時に、子孫モデルのサンプル分布の裾が長くなります。子孫モデルは、元のモデルでは決して生成されなかったサンプルを生成し始めます。つまり、以前のモデルによって導入されたエラーに基づいて現実を誤って解釈し始めます。生成されたデータでトレーニングされたモデルは元のタスクの一部を学習できますが、困惑度の増加によって示されるように、間違いも発生します。 モデルの崩壊は主に次の 3 種類のエラーの蓄積によって発生します。 1. 統計的近似誤差: サンプル数が限られているため、モデルは実際のデータ分布の詳細をすべて完全に把握することはできません。時間が経つにつれて、低確率のイベント(つまり、分布の末尾)は、サンプリングされる確率が非常に低いため、徐々に消えていきます。 モデルトレーニングの世代数が増えるにつれて、このエラーは蓄積し続け、最終的にモデルは元の分布とはまったく異なる分布に収束し、裾はほぼゼロになり、分散は大幅に減少します。 2. 関数表現能力エラー: ニューラル ネットワークなどの関数近似器は表現力が限られているため、任意の分布を完全に近似することはできません。 このエラーにより、たとえば高密度エリアを低密度エリアに割り当てたり、低密度エリアを高密度エリアに割り当てたりするなど、モデルが真の分布を近似する際に偏りが生じる可能性があります。 モデルトレーニングの世代数が増えるにつれて、このエラーは蓄積し続け、最終的にモデルは元の分布とはまったく異なる分布に収束し、裾はほぼゼロになり、分散は大幅に減少します。 3. 関数近似誤差: 確率的勾配降下法における構造的バイアスや目的関数の選択など、学習プロセスの制限もモデルエラーを引き起こす可能性があります。 このエラーにより、モデルが真の分布を近似する際に偏りが生じる可能性があります。たとえば、密度モデルを過剰適合すると、モデルはデータを誤って外挿し、トレーニング セットのサポート範囲外の低密度領域に高密度領域を割り当ててしまいます。 モデルトレーニングの世代数が増えるにつれて、このエラーは蓄積し続け、最終的にモデルは元の分布とはまったく異なる分布に収束し、裾はほぼゼロになり、分散は大幅に減少します。 回避できるでしょうか? 研究チームは、AIが生成したデータを使用してモデルをトレーニングすることは不可能ではないと考えているが、データは厳密にフィルタリングする必要がある。 まず、各世代のモデルのトレーニング データでは、元のデータの一定の割合 (10% や 20% など) が保持されます。これにより、モデルが常に現実世界のサンプルにさらされ、モデルによって生成されたコンテンツに完全に依存することが回避されます。元のデータは定期的に再サンプリングされ、トレーニング データに追加されます。これにより、トレーニング データが常に最新の状態に保たれ、現実世界の最新の変更が反映されます。 2つ目は、多様なデータを活用できることです。たとえば、モデルによって生成されたコンテンツに加えて、人間が生成したデータもトレーニング データとして使用する必要があります。 **人間のデータはより現実的で信頼性が高く、モデルが現実世界の複雑さと多様性をよりよく理解するのに役立ちます。 **さらに、強化学習モデルやシミュレーターなど、他の種類の機械学習モデルによって生成されたデータをトレーニング データとして使用することもできます。これにより、トレーニング データ ソースの多様性が確保され、単一のタイプのモデルへの過度の依存が回避されます。 最後に、学習アルゴリズムの改善を試みることができます。敵対的トレーニング、知識蒸留、生涯学習など、より堅牢な言語モデル トレーニング アルゴリズムを研究します。これらのアルゴリズムは、モデルがトレーニング データ内のノイズやバイアスをより適切に処理し、モデルの一般化能力を向上させるのに役立ちます。 この警告は、現在の生成 AI テクノロジーと、そこから利益を得ようとしている企業の両方にとって心配なことのように思われますが、中長期的には人間のコンテンツ クリエイターにとってより大きな希望を与えるものとなるかもしれません。 AIツールとそれが生成するコンテンツで満たされる将来の世界では、人間が作成したコンテンツは、AIの生のトレーニングデータのソースとしてだけでも、今日よりも価値が高くなるだろうと研究者らは言う。 |
<<: スイカやザリガニを食べると中毒になりますか?スイカや桃は下痢を引き起こしますか?メロンを食べるのにもそんなに条件があるんですか?
>>: 最近の北部人の様子:南部には行ったことないけど、南部の「湿気と暑さ」は感じる…
北京ユニバーサルスタジオが本日正式にオープンします!最も「不正行為」が可能で、最もお金を使う意欲のあ...
今年の夏は特に日差しが強いです。多くの女の子が日焼け止めを塗り、日傘やサングラス、帽子を持って出かけ...
神舟16号「ドクタークルー」宇宙ステーションに入ってから約2週間以内に資料を素早く整理キャビンからの...
長さ約20センチの7つの穴がある骨製の横笛が、8,000年の時を結集し、賈湖のほとりで数千年にわたる...
トマトと牛肉を組み合わせると、たくさんのおいしい料理を作ることができますが、特にトマト煮牛肉は誰もが...
私たちは日常生活でシロキクラゲ八宝粥をよく食べます。調理方法が比較的簡単で、栄養価が高いため、シロキ...
羊のような動物に関して、人々の頭に浮かぶのはおそらく誠実さ、忠誠心などでしょう。実は、羊は私たち人間...
7月31日、格力電器の董明珠会長兼社長は、格力学士ワークステーションの除幕式で、2018年に売上高...
ピーナッツ油には人体の健康に有益な成分が多く含まれていることはよく知られています。特に、3つの重篤な...
バラから作られるお茶には多くの種類があり、小バラ茶もその一つです。正しい淹れ方をすることでのみ、小バ...
中国の電子商取引業者は、売上高の伸びが鈍化し、価格競争の圧力が高まり、電子商取引プラットフォームが価...
『ニルヴァーナ・イン・ファイア』の最終回から数日が経ち、ネット上のファンから「あと100話」を求め...
多くの友人は栗をとても好んで食べます。栗は栄養価が高いだけでなく、栗自体に不飽和脂肪酸が豊富に含まれ...
著者:石樹田(首都医科大学北京安鎮病院心臓科副主任医師)ほとんどの人にとって、休暇は忙しい仕事や生活...
お茶を飲むのが好きな友人なら、この種類のお茶はみんな知っているはずですが、正しいお茶の入れ方を知らな...