AIがAIをトレーニング？愚かになってきているのかもしれない

文：馬雪偉編集：ペイジ

序文

現在、ますます熱を帯びている大型モデル業界では、スケーリング法則が依然として機能することが証明されています。

問題は、人間が生成した高品質なデータ（書籍、記事、写真、ビデオなど）が枯渇した場合、大規模モデルのトレーニングはどのように進むのかということです。

現在、最も期待されているのが、「大規模モデル自身が生成したデータで自らをトレーニングする」という手法です。実際、後続モデルのトレーニングデータもネットワークから取得する場合、前のモデルによって生成されたデータが必然的に使用されます。

しかし、オックスフォード大学とケンブリッジ大学の研究チームとその協力者は、この考えに「冷水を浴びせた」。

彼らは、モデルがトレーニング中に独自に生成したコンテンツを使用すると、回復不可能な欠陥が発生し、徐々に真のデータ分布を忘れてしまい、モデルのパフォーマンスが低下するという結論に達しました。

つまり、「モデルの崩壊」です。

「再帰的に生成されたデータでトレーニングするとAIモデルが崩壊する」と題された関連研究論文が、権威ある科学雑誌「ネイチャー」に掲載されました。

しかし、古いモデルによって生成されたデータを使用して新しいモデルをトレーニングすることは不可能ではないが、データは厳密にフィルタリングする必要があるとも述べています。

同時に発表されたニュースと意見記事で、デューク大学のエミリー・ウェンガー氏は、「論文の著者らは、モデルが他のモデルによって生成されたデータでトレーニングされた場合に何が起こるかを考慮していない。著者らは、モデルが自身の出力でトレーニングされた結果に焦点を当てている。他のモデルの出力でトレーニングされた場合にモデルが崩壊するかどうかはまだ分からない。したがって、次の課題は、モデル崩壊が発生するメカニズムを解明することだろう」と述べた。

モデル崩壊とは何ですか?

本質的に、「モデルの崩壊」は、大規模なモデルによって生成されたデータが後続のモデルのトレーニングセットを汚染してしまうときに発生します。

GMM や VAE などの小規模モデルは通常、最初からトレーニングされますが、LLM は再トレーニングに非常にコストがかかるため、通常は BERT4、RoBERTa5、GPT-2 などの大規模なテキストコーパスで事前トレーニングされたモデルを使用して初期化され、その後、さまざまな下流タスクに合わせて微調整されます。

では、言語モデルが他のモデルによって生成されたデータを使用して微調整されると何が起こるでしょうか?

この目的のために、研究チームは OPT-125m 言語モデルを使用して実験を行い、wikitext2 データセットを使用してそれを微調整しました。実験結果は、元のデータが保持されているかどうかに関係なく、モデルの崩壊が発生することを示しています。反復回数が増えると、モデルによって生成されたサンプル内の低パープレキシティサンプルの数が蓄積され始め、モデルが実際のデータ分布内の末尾のイベントを忘れ始めることを示します。さらに、困惑度の増加によって示されるように、後続の反復モデルのパフォーマンスは元のモデルと比較して低下しています。さらに、モデルによって生成されたデータには、多数の繰り返しフレーズが含まれています。

図 |モデルの崩壊の影響を受ける OPT-125m モデルのテキスト出力の例 - モデルは世代間で劣化します。

犬の画像を生成する生成 AI モデルを想像してみてください。 AI モデルはトレーニングデータ内で最も一般的な犬種を再現する傾向があるため、ゴールデンレトリバーやブルドッグを過剰に表現してしまう可能性があります。この問題は、後続のモデルが、ゴールデンレトリバーを過剰に代表する AI 生成データセットでトレーニングされた場合にさらに悪化します。ゴールデンレトリバーに何度も過度にさらされると、モデルはフレンチブルドッグなどのあまり人気のない犬種の存在を忘れ、ゴールデンレトリバーの画像のみを生成します。最終的には、モデルが機能しなくなり、意味のあるコンテンツを生成できなくなります。

図 |モデルは、トレーニングデータ内の珍しい要素を徐々に無視します。

一般的に、モデルは、まれな単語やフレーズなど、実際の言語に現れる低確率のイベントを徐々に忘れていきます。その結果、モデルによって生成されるコンテンツの多様性が欠如し、現実世界の複雑さを正しくシミュレートできなくなります。さらに、モデルは、誤った日付、場所、イベントなど、現実世界に対応しないコンテンツを徐々に生成する可能性があります。これにより、モデルによって生成されたコンテンツの信頼性が失われ、信頼性の高い情報検索や知識に基づく質問への回答などのタスクに使用できなくなります。さらに、モデルはトレーニングデータ内の偏見や差別を徐々に学習し、生成されたコンテンツに反映します。

なぜそうなるのでしょうか?

モデルの崩壊は、モデルによって生成されたコンテンツが次の世代のトレーニングデータを汚染し、モデルが実際のデータ分布の記憶を徐々に失う劣化プロセスです。モデルの崩壊は、早期と後期の 2 つのケースに分けられます。初期段階では、モデルは低確率のイベントに関する情報を失い始めます。後期段階では、モデルは元の分布とは非常に異なる分布に収束しますが、通常は分散が大幅に減少します。

図 |学習プロセスにおけるフィードバックメカニズムの高レベルの説明。

世代数が増えるにつれて、モデルは初期モデルによって生成される可能性が高かったサンプルを生成する傾向があります。同時に、子孫モデルのサンプル分布の裾が長くなります。子孫モデルは、元のモデルでは決して生成されなかったサンプルを生成し始めます。つまり、以前のモデルによって導入されたエラーに基づいて現実を誤って解釈し始めます。生成されたデータでトレーニングされたモデルは元のタスクの一部を学習できますが、困惑度の増加によって示されるように、間違いも発生します。

モデルの崩壊は主に次の 3 種類のエラーの蓄積によって発生します。

1. 統計的近似誤差:

サンプル数が限られているため、モデルは実際のデータ分布の詳細をすべて完全に把握することはできません。時間が経つにつれて、低確率のイベント（つまり、分布の末尾）は、サンプリングされる確率が非常に低いため、徐々に消えていきます。

モデルトレーニングの世代数が増えるにつれて、このエラーは蓄積し続け、最終的にモデルは元の分布とはまったく異なる分布に収束し、裾はほぼゼロになり、分散は大幅に減少します。

2. 関数表現能力エラー:

ニューラルネットワークなどの関数近似器は表現力が限られているため、任意の分布を完全に近似することはできません。

このエラーにより、たとえば高密度エリアを低密度エリアに割り当てたり、低密度エリアを高密度エリアに割り当てたりするなど、モデルが真の分布を近似する際に偏りが生じる可能性があります。

3. 関数近似誤差:

確率的勾配降下法における構造的バイアスや目的関数の選択など、学習プロセスの制限もモデルエラーを引き起こす可能性があります。

このエラーにより、モデルが真の分布を近似する際に偏りが生じる可能性があります。たとえば、密度モデルを過剰適合すると、モデルはデータを誤って外挿し、トレーニングセットのサポート範囲外の低密度領域に高密度領域を割り当ててしまいます。

回避できるでしょうか？

研究チームは、AIが生成したデータを使用してモデルをトレーニングすることは不可能ではないと考えているが、データは厳密にフィルタリングする必要がある。

まず、各世代のモデルのトレーニングデータでは、元のデータの一定の割合 (10% や 20% など) が保持されます。これにより、モデルが常に現実世界のサンプルにさらされ、モデルによって生成されたコンテンツに完全に依存することが回避されます。元のデータは定期的に再サンプリングされ、トレーニングデータに追加されます。これにより、トレーニングデータが常に最新の状態に保たれ、現実世界の最新の変更が反映されます。

2つ目は、多様なデータを活用できることです。たとえば、モデルによって生成されたコンテンツに加えて、人間が生成したデータもトレーニングデータとして使用する必要があります。 **人間のデータはより現実的で信頼性が高く、モデルが現実世界の複雑さと多様性をよりよく理解するのに役立ちます。 **さらに、強化学習モデルやシミュレーターなど、他の種類の機械学習モデルによって生成されたデータをトレーニングデータとして使用することもできます。これにより、トレーニングデータソースの多様性が確保され、単一のタイプのモデルへの過度の依存が回避されます。

最後に、学習アルゴリズムの改善を試みることができます。敵対的トレーニング、知識蒸留、生涯学習など、より堅牢な言語モデルトレーニングアルゴリズムを研究します。これらのアルゴリズムは、モデルがトレーニングデータ内のノイズやバイアスをより適切に処理し、モデルの一般化能力を向上させるのに役立ちます。

この警告は、現在の生成 AI テクノロジーと、そこから利益を得ようとしている企業の両方にとって心配なことのように思われますが、中長期的には人間のコンテンツクリエイターにとってより大きな希望を与えるものとなるかもしれません。

AIツールとそれが生成するコンテンツで満たされる将来の世界では、人間が作成したコンテンツは、AIの生のトレーニングデータのソースとしてだけでも、今日よりも価値が高くなるだろうと研究者らは言う。

<<: スイカやザリガニを食べると中毒になりますか？スイカや桃は下痢を引き起こしますか？メロンを食べるのにもそんなに条件があるんですか？

>>: 最近の北部人の様子：南部には行ったことないけど、南部の「湿気と暑さ」は感じる…