AIがAIをトレーニング?愚かになってきているのかもしれない

AIがAIをトレーニング?愚かになってきているのかもしれない

文:馬雪偉 編集:ペイジ

序文

現在、ますます熱を帯びている大型モデル業界では、スケーリング法則が依然として機能することが証明されています。

問題は、人間が生成した高品質なデータ(書籍、記事、写真、ビデオなど)が枯渇した場合、大規模モデルのトレーニングはどのように進むのかということです。

現在、最も期待されているのが、「大規模モデル自身が生成したデータで自らをトレーニングする」という手法です。実際、後続モデルのトレーニング データもネットワークから取得する場合、前のモデルによって生成されたデータが必然的に使用されます。

しかし、オックスフォード大学とケンブリッジ大学の研究チームとその協力者は、この考えに「冷水を浴びせた」。

彼らは、モデルがトレーニング中に独自に生成したコンテンツを使用すると、回復不可能な欠陥が発生し、徐々に真のデータ分布を忘れてしまい、モデルのパフォーマンスが低下するという結論に達しました。

つまり、「モデルの崩壊」です

「再帰的に生成されたデータでトレーニングするとAIモデルが崩壊する」と題された関連研究論文が、権威ある科学雑誌「ネイチャー」に掲載されました。

しかし、古いモデルによって生成されたデータを使用して新しいモデルをトレーニングすることは不可能ではないが、データは厳密にフィルタリングする必要があるとも述べています。

同時に発表されたニュースと意見記事で、デューク大学のエミリー・ウェンガー氏は、「論文の著者らは、モデルが他のモデルによって生成されたデータでトレーニングされた場合に何が起こるかを考慮していない。著者らは、モデルが自身の出力でトレーニングされた結果に焦点を当てている。他のモデルの出力でトレーニングされた場合にモデルが崩壊するかどうかはまだ分からない。したがって、次の課題は、モデル崩壊が発生するメカニズムを解明することだろう」と述べた。

モデル崩壊とは何ですか?

本質的に、「モデルの崩壊」は、大規模なモデルによって生成されたデータが後続のモデルのトレーニング セットを汚染してしまうときに発生します。

GMM や VAE などの小規模モデルは通常、最初からトレーニングされますが、LLM は再トレーニングに非常にコストがかかるため、通常は BERT4、RoBERTa5、GPT-2 などの大規模なテキストコーパスで事前トレーニングされたモデルを使用して初期化され、その後、さまざまな下流タスクに合わせて微調整されます。

では、言語モデルが他のモデルによって生成されたデータを使用して微調整されると何が起こるでしょうか?

この目的のために、研究チームは OPT-125m 言語モデルを使用して実験を行い、wikitext2 データセットを使用してそれを微調整しました。実験結果は、元のデータが保持されているかどうかに関係なく、モデルの崩壊が発生することを示しています。反復回数が増えると、モデルによって生成されたサンプル内の低パープレキシティ サンプルの数が蓄積され始め、モデルが実際のデータ分布内の末尾のイベントを忘れ始めることを示します。さらに、困惑度の増加によって示されるように、後続の反復モデルのパフォーマンスは元のモデルと比較して低下しています。さらに、モデルによって生成されたデータには、多数の繰り返しフレーズが含まれています。

図 |モデルの崩壊の影響を受ける OPT-125m モデルのテキスト出力の例 - モデルは世代間で劣化します。

犬の画像を生成する生成 AI モデルを想像してみてください。 AI モデルはトレーニング データ内で最も一般的な犬種を再現する傾向があるため、ゴールデン レトリバーやブルドッグを過剰に表現してしまう可能性があります。この問題は、後続のモデルが、ゴールデン レトリバーを過剰に代表する AI 生成データセットでトレーニングされた場合にさらに悪化します。ゴールデン レトリバーに何度も過度にさらされると、モデルはフレンチ ブルドッグなどのあまり人気のない犬種の存在を忘れ、ゴールデン レトリバーの画像のみを生成します。最終的には、モデルが機能しなくなり、意味のあるコンテンツを生成できなくなります。

図 |モデルは、トレーニング データ内の珍しい要素を徐々に無視します。

一般的に、モデルは、まれな単語やフレーズなど、実際の言語に現れる低確率のイベントを徐々に忘れていきます。その結果、モデルによって生成されるコンテンツの多様性が欠如し、現実世界の複雑さを正しくシミュレートできなくなります。さらに、モデルは、誤った日付、場所、イベントなど、現実世界に対応しないコンテンツを徐々に生成する可能性があります。これにより、モデルによって生成されたコンテンツの信頼性が失われ、信頼性の高い情報検索や知識に基づく質問への回答などのタスクに使用できなくなります。さらに、モデルはトレーニング データ内の偏見や差別を徐々に学習し、生成されたコンテンツに反映します。

なぜそうなるのでしょうか?

モデルの崩壊は、モデルによって生成されたコンテンツが次の世代のトレーニング データを汚染し、モデルが実際のデータ分布の記憶を徐々に失う劣化プロセスです。モデルの崩壊は、早期と後期の 2 つのケースに分けられます。初期段階では、モデルは低確率のイベントに関する情報を失い始めます。後期段階では、モデルは元の分布とは非常に異なる分布に収束しますが、通常は分散が大幅に減少します。

図 |学習プロセスにおけるフィードバック メカニズムの高レベルの説明。

世代数が増えるにつれて、モデルは初期モデルによって生成される可能性が高かったサンプルを生成する傾向があります。同時に、子孫モデルのサンプル分布の裾が長くなります。子孫モデルは、元のモデルでは決して生成されなかったサンプルを生成し始めます。つまり、以前のモデルによって導入されたエラーに基づいて現実を誤って解釈し始めます。生成されたデータでトレーニングされたモデルは元のタスクの一部を学習できますが、困惑度の増加によって示されるように、間違いも発生します。

モデルの崩壊は主に次の 3 種類のエラーの蓄積によって発生します。

1. 統計的近似誤差:

サンプル数が限られているため、モデルは実際のデータ分布の詳細をすべて完全に把握することはできません。時間が経つにつれて、低確率のイベント(つまり、分布の末尾)は、サンプリングされる確率が非常に低いため、徐々に消えていきます。

モデルトレーニングの世代数が増えるにつれて、このエラーは蓄積し続け、最終的にモデルは元の分布とはまったく異なる分布に収束し、裾はほぼゼロになり、分散は大幅に減少します。

2. 関数表現能力エラー:

ニューラル ネットワークなどの関数近似器は表現力が限られているため、任意の分布を完全に近似することはできません。

このエラーにより、たとえば高密度エリアを低密度エリアに割り当てたり、低密度エリアを高密度エリアに割り当てたりするなど、モデルが真の分布を近似する際に偏りが生じる可能性があります。

モデルトレーニングの世代数が増えるにつれて、このエラーは蓄積し続け、最終的にモデルは元の分布とはまったく異なる分布に収束し、裾はほぼゼロになり、分散は大幅に減少します。

3. 関数近似誤差:

確率的勾配降下法における構造的バイアスや目的関数の選択など、学習プロセスの制限もモデルエラーを引き起こす可能性があります。

このエラーにより、モデルが真の分布を近似する際に偏りが生じる可能性があります。たとえば、密度モデルを過剰適合すると、モデルはデータを誤って外挿し、トレーニング セットのサポート範囲外の低密度領域に高密度領域を割り当ててしまいます。

モデルトレーニングの世代数が増えるにつれて、このエラーは蓄積し続け、最終的にモデルは元の分布とはまったく異なる分布に収束し、裾はほぼゼロになり、分散は大幅に減少します。

回避できるでしょうか?

研究チームは、AIが生成したデータを使用してモデルをトレーニングすることは不可能ではないと考えているが、データは厳密にフィルタリングする必要がある。

まず、各世代のモデルのトレーニング データでは、元のデータの一定の割合 (10% や 20% など) が保持されます。これにより、モデルが常に現実世界のサンプルにさらされ、モデルによって生成されたコンテンツに完全に依存することが回避されます。元のデータは定期的に再サンプリングされ、トレーニング データに追加されます。これにより、トレーニング データが常に最新の状態に保たれ、現実世界の最新の変更が反映されます。

2つ目は、多様なデータを活用できることです。たとえば、モデルによって生成されたコンテンツに加えて、人間が生成したデータもトレーニング データとして使用する必要があります。 **人間のデータはより現実的で信頼性が高く、モデルが現実世界の複雑さと多様性をよりよく理解するのに役立ちます。 **さらに、強化学習モデルやシミュレーターなど、他の種類の機械学習モデルによって生成されたデータをトレーニング データとして使用することもできます。これにより、トレーニング データ ソースの多様性が確保され、単一のタイプのモデルへの過度の依存が回避されます。

最後に、学習アルゴリズムの改善を試みることができます。敵対的トレーニング、知識蒸留、生涯学習など、より堅牢な言語モデル トレーニング アルゴリズムを研究します。これらのアルゴリズムは、モデルがトレーニング データ内のノイズやバイアスをより適切に処理し、モデルの一般化能力を向上させるのに役立ちます。

この警告は、現在の生成 AI テクノロジーと、そこから利益を得ようとしている企業の両方にとって心配なことのように思われますが、中長期的には人間のコンテンツ クリエイターにとってより大きな希望を与えるものとなるかもしれません。

AIツールとそれが生成するコンテンツで満たされる将来の世界では、人間が作成したコンテンツは、AIの生のトレーニングデータのソースとしてだけでも、今日よりも価値が高くなるだろうと研究者らは言う。

<<:  スイカやザリガニを食べると中毒になりますか?スイカや桃は下痢を引き起こしますか?メロンを食べるのにもそんなに条件があるんですか?

>>:  最近の北部人の様子:南部には行ったことないけど、南部の「湿気と暑さ」は感じる…

推薦する

当時ベチューンに仕えていた小さな助手は、今では 101 歳です。

18歳でアシスタントとして働き始めたベチューンと共に戦い、最前線で負傷者を治療89歳になった今も外...

古代の学者、十人、進士は現代のどのような学歴に相当するのでしょうか?

古代の科挙制度は封建時代に国家が人材を選抜する最も公平な方法であった。貧富の差や貴族の出自に関係なく...

水星にもオーロラはありますが、まだ光は出ていません。

制作:中国科学普及協会著者: 王宇奇 (中国科学院地質地球物理研究所)プロデューサー: 中国科学博覧...

天宮は十二支の動物を選びました。寝坊したのは猫ではなく…

中国の民間伝承には、天の宮廷が十二支の動物を選んでいたが、猫が寝坊したためにその機会を逃したという有...

みんなNIOを応援していますが、お金を払うつもりですか?

ちょうど昨日、NIO初の量産SUVが発売されました。打ち上げシーンは素晴らしかったです。新車の外観は...

ギャラクシーノート4はサムスンの衰退を救えない

サムスン電子は、高級スマートフォン市場での不利な状況を逆転させようと、近い将来にギャラクシーノート4...

千切りキャベツサラダの作り方

冷たい料理は常に副菜の役割を果たしており、干し大根や漬物が常に主流でした。実際、レストランの人気に伴...

秋には肺を強くするために旬の果物をもっと食べましょう

1. サンザシ栄養のクイックチェック: サンザシは秋の果物の中で最もカルシウム含有量が高く、果肉 ...

2018年のカラーテレビ市場は好調で、製品力こそが成功の鍵

カラーテレビは中国の家庭に導入された最初の大型家電製品であり、今ではどの家庭にも1台ずつある。 20...

Wenjie M7 Ultraは発売と同時に納品されました。前回の売上減少は本当に生産能力不足によるものだったのでしょうか?

売上ジェットコースターゲームをうまくこなす新エネルギー車、文傑M7。この車は2022年にブームになり...

空芯菜を食べるとガンを予防できますか?

誰もが日常生活で空芯菜を食べたことがあると思います。空芯菜が有名なのは、主にその根茎が中空だからです...

ベジタリアンでも筋肉質な男になれるのか?

最近、私は菜食主義の問題に注目しており、ネットユーザーの一部が次のような疑問を投げかけているのを見ま...

朝、空腹時に牛乳を飲むのはお勧めですか?

牛乳は非常に一般的な飲み物です。タンパク質、脂肪、ビタミン、水分、炭水化物が豊富に含まれています。牛...

黒豆ソースを使った焼き魚の作り方

焼き魚と黒豆の煮物は、人々が最も好むバーベキュー料理の一つと言えます。なぜなら、バーベキュー料理は一...

地球温暖化により地球の自転が遅くなっています。これからの時代も変わる・・・|環境トランペット

みなさんこんにちは。環境トランペットコラム第8号です。このコラムでは、気候、汚染、エネルギー、農業な...