ネットを席巻しているAI絵画の背後にある技術とは？（優れた）

機械を創造的にすることは、常に人工知能の最高の理想の一つでした。したがって、生成タスクは機械の創造性の尺度になります。これらの生成タスクには、テキスト（質問と回答、対話、詩、小説）の生成と、画像やビデオの生成が含まれます。今回は、最近画面上でよく見かけるAIによる絵画制作の裏側にある技術を紹介します。

画像ソース: pixabay

1. 敵対的ネットワークモデル（GAN）の誕生

数年前まで、AI は生成タスクのパフォーマンスが低かった。彼らは、テンプレートとルールに従って厳密に繰り返すか、または自由に想像力豊かにナンセンスを話すことしかできません。生成的敵対ネットワークモデルが誕生して初めて、人工知能が創造性を生み出し、その創造性の質を制御できるようになりました。 Generative Adversarial Network の英語の略称は GAN です。

ジェネレータ（G）と敵対的（分類器）（A）で構成されています。ジェネレーターは、現実的な画像を取得して分類器を欺くために継続的にトレーニングする必要があります。一方、分類器は生成された画像を実際の画像と区別するために最善を尽くす必要があります。

GAN の作者であるイアン・グッドフェローは、彼のオリジナルの論文の中で、架空の警察官と偽造犯の例を使用しました。分類するのは警察であり、生成するのは偽造紙幣工場です。当初、警察は大まかな模様でしか本物の紙幣と偽物の紙幣を区別できなかったため、偽造紙幣工場は紙幣の主な模様を印刷するだけで、偽造を逃れることができました。偽造紙幣の問題に対処するため、警察は紙幣の陰影、マイクロテキスト、透かしの検査を開始した。その結果、これらの特徴を備えた偽造紙幣を製造できなかった多くの偽造紙幣工場は閉鎖を余儀なくされ、残った紙幣は明らかに偽造しやすくなり、より本物に近い紙幣を製造できるようになりました。警察は、これらの偽造紙幣を判別し続けるために、これらの偽造紙幣に使用されている紙が本物の紙幣のものと異なり、手触りも異なっていることを発見しました。そのため、偽造紙幣を作る人々は、本物の紙幣の紙質を模倣した化合物の配合をより正確に混合して、同じ感触の紙幣を作る方法を考え始めなければなりませんでした...このようにして、紙幣検出器の機能はどんどん強力になりましたが、偽造紙幣製造機の模倣能力も強くなりました。

2. 対立の中での「学び」

具体的には、GAN のジェネレーターと分類器は 2 つのニューラルネットワークです。ニューラルネットワークは機械学習の基本的な技術です。これは「機械」として理解できます。処理する必要のあるデータを取り込んだ後、必要な結果を吐き出します。写真が犬か猫かを判断したい場合、結果は数字、つまり 1 (犬の場合) または 0 (猫の場合) になります。人工知能を使って翻訳する場合、入力は1つの言語のテキストで、出力は別の言語のテキストになります。

トレーニングされていない場合、ニューラルネットワークは完全に信頼できない結果またはランダムな結果しか出力できません。しかし、正しい出力がわかっているデータが大量に見つかる場合は、ニューラルネットワークをトレーニングして正しい答えを得ることができます。このプロセスを「学習」と呼びます。 GAN の分類器には、画像が本物か生成されたものか判別できる同様のメカニズムがあります。ジェネレーターは数値またはベクトルに基づいて画像を生成できます。

最初は、ジェネレーターには目標がなく、ぼやけた画像や純粋なノイズなどのランダムなデータしか生成できません。分類器は、これらの不良写真を実際の写真と区別するように簡単にトレーニングできます。この時点で、ジェネレーターは単純な分類器を騙すように自分自身をトレーニングする必要があります。

その後、このプロセスが繰り返されます。まず、分類器は強化されたジェネレータによって吐き出された画像を識別する方法を学習する必要があり、ジェネレータも強化された分類器を欺くために自分自身を改善する必要があります。数万回、あるいは数十万回の反復を経て、ジェネレーターは強力になり、よりリアルな画像を生成します。

原理は比較的単純ですが、GAN のトレーニングは非常に困難です。オリジナルのGAN論文では、生成された画像の品質は高くありませんでした。しかしその後、多数の研究チームがさまざまな方向から改良を加え、GAN のさまざまなバリエーションが生まれました。その中でも、非常にリアルな顔を生成できるStyleGANは非常に有名です。これらの顔は既存のものとは異なっており、完全にコンピューターによって作成されています。

画像生成モデルとして、GAN にはまだ多くの欠点があります。まず、GAN のトレーニングは非常に不安定で、トレーニング中にモデル全体がクラッシュすることがあります。第二に、異なるシナリオでは異なる GAN モデルのトレーニングが必要です。猫の写真を生成したい場合は、トレーニング用にたくさんの猫の写真を見つける必要があります。人間の顔の写真を生成したい場合は、大量の人間の顔の写真を取得する方法を見つける必要があります。

しかし、要件の種類は無限であり、シナリオによっては極めて複雑になることもあります。たとえば、「犬を追いかける猫を生成したい」などです。このような要件は GAN では解決が困難です。つまり、GAN は特定のシーンに特化したトレーニング画像データしか理解できず、人間の言語を理解することはできないため、テキストを通じて画像の生成を制御することはできません。これら 2 つの問題は、OpenAI の DALLE モデルによってほぼ解決されます。これについては次のビデオで詳しく説明します。

この記事は、中国科学普及-星空プロジェクト（創造と栽培）によって作成されました。転載の際は出典を明記してください。

著者: 関新宇科学人気作家

査読者: Yu Yang、Tencent Xuanwu Lab 所長

<<: 太陽が「暴力モード」に入ると、地球は「耐えられなくなる」のです...

>>: ポピュラーサイエンスイラストレーション |収穫期のハードコアな「収穫」シーンがわかる一枚の写真