ネットを席巻しているAI絵画の背後にある技術とは? (優れた)

ネットを席巻しているAI絵画の背後にある技術とは? (優れた)

機械を創造的にすることは、常に人工知能の最高の理想の一つでした。したがって、生成タスクは機械の創造性の尺度になります。これらの生成タスクには、テキスト(質問と回答、対話、詩、小説)の生成と、画像やビデオの生成が含まれます。今回は、最近画面上でよく見かけるAIによる絵画制作の裏側にある技術を紹介します。

画像ソース: pixabay

1. 敵対的ネットワークモデル(GAN)の誕生

数年前まで、AI は生成タスクのパフォーマンスが低かった。彼らは、テンプレートとルールに従って厳密に繰り返すか、または自由に想像力豊かにナンセンスを話すことしかできません。生成的敵対ネットワーク モデルが誕生して初めて、人工知能が創造性を生み出し、その創造性の質を制御できるようになりました。 Generative Adversarial Network の英語の略称は GAN です。

ジェネレータ(G)と敵対的(分類器)(A)で構成されています。ジェネレーターは、現実的な画像を取得して分類器を欺くために継続的にトレーニングする必要があります。一方、分類器は生成された画像を実際の画像と区別するために最善を尽くす必要があります。

GAN の作者であるイアン・グッドフェローは、彼のオリジナルの論文の中で、架空の警察官と偽造犯の例を使用しました。分類するのは警察であり、生成するのは偽造紙幣工場です。当初、警察は大まかな模様でしか本物の紙幣と偽物の紙幣を区別できなかったため、偽造紙幣工場は紙幣の主な模様を印刷するだけで、偽造を逃れることができました。偽造紙幣の問題に対処するため、警察は紙幣の陰影、マイクロテキスト、透かしの検査を開始した。その結果、これらの特徴を備えた偽造紙幣を製造できなかった多くの偽造紙幣工場は閉鎖を余儀なくされ、残った紙幣は明らかに偽造しやすくなり、より本物に近い紙幣を製造できるようになりました。警察は、これらの偽造紙幣を判別し続けるために、これらの偽造紙幣に使用されている紙が本物の紙幣のものと異なり、手触りも異なっていることを発見しました。そのため、偽造紙幣を作る人々は、本物の紙幣の紙質を模倣した化合物の配合をより正確に混合して、同じ感触の紙幣を作る方法を考え始めなければなりませんでした...このようにして、紙幣検出器の機能はどんどん強力になりましたが、偽造紙幣製造機の模倣能力も強くなりました。

2. 対立の中での「学び」

具体的には、GAN のジェネレーターと分類器は 2 つのニューラル ネットワークです。ニューラルネットワークは機械学習の基本的な技術です。これは「機械」として理解できます。処理する必要のあるデータを取り込んだ後、必要な結果を吐き出します。写真が犬か猫かを判断したい場合、結果は数字、つまり 1 (犬の場合) または 0 (猫の場合) になります。人工知能を使って翻訳する場合、入力は1つの言語のテキストで、出力は別の言語のテキストになります。

トレーニングされていない場合、ニューラル ネットワークは完全に信頼できない結果またはランダムな結果しか出力できません。しかし、正しい出力がわかっているデータが大量に見つかる場合は、ニューラル ネットワークをトレーニングして正しい答えを得ることができます。このプロセスを「学習」と呼びます。 GAN の分類器には、画像が本物か生成されたものか判別できる同様のメカニズムがあります。ジェネレーターは数値またはベクトルに基づいて画像を生成できます。

最初は、ジェネレーターには目標がなく、ぼやけた画像や純粋なノイズなどのランダムなデータしか生成できません。分類器は、これらの不良写真を実際の写真と区別するように簡単にトレーニングできます。この時点で、ジェネレーターは単純な分類器を騙すように自分自身をトレーニングする必要があります。

その後、このプロセスが繰り返されます。まず、分類器は強化されたジェネレータによって吐き出された画像を識別する方法を学習する必要があり、ジェネレータも強化された分類器を欺くために自分自身を改善する必要があります。数万回、あるいは数十万回の反復を経て、ジェネレーターは強力になり、よりリアルな画像を生成します。

原理は比較的単純ですが、GAN のトレーニングは非常に困難です。オリジナルのGAN論文では、生成された画像の品質は高くありませんでした。しかしその後、多数の研究チームがさまざまな方向から改良を加え、GAN のさまざまなバリエーションが生まれました。その中でも、非常にリアルな顔を生成できるStyleGANは非常に有名です。これらの顔は既存のものとは異なっており、完全にコンピューターによって作成されています。

画像生成モデルとして、GAN にはまだ多くの欠点があります。まず、GAN のトレーニングは非常に不安定で、トレーニング中にモデル全体がクラッシュすることがあります。第二に、異なるシナリオでは異なる GAN モデルのトレーニングが必要です。猫の写真を生成したい場合は、トレーニング用にたくさんの猫の写真を見つける必要があります。人間の顔の写真を生成したい場合は、大量の人間の顔の写真を取得する方法を見つける必要があります。

しかし、要件の種類は無限であり、シナリオによっては極めて複雑になることもあります。たとえば、「犬を追いかける猫を生成したい」などです。このような要件は GAN では解決が困難です。つまり、GAN は特定のシーンに特化したトレーニング画像データしか理解できず、人間の言語を理解することはできないため、テキストを通じて画像の生成を制御することはできません。これら 2 つの問題は、OpenAI の DALLE モデルによってほぼ解決されます。これについては次のビデオで詳しく説明します。

この記事は、中国科学普及-星空プロジェクト(創造と栽培)によって作成されました。転載の際は出典を明記してください。

著者: 関新宇 科学人気作家

査読者: Yu Yang、Tencent Xuanwu Lab 所長

<<:  太陽が「暴力モード」に入ると、地球は「耐えられなくなる」のです...

>>:  ポピュラーサイエンスイラストレーション |収穫期のハードコアな「収穫」シーンがわかる一枚の写真

推薦する

日光がなくても野菜は育ちますか?科学者が新たな方法を考案 |環境トランペット

みなさんこんにちは。環境トランペットコラム第30号です。今号では、次のような読む価値のある環境研究と...

ナマコを乾燥させる方法は?ナマコを乾燥させる手順と注意点は何ですか?

干しナマコは普通の食品とは異なります。普通の食品は洗浄後、そのまま調理に使用できますが、干しナマコは...

この症状は突然目に現れ、高血圧や糖尿病が原因の可能性があります

眼底は動脈、静脈、毛細血管を肉眼で直接観察できる部分です。これらの血管は人体の血液循環の状態や健康状...

春巻きの皮の作り方

広東省では、定年退職した中高年者の多くが毎朝茶屋に行ってお茶を飲み、軽食を食べるのが好きです。春巻き...

サンザシと栗は一緒に食べられますか?食べたらどうなるのでしょうか?

レビュー専門家:首都医科大学の病態生理学教授、博士課程指導者、王学江冬の初めが過ぎ、気温も下がってき...

寒波+強風+砂嵐!仕事を始める準備をしている方は、以下の予防策を講じてください。

1寒波オレンジ警報!中央気象台は2月18日午前6時にオレンジ色の寒波警報を発令した。強い寒気の影響...

素晴らしい! 「アイアンマン」には、現代のソフトウェアエンジニアリング設計のアイデアが数多く隠されています。

1. アイアンマン大東:2月の春節の映画市場の盛り上がりの後、3月は比較的感動的です。小白:はい、...

数十ドルの日焼け止め服と数百ドルの日焼け止め服の違いはどれくらい大きいのでしょうか?観た後はお金を無駄にしないでください!

秋の始まりとはいえ、太陽の紫外線の強さはまだまだ強いです。また、人々の日常の服装は主に半袖、ショート...

新型Kia K5は若々しい外観をしています。「Diaosi Sanbao」という名前は無駄ではありません

負け犬が自慢する三大宝物はK5、So8、マリブだと言われています。この3台は見た目は高級ですが高価で...

健康のヒント: その場で走ると体重が減る?専門家の意見を聞く →

誰もが知っているように、ランニングは非常にシンプルで簡単な運動方法です。しかし、走り方には違いがあり...

イカリングフライのレシピ

私たちの生活の中には、調理に適切な方法が必要な食べ物がたくさんあります。したがって、食べ物を準備する...

夏がやってきました。こっそりダイエット中でしょうか?いいえ!

最近、友人が地元の毛皮の子供たちの中には、痩せてしまった子もいるようです。ちょっとハゲてるし。冬とは...

ソースとは何ですか?

インターネットは今とても発達していますが、現代人は、一般的なソースなど、多くのことをまだ理解していま...