ネットを席巻しているAI絵画の背後にある技術とは? (優れた)

ネットを席巻しているAI絵画の背後にある技術とは? (優れた)

機械を創造的にすることは、常に人工知能の最高の理想の一つでした。したがって、生成タスクは機械の創造性の尺度になります。これらの生成タスクには、テキスト(質問と回答、対話、詩、小説)の生成と、画像やビデオの生成が含まれます。今回は、最近画面上でよく見かけるAIによる絵画制作の裏側にある技術を紹介します。

画像ソース: pixabay

1. 敵対的ネットワークモデル(GAN)の誕生

数年前まで、AI は生成タスクのパフォーマンスが低かった。彼らは、テンプレートとルールに従って厳密に繰り返すか、または自由に想像力豊かにナンセンスを話すことしかできません。生成的敵対ネットワーク モデルが誕生して初めて、人工知能が創造性を生み出し、その創造性の質を制御できるようになりました。 Generative Adversarial Network の英語の略称は GAN です。

ジェネレータ(G)と敵対的(分類器)(A)で構成されています。ジェネレーターは、現実的な画像を取得して分類器を欺くために継続的にトレーニングする必要があります。一方、分類器は生成された画像を実際の画像と区別するために最善を尽くす必要があります。

GAN の作者であるイアン・グッドフェローは、彼のオリジナルの論文の中で、架空の警察官と偽造犯の例を使用しました。分類するのは警察であり、生成するのは偽造紙幣工場です。当初、警察は大まかな模様でしか本物の紙幣と偽物の紙幣を区別できなかったため、偽造紙幣工場は紙幣の主な模様を印刷するだけで、偽造を逃れることができました。偽造紙幣の問題に対処するため、警察は紙幣の陰影、マイクロテキスト、透かしの検査を開始した。その結果、これらの特徴を備えた偽造紙幣を製造できなかった多くの偽造紙幣工場は閉鎖を余儀なくされ、残った紙幣は明らかに偽造しやすくなり、より本物に近い紙幣を製造できるようになりました。警察は、これらの偽造紙幣を判別し続けるために、これらの偽造紙幣に使用されている紙が本物の紙幣のものと異なり、手触りも異なっていることを発見しました。そのため、偽造紙幣を作る人々は、本物の紙幣の紙質を模倣した化合物の配合をより正確に混合して、同じ感触の紙幣を作る方法を考え始めなければなりませんでした...このようにして、紙幣検出器の機能はどんどん強力になりましたが、偽造紙幣製造機の模倣能力も強くなりました。

2. 対立の中での「学び」

具体的には、GAN のジェネレーターと分類器は 2 つのニューラル ネットワークです。ニューラルネットワークは機械学習の基本的な技術です。これは「機械」として理解できます。処理する必要のあるデータを取り込んだ後、必要な結果を吐き出します。写真が犬か猫かを判断したい場合、結果は数字、つまり 1 (犬の場合) または 0 (猫の場合) になります。人工知能を使って翻訳する場合、入力は1つの言語のテキストで、出力は別の言語のテキストになります。

トレーニングされていない場合、ニューラル ネットワークは完全に信頼できない結果またはランダムな結果しか出力できません。しかし、正しい出力がわかっているデータが大量に見つかる場合は、ニューラル ネットワークをトレーニングして正しい答えを得ることができます。このプロセスを「学習」と呼びます。 GAN の分類器には、画像が本物か生成されたものか判別できる同様のメカニズムがあります。ジェネレーターは数値またはベクトルに基づいて画像を生成できます。

最初は、ジェネレーターには目標がなく、ぼやけた画像や純粋なノイズなどのランダムなデータしか生成できません。分類器は、これらの不良写真を実際の写真と区別するように簡単にトレーニングできます。この時点で、ジェネレーターは単純な分類器を騙すように自分自身をトレーニングする必要があります。

その後、このプロセスが繰り返されます。まず、分類器は強化されたジェネレータによって吐き出された画像を識別する方法を学習する必要があり、ジェネレータも強化された分類器を欺くために自分自身を改善する必要があります。数万回、あるいは数十万回の反復を経て、ジェネレーターは強力になり、よりリアルな画像を生成します。

原理は比較的単純ですが、GAN のトレーニングは非常に困難です。オリジナルのGAN論文では、生成された画像の品質は高くありませんでした。しかしその後、多数の研究チームがさまざまな方向から改良を加え、GAN のさまざまなバリエーションが生まれました。その中でも、非常にリアルな顔を生成できるStyleGANは非常に有名です。これらの顔は既存のものとは異なっており、完全にコンピューターによって作成されています。

画像生成モデルとして、GAN にはまだ多くの欠点があります。まず、GAN のトレーニングは非常に不安定で、トレーニング中にモデル全体がクラッシュすることがあります。第二に、異なるシナリオでは異なる GAN モデルのトレーニングが必要です。猫の写真を生成したい場合は、トレーニング用にたくさんの猫の写真を見つける必要があります。人間の顔の写真を生成したい場合は、大量の人間の顔の写真を取得する方法を見つける必要があります。

しかし、要件の種類は無限であり、シナリオによっては極めて複雑になることもあります。たとえば、「犬を追いかける猫を生成したい」などです。このような要件は GAN では解決が困難です。つまり、GAN は特定のシーンに特化したトレーニング画像データしか理解できず、人間の言語を理解することはできないため、テキストを通じて画像の生成を制御することはできません。これら 2 つの問題は、OpenAI の DALLE モデルによってほぼ解決されます。これについては次のビデオで詳しく説明します。

この記事は、中国科学普及-星空プロジェクト(創造と栽培)によって作成されました。転載の際は出典を明記してください。

著者: 関新宇 科学人気作家

査読者: Yu Yang、Tencent Xuanwu Lab 所長

<<:  太陽が「暴力モード」に入ると、地球は「耐えられなくなる」のです...

>>:  ポピュラーサイエンスイラストレーション |収穫期のハードコアな「収穫」シーンがわかる一枚の写真

推薦する

鹿の角の血の効能と機能

鹿の角は非常に貴重な薬用素材であることは誰もが知っています。鹿の角は多くの病気の治療に非常に効果的で...

ティーツリーマッシュルームと肉の炒め物の作り方

ティーツリーマッシュルームは、実は非常に進化した野生のキノコです。非常に高タンパク質が豊富で、典型的...

金と銀の間違い: 数千年にわたる最も美しい間違い

金銀象嵌は、象嵌金銀とも呼ばれ、古代中国の金属細工の装飾技法の 1 つです。金銀象嵌技法は、商・周時...

軍閥の集団か、それとも2つの強力なライバル関係か? 2次元動画サイトとの戦い

二次元動画の分野では、A局とB局が初期から覇権を競い合ってきた。 Station Aは今年8月にシリ...

Apple Watch はなぜ失敗しているのか?

7月13日、第三者分析機関が発表した最新の調査レポートによると、Apple Watchの売上は正式...

iPhone 6 アプリ実行速度 VS Samsung Galaxy S6

多くのユーザーがスマートフォンを選ぶ際、プログラムの実行速度も基準の一つとなります。 Samsung...

夕日がとても綺麗ですね!しかし、携帯で写真を撮ったら、何かおかしい気がしました...

最近、息を呑むほど美しい夕日が各地でよく見られるようになりました。しかし、携帯電話で夕焼けの写真を撮...

よく怒る人は、これらの8つの食品をもっと食べましょう

熱を取り除く食事療法の一般的な原則は、新鮮な緑の葉野菜、果物、緑茶など、熱を清め、陰を養う食品を多く...

グーグル・ウェイモ、自動運転の特許戦争でウーバーが技術秘密を盗んだと非難

ロイター通信によると、現地時間2月23日、グーグルの自動運転プロジェクトから独立した企業であるウェイ...

乾燥デイリリーの効能と機能

金針野菜とも呼ばれるデイリリーは、私たちが日常的に食べているはずです。特に新鮮なデイリリーは味がとて...

豆とジャガイモの調理方法

一般的な家庭料理といえば、おそらく誰もが豆とジャガイモの煮込み料理を知っているでしょう。じゃがいもと...

コーンオムレツ

トウモロコシは私たちの生活の中でよく食べられる食べ物です。健康に気を配る人は、トウモロコシが粗粒穀物...

ゲームメーカーによると、N カードは DX12 非同期コンピューティングをサポートしていないそうです。

[PConline ニュース] Win10 の正式リリース以来、プッシュ通知を通じてアップグレード...

ニンニクを水で煮る

ニンニクは私たちの日常生活でとても身近な食品です。人々は主にこれを料理の材料として使い、ニンニクを生...