ネットを席巻しているAI絵画の背後にある技術とは? (下)

ネットを席巻しているAI絵画の背後にある技術とは? (下)

前回は、GAN モデルとそれがどのようにリアルな画像を生成するかを紹介しました。しかし、GAN モデルにも深刻な問題があります。 GAN は、本質的に複雑な敵対的動作のため、トレーニングが困難です。学習中にモデルが停止したりクラッシュしたりして、パフォーマンスが元に戻ってしまうことがあります。さらに、GAN は汎用性が低いです。特定の種類の画像を生成したい場合、トレーニング データとして事前に大量の実際の類似画像を見つける必要があり、これもさまざまなシナリオでの GAN の大規模な適用を妨げます。

画像ソース: pixabay

1. 民間向けに事前トレーニングされた生成モデル

新しいモデルはこの問題を大幅に解決します。 2021年1月、アメリカの研究機関OPEN AIがDALL・Eをリリースし、その後OPEN AIは2022年4月にDALL・E 2を発表しました。GANと比較すると、DALL・Eは人間の言語を理解する能力も備えた事前トレーニング済みの大規模モデルであるため、ユーザーはテキストを1つ入力するだけで対応する画像を直接生成でき、毎回対応するデータセットに従って再トレーニングする必要はありません。

モデルのトレーニングに専門知識が不要となり、テキストを入力するだけで素晴らしい画像を生成できるため、DALL·E 2は海外のソーシャルネットワークで大きな話題を呼んでいます。人々はモデルにあらゆる種類の奇妙なテキストを入力し、生成された画像を公開し、それがインターネットミームになりました。

DALL·E 2 は、動物、植物、建物、人物など、さまざまなエンティティを正確に生成できるだけでなく、リアルな写真からデジタル アート、油絵からシンプルな描画、ゴッホからアンディ ホール、中国の伝統画から日本の浮世絵、毛織物から粘土スタイルまで、必要に応じて絵画スタイルを変更することもできます。入力テキストにスタイルを表す単語を 1 つまたは 2 つ追加するだけで、DALL·E 2 は、このスタイルに一致する画像を自動的に生成できます。

さらに驚くべきことは、DALL·E は言語の含意を非常に正確に理解していることが多いため、完全に架空のシーンに直面しても、複雑なロジックで素晴らしい画像を生成することもできるということです。例えば:

2. DALL·E 2はどのように訓練されましたか?

まず、OPEN AIは数億枚の画像とそれに対応する画像キャプションを取得し、CLIPと呼ばれるモデルをトレーニングしました。

このモデルは、複雑な高次元空間にテキストと画像を同時に投影できます。画像とテキストの間に対応関係がある場合、空間内で 2 つを表す点は非常に近くなります。そうしないと、両者の間に大きな距離が生じてしまいます。直感的に言えば、このモデルは人間の言語と画像の意味を捉えることができ、また、与えられたテキストに基づいてテキストの意味に一致する画像を見つけることもできます。

CLIP モデルは、意味的に類似した画像とテキストを、高次元空間内の互いに近いポイントに一致させることができます。

結果として得られた画像表現は、GLIDE と呼ばれる拡散モデルに渡され、ランダム ノイズの追加と除去が行われます。プロセス全体にランダムな要素が追加されるため、入力テキストの文から複数の異なる画像が生成される可能性があり、各画像はテキストの意味に準拠します。

OpenAIに加えて、Googleもその後、独自のモデルDisco Diffusionを立ち上げました。技術的な原理的には DALLE と非常に似ていますが、アーティストは主題のテキストを入力するだけでなく、いくつかの画像パラメータを制御できます。

DALLE·2とDisco Diffusionのどちらが良いでしょうか?それぞれに長所と短所があり、現時点では誰が優れているかを判断するのは難しいようです。両者を比較した作品は、海外の技術・デザイン界で人気文化となっている。全体的に見ると、彼らのスタイルはかなり異なります。 DALLE によって生成される画像はより論理的で現実的です。写真スタイルの画像は、歪みによって不快感を与える可能性が低くなります。一方、ディスコ ディフュージョンの写真は、より想像力に富み、独自のスタイルを持ち、より「芸術的」です。

これらのモデルは強力ですが、中国語を理解できず、伝統的な中国絵画など、中国の特徴を持つ画像を生成するのは困難です。そのため、中国の多くの機関も創造力のあるモデルの育成に取り組んでいます。百度は2022年8月に「文心易歌」をリリースした。これは中国語の入力を受け付けるだけでなく、古代の詩の芸術的概念を取り入れた中国の絵画や写真を生成するものでもある。

百度の文靈一歌が「江南水郷」のイメージを生成

3. 生成された画像の欠点

もちろん、AIの作品を鑑賞する一方で、人工知能が絵を描く際に生じる問題を無視することはできません。一つ目は、仕事の質の問題です。 AI 作品はインパクトと視覚的な緊張に満ちていますが、他のほとんどすべてのディープラーニング モデルと同様に、知識、推論、論理を理解するには十分ではありません。たとえば、「世界最大の猫の絵を描いてください」や「犬は猫の左側に座っています」という質問では、論理的または常識的な絵は描けません。リアルな人間の画像を生成する場合、わずかな偏差により不気味の谷効果が発生し、人々に不快感を与えることがあります。

広く注目されているもう一つの問題は、AI が奇妙な形の手を生成することが多いことです。この現象は、手が人体の中で最も形状が豊かな構造の 1 つであるという事実によるものと考えられます。人間の手には 20 個以上の関節があります (顔には 1 個しかありません)。

さらに、トレーニングに使用される写真のほとんどでは、手は最も中心的な部分ではないことが多いため、角度、距離、ジェスチャーが異なり、影や他のオブジェクトによってブロックされることもあります。

キャプション: 手にはさまざまな姿勢がある

指の形や数が異なる、さらに奇妙な「手」もあります。これらの画像には「手」というラベルが付けられており、モデルは画像の形状、および形状の平均的な形が妥当である可能性が高いと考え、さまざまなごつごつした手が生成されました。

これらも「手」と呼べる

品質の問題に加えて、AI によって生成されたコンテンツはさまざまな倫理的問題を引き起こす可能性もあります。たとえば、言語モデルによく見られる偏見や固定観念は、画像生成にも反映されます。例えば、「大企業の CEO」というイメージを生成する場合、成熟した白人男性が登場する可能性が高くなります。

さらに大きな懸念は、テクノロジーによって偽のコンテンツが簡単に生成されるようになる可能性があることだ。一例として、チーム写真のほぼすべてを AI テクノロジーで生成した企業があります。注意深く見れば、まだいくつかの手がかりを見つけることができます。例えば、1列目の2番目に座っている人は片方のイヤリングしか着けておらず、2列目の左から2番目の人の耳の輪郭は正常ではありません。

この記事は、中国科学普及-星空プロジェクト(創造と栽培)によって作成されました。転載の際は出典を明記してください。

著者: 関新宇 科学人気作家

査読者: Yu Yang、Tencent Xuanwu Lab 所長

<<:  色いいですね!魚の中に「カメレオン」は本当に存在するのでしょうか?

>>:  「ゼロカーボン農産物」:ディン! 「新しいグリーンメニュー」をご確認ください

推薦する

豚スペアリブの作り方

実際には豚スペアリブの調理方法はたくさんあり、人によって好みの食べ方も異なります。私たちが言いたいの...

朝に蜂蜜水を飲むのは良いことでしょうか?

美容を愛する人々にとって、蜂蜜水を飲むことは百害あって一利なしなので、多くの人はただの水を飲むのでは...

シーフード餃子の詰め物のレシピ

海鮮餃子の具材のレシピに関しては、豊富な経験を持つ人がたくさんいます。なぜなら、私たちの実生活では、...

血液から生まれたこの命を救う薬は、毎年何千万人もの人々を救っています。

• ワルファリンは、肝細胞内のビタミン K による凝固因子 II、VII、IX、X の合成を阻害す...

NIO がついに株式を公開しました。次に命を救うストローはどこにあるのでしょうか?

9月12日午前(東部時間)、NIOは1株当たり6.26ドルの発行価格で株式を公開しました。合計1億...

今日は清明節|お墓掃除の風習はこうして始まった!

この記事は、Science Popularization Chinaからのオリジナル記事です。転載に...

シロキクラゲと洋梨のデザート

シロキクラゲと雪梨は私たちの生活によく見られる食材ですが、作り方はあまり知られていません。シロキクラ...

彼は一つの価値に対して九つの計算をし、彼の人生は中国の核兵器開発の歴史である|タイムレター

北京科学センター特別プロジェクトオリジナルの科学者の手紙中国の核兵器開発の全過程を振り返ることができ...

もう一サイズ大きいですか? Apple iPad Pro レビュー

iPadはAppleの「話題の」製品と言えるでしょう。第一世代のiPadが発売されたとき、ジョブズが...

Windows タブレットは復活できるか?

タブレットパソコン、まだ使っていますか?みんながパッドを持ち、楽しくクリックし続けている光景はだんだ...

紫ジャガイモの効能と機能

ジャガイモは、私たちの多くが日常生活で食べている食品です。ジャガイモの一般的な調理法としては、細切り...

皮膚アレルギーがある場合、リュウガンを食べても大丈夫ですか?

リュウガンは非常に一般的です。栄養価が高く、いくつかの病気の治療に非常に役立ちます。ただし、リュウガ...

冬瓜蓮葉茶はダイエットに役立ちますか?

ダイエットは21世紀に入ってからずっと話題になっており、近年も加熱し続けており、美容を愛する女性たち...

現代自動車の売上は急落し、北京工場を売却する予定だ。 XiaomiとIdealが自動車製造事業を買収する可能性

近年業績が低迷している現代自動車グループまたは準備北京の第二工場を売りに出す。この工場では主にソナタ...

ベッドは人生と同じで、硬いほど良いのでしょうか?マットレスに関しては、多くの人が間違った睡眠をしていることが判明しました

柔らかいマットレスと硬いマットレスのどちらが良いでしょうか?柔らかいマットレスは今は受け入れられない...