ネットを席巻しているAI絵画の背後にある技術とは? (下)

ネットを席巻しているAI絵画の背後にある技術とは? (下)

前回は、GAN モデルとそれがどのようにリアルな画像を生成するかを紹介しました。しかし、GAN モデルにも深刻な問題があります。 GAN は、本質的に複雑な敵対的動作のため、トレーニングが困難です。学習中にモデルが停止したりクラッシュしたりして、パフォーマンスが元に戻ってしまうことがあります。さらに、GAN は汎用性が低いです。特定の種類の画像を生成したい場合、トレーニング データとして事前に大量の実際の類似画像を見つける必要があり、これもさまざまなシナリオでの GAN の大規模な適用を妨げます。

画像ソース: pixabay

1. 民間向けに事前トレーニングされた生成モデル

新しいモデルはこの問題を大幅に解決します。 2021年1月、アメリカの研究機関OPEN AIがDALL・Eをリリースし、その後OPEN AIは2022年4月にDALL・E 2を発表しました。GANと比較すると、DALL・Eは人間の言語を理解する能力も備えた事前トレーニング済みの大規模モデルであるため、ユーザーはテキストを1つ入力するだけで対応する画像を直接生成でき、毎回対応するデータセットに従って再トレーニングする必要はありません。

モデルのトレーニングに専門知識が不要となり、テキストを入力するだけで素晴らしい画像を生成できるため、DALL·E 2は海外のソーシャルネットワークで大きな話題を呼んでいます。人々はモデルにあらゆる種類の奇妙なテキストを入力し、生成された画像を公開し、それがインターネットミームになりました。

DALL·E 2 は、動物、植物、建物、人物など、さまざまなエンティティを正確に生成できるだけでなく、リアルな写真からデジタル アート、油絵からシンプルな描画、ゴッホからアンディ ホール、中国の伝統画から日本の浮世絵、毛織物から粘土スタイルまで、必要に応じて絵画スタイルを変更することもできます。入力テキストにスタイルを表す単語を 1 つまたは 2 つ追加するだけで、DALL·E 2 は、このスタイルに一致する画像を自動的に生成できます。

さらに驚くべきことは、DALL·E は言語の含意を非常に正確に理解していることが多いため、完全に架空のシーンに直面しても、複雑なロジックで素晴らしい画像を生成することもできるということです。例えば:

2. DALL·E 2はどのように訓練されましたか?

まず、OPEN AIは数億枚の画像とそれに対応する画像キャプションを取得し、CLIPと呼ばれるモデルをトレーニングしました。

このモデルは、複雑な高次元空間にテキストと画像を同時に投影できます。画像とテキストの間に対応関係がある場合、空間内で 2 つを表す点は非常に近くなります。そうしないと、両者の間に大きな距離が生じてしまいます。直感的に言えば、このモデルは人間の言語と画像の意味を捉えることができ、また、与えられたテキストに基づいてテキストの意味に一致する画像を見つけることもできます。

CLIP モデルは、意味的に類似した画像とテキストを、高次元空間内の互いに近いポイントに一致させることができます。

結果として得られた画像表現は、GLIDE と呼ばれる拡散モデルに渡され、ランダム ノイズの追加と除去が行われます。プロセス全体にランダムな要素が追加されるため、入力テキストの文から複数の異なる画像が生成される可能性があり、各画像はテキストの意味に準拠します。

OpenAIに加えて、Googleもその後、独自のモデルDisco Diffusionを立ち上げました。技術的な原理的には DALLE と非常に似ていますが、アーティストは主題のテキストを入力するだけでなく、いくつかの画像パラメータを制御できます。

DALLE·2とDisco Diffusionのどちらが良いでしょうか?それぞれに長所と短所があり、現時点では誰が優れているかを判断するのは難しいようです。両者を比較した作品は、海外の技術・デザイン界で人気文化となっている。全体的に見ると、彼らのスタイルはかなり異なります。 DALLE によって生成される画像はより論理的で現実的です。写真スタイルの画像は、歪みによって不快感を与える可能性が低くなります。一方、ディスコ ディフュージョンの写真は、より想像力に富み、独自のスタイルを持ち、より「芸術的」です。

これらのモデルは強力ですが、中国語を理解できず、伝統的な中国絵画など、中国の特徴を持つ画像を生成するのは困難です。そのため、中国の多くの機関も創造力のあるモデルの育成に取り組んでいます。百度は2022年8月に「文心易歌」をリリースした。これは中国語の入力を受け付けるだけでなく、古代の詩の芸術的概念を取り入れた中国の絵画や写真を生成するものでもある。

百度の文靈一歌が「江南水郷」のイメージを生成

3. 生成された画像の欠点

もちろん、AIの作品を鑑賞する一方で、人工知能が絵を描く際に生じる問題を無視することはできません。一つ目は、仕事の質の問題です。 AI 作品はインパクトと視覚的な緊張に満ちていますが、他のほとんどすべてのディープラーニング モデルと同様に、知識、推論、論理を理解するには十分ではありません。たとえば、「世界最大の猫の絵を描いてください」や「犬は猫の左側に座っています」という質問では、論理的または常識的な絵は描けません。リアルな人間の画像を生成する場合、わずかな偏差により不気味の谷効果が発生し、人々に不快感を与えることがあります。

広く注目されているもう一つの問題は、AI が奇妙な形の手を生成することが多いことです。この現象は、手が人体の中で最も形状が豊かな構造の 1 つであるという事実によるものと考えられます。人間の手には 20 個以上の関節があります (顔には 1 個しかありません)。

さらに、トレーニングに使用される写真のほとんどでは、手は最も中心的な部分ではないことが多いため、角度、距離、ジェスチャーが異なり、影や他のオブジェクトによってブロックされることもあります。

キャプション: 手にはさまざまな姿勢がある

指の形や数が異なる、さらに奇妙な「手」もあります。これらの画像には「手」というラベルが付けられており、モデルは画像の形状、および形状の平均的な形が妥当である可能性が高いと考え、さまざまなごつごつした手が生成されました。

これらも「手」と呼べる

品質の問題に加えて、AI によって生成されたコンテンツはさまざまな倫理的問題を引き起こす可能性もあります。たとえば、言語モデルによく見られる偏見や固定観念は、画像生成にも反映されます。例えば、「大企業の CEO」というイメージを生成する場合、成熟した白人男性が登場する可能性が高くなります。

さらに大きな懸念は、テクノロジーによって偽のコンテンツが簡単に生成されるようになる可能性があることだ。一例として、チーム写真のほぼすべてを AI テクノロジーで生成した企業があります。注意深く見れば、まだいくつかの手がかりを見つけることができます。例えば、1列目の2番目に座っている人は片方のイヤリングしか着けておらず、2列目の左から2番目の人の耳の輪郭は正常ではありません。

この記事は、中国科学普及-星空プロジェクト(創造と栽培)によって作成されました。転載の際は出典を明記してください。

著者: 関新宇 科学人気作家

査読者: Yu Yang、Tencent Xuanwu Lab 所長

<<:  色いいですね!魚の中に「カメレオン」は本当に存在するのでしょうか?

>>:  「ゼロカーボン農産物」:ディン! 「新しいグリーンメニュー」をご確認ください

推薦する

赤身肉のカロリー

肉は人々の生活に欠かせない食材であり、それなしでは生きていけないものです。多くの人は脂身の多い肉を好...

「リード」は私を侮らないで! 「草の根」鉱物の反撃

人類は何千年もの間鉛を使用してきました。鉛が環境や健康に及ぼす害がまだ認識されていなかった初期の頃、...

世界経済フォーラム:社会イノベーションを促進するためのAIエコシステムの強化

199ITオリジナルコンピレーション民間部門、政府、仲介者からの適切なサポートがあれば、ソーシャルイ...

BMWのCFOがアップルカーについて語る:脅威を恐れず、「ぐっすり眠る」ことで、今後も業界をリードする地位を維持する

海外メディアの報道によると、BMWのニコラス・ピーター最高財務責任者は、アップルの自動車がもたらす潜...

ライスヌードルの作り方

広東省では、炒め牛肉麺は誰もがよく知っていて、伝統的な珍味となっています。揚げ牛肉麺の主な材料は牛肉...

本当、下着や靴下は手洗いするよりも洗濯機に放り込んだほうが良いですよ!

仕事が忙しくなると、家事も怠けたくなるものです。下着や靴下を1週間も置いて洗濯する余裕はないですが、...

風に舞う科学の天才:フォン・カルマン没後60周年記念

セオドア・フォン・カルマンは有人宇宙飛行の分野における代表的人物です。彼は空気力学者、エンジニア、応...

フルーツ団子の作り方

フルーツレザーは私たちにとってとても馴染み深いはずです。フルーツレザーを初めて食べたとき、私たちの多...

暑い暑い暑い!体感温度と気象温度はなぜこんなにも違うのでしょうか?

天気予報では今日の最高気温は30℃と出ているのに、道を歩いていると40℃くらいに感じるというのはなぜ...

涼皮の作り方

暑い夏にスープを食べると、ますます暑く感じてしまいます。冷たい食べ物を食べることができれば、とても快...

ドイツ車は日本車よりも耐久性がありますか?メディアはフォルクスワーゲン サジターとカローラの衝突をテストした。誰がひっくり返ったの?

車愛好家の間では、ドイツ車は厚くて衝突に強いが、日本車は薄くて衝撃を吸収すると言われている。日本車と...

ファーウェイ、フォルクスワーゲンのサプライヤーと特許ライセンス契約を締結、3000万台以上の車両に影響

ファーウェイの自動車産業における発展は「急速な進歩」と言える。業界参入以来、電動モーター、集中制御、...

漬けキャベツと春雨の作り方

日常生活で、揚げ春雨とザワークラウトを食べたことがありますか?この料理は四川の主な名物料理なので、各...

美団: 2020年第3四半期決算会議議事録

2020年11月30日 美団(HKEXコード:3690)は月曜日、2020年9月30日までの第3四半...

中国乗用車協会:2022年7月の新エネルギー乗用車の小売販売台数は48.6万台に達し、前年比117.3%増

小売:2022年7月の乗用車市場の小売販売台数は181.8万台に達し、前年比20.4%増となり、過去...