ブラシからピクセルまで: AI ペイントの過去と現在の簡単な紹介

ブラシからピクセルまで: AI ペイントの過去と現在の簡単な紹介

AI ペインティングについて知っておくべきこと。

先週、待望のMidjourney V5 AI Art Generatorが正式にリリースされ、AI主導のアート制作の世界に再び変化をもたらしました。大幅に強化された画質、より多様な出力、幅広いスタイル、シームレスなテクスチャのサポート、より広いアスペクト比、改善された画像ヒント、拡張されたダイナミック レンジなどを誇ります。

以下の画像は、「イーロン・マスクがテスラを紹介する、90 年代のコマーシャル」というプロンプトで Midjourney V4 と Midjourney V5 によって生成されたものです。

今回人々の期待に応えたのは、Midjourney V5がよりリアルな画像生成効果、より表現力豊かなアングルやシーン概要、そしてついに正しく描画される「手」をもたらしたことです。かつて AI ペイント コミュニティで広く流布していたジョークは、 「女性に年齢を尋ねたり、AI モデルがなぜ手を隠すのか尋ねたりしてはいけない」というものでした。

これは、AI アート ジェネレーターが絵を描くのが下手だからです。視覚的なパターンは把握できるものの、その根底にある生物学的論理は把握できない。言い換えれば、AI アート ジェネレーターは手に指があることは理解できますが、人の片手には通常 5 本の指しかないことや、それらの指の長さは決まっていて、指同士の関係も固定されていることを理解するのは難しいのです。

過去 1 年間、AI アート ジェネレーターが手を正しくレンダリングできないという「欠陥」が文化的な比喩になりました。手の問題は、AI アート ジェネレーターがトレーニングに使用した膨大な画像データセットから情報を推測する能力に一部関係しています。

Midjourney V5 がリアルな人間の手を非常にうまく生成できることは注目に値します。ほとんどの場合、手は正しく、片方の手の指は 7 本から 10 本ではなく 5 本です。

Midjourney V5 のリリースにより、世界中のユーザーの間で幅広い関心が高まりました。大量のトラフィックが流入したため、Midjourney サーバーが短時間クラッシュし、多くのユーザーがアクセスできなくなりました。さらに、OpenAIのDALL・E 2、Stability AIのStable Diffusionなどの「文化グラフ」モデルも業界で話題になっています

人々がこれらの「テキスト画像」モデルにテキストを入力すると、説明に一致する比較的正確な画像を生成することができます。生成された画像は、油絵、CGI レンダリング、写真など、任意のスタイルに設定できます。多くの場合、唯一の制限は人間の想像力から生じます

前世:DeepDreamから始まった夢

2018年、AIが生成した初の肖像画「エドモンド・ド・ベラミー」が、オブビアス・アートの「ラ・ファミーユ・ド・ベラミー」シリーズの一部として敵対的生成ネットワーク(GAN)によって作成され、最終的にクリスティーズの美術オークションで43万2500ドルで落札されました。

2022年、ジェイソン・アレンのAI生成作品「Théâtre D'opéra Spatial」がコロラド州フェアの毎年恒例のアートコンテストで1位を獲得しました。

近年、人々の期待の中で、さまざまな「文勝図」モデルが次々と登場しています。ニューラル ネットワークが画像処理で一定の成果を達成すると、研究者はニューラル ネットワークが世界をどのように見て分類するかをより深く理解するための視覚化技術の開発を開始し、次々と「ヴェネツィア グラフ」モデルを作成しました。

DeepDream は、ニューラル ネットワークによって学習された表現に基づいて画像を生成します。入力画像を取得した後、トレーニング済みの畳み込みニューラル ネットワーク (CNN) を逆順に実行し、勾配上昇法を適用してレイヤー全体のアクティブ化を最大化しようとします。下の図 (左) は、元の入力画像とその DeepDream 出力を示しています。

驚くべきことに、DeepDream は ImageNet データベース (さまざまな犬種や鳥の例を含む) を使用してトレーニングされたため、出力画像には多くの動物の顔と目が含まれています。一部の人々にとって、DeepDream によって生成された画像は夢のようなサイケデリックな体験に似ています。しかし、それでも、DeepDream は芸術的な画像を作成するツールとしての AI の使用を加速させました。

ニューラル スタイル トランスファーは、ある画像のコンテンツと別の画像のスタイルを組み合わせることができるディープラーニング ベースの技術です。上図 (右) では、ゴッホの「星月夜」がターゲット画像に適用されています。 Neural Style Transfer は、CNN の損失関数を再定義してこれを実現します。つまり、CNN の高レベルのアクティベーションを通じてターゲット イメージを保持し、複数のアクティベーション レイヤーを通じて他のイメージのスタイルをキャプチャします。その結果、出力画像は入力画像のスタイルと内容を保持します。

2017年、Wei Ren Tanらは、 「 ArtGAN 」というモデルを提案しました。このモデルの出力画像は画家の作品とは全く似ていませんが、それでも芸術作品の低レベルの特徴を捉えています。その結果、ArtGAN はより多くの研究者に、芸術的な画像を生成するために GAN を使用するよう促しました。

その後すぐに、Ahmed Elgammal らは、識別器によって芸術的であると判断されるが、既存の芸術的スタイルには従わない画像を生成するように GAN をトレーニングするための Creative Adversarial Neural Network ( CAN ) を提案しました。 CAN が制作した画像はほとんどが抽象絵画のように見え、独特の雰囲気を醸し出しています

2017 年、Phillip Isola らは、入力画像を受け取り、変換されたバージョンを生成する条件付き GAN、pix2pixを作成しました。たとえば、現実世界で RGB 画像があるとすると、それを BW (白黒バイナリ画像) バージョンに簡単に変換できます。しかし、白黒画像をカラー画像に変換する場合、手動で色付けするのは非常に時間がかかります。 pix2pix はこのプロセスを自動化し、トレーニング プロセスや損失関数を調整する必要なく、任意の画像ペアのデータセットに適用できます。

pix2pix は生成 AI における大きな進歩ですが、トレーニングには対応する画像ペアが必要であり、すべてのアプリケーションで実行できるわけではありません。たとえば、モネが作成したすべての絵画に対応する写真がなければ、pix2pix は入力をモネの絵画に変換できません。

この目的のために、Jun-Yan Zhu、Taesung Parkらは、2つの条件付きGANとそれらの間の「サイクル」を組み合わせてpix2pixを拡張する「CycleGAN」を提案しました。このモデルは、トレーニング セット内のペア画像を参照せずに、画像を他のモダリティに変換できます。

この人生:トランスフォーマーとディフュージョンの戦い

2021年に大きな転機が訪れ、数々の「Venshengtu」モデルが登場したOpenAI は、ピクサーのアニメ映画「ウォーリー」とシュルレアリストの画家サルバドール・ダリにちなんで名付けられた DALL·E をリリースしました。 DALL·E は、画像を低次元トークンにマッピングすることを学習する離散変分オートエンコーダ (dVAE) と、テキストおよび画像トークンをモデル化する自己回帰トランスフォーマー モデルを組み合わせたものです。テキスト入力が与えられると、DALL·E は画像トークンを予測し、推論中にそれらを画像にデコードできます。

DALL·E は、個別に学習したが、生成された単一の画像では見たことのない概念を組み合わせることもできます。たとえば、トレーニング セットにはロボットやドラゴンのイラストがありますが、ドラゴンの形をしたロボットはありません。 「ロボット ドラゴン」と指示された場合、モデルは対応する画像を生成することができました。

しかし、DALL·E はコミックや芸術的なスタイルの画像をうまく生成できる一方で、リアルな写真を正確に生成することはできません。そのため、OpenAI は改良されたテキスト グラフ モデルであるDALL·E 2を作成するために多くのリソースを投入しました。

DALL·E 2 は、CLIP (Dataset of Image-Text Pairs) テキスト エンコーダを使用します。 DALL·E 2 は、テキストの説明と画像の関係を利用して、テキスト入力を反映し、画像生成に適した Diffusion モデルの埋め込みを提供します。 DALL·E と比較して、 DALL·E 2では画像の品質が向上し既存の画像やコンピューターで生成された画像の背景を拡張することもできます。たとえば、有名作品のキャラクターをカスタム背景に配置します。

その後すぐに、Google は Imagen と呼ばれるテキストベースのグラフ モデルをリリースしました。このモデルは、NLP モデル T5-XXL の事前トレーニング済みエンコーダーを使用し、その埋め込みが Diffusion モデルに入力されます。その結果、モデルはテキストを含む画像をより正確に生成できるようになりました(OpenAI のモデルでは困難だった問題)。

しかし、「ヴィンテージ グラフ」の分野における最大の革命は、Stability AI がリリースした完全にオープンソースの Stable Diffusionかもしれません。 Stable Diffusion の計算効率は、他の Wensheng グラフ モデルよりもはるかに高くなります。以前の Wensheng グラフ モデルでは、数百日間の GPU 計算が必要でしたが、Stable Diffusion では計算量が大幅に少なくなるため、リソースが限られている人にも受け入れられやすくなります。また、画像間の変換(スケッチをデジタルアートに変換するなど)やペイント(既存の画像から何かを削除または追加する)によって、既存の画像を変更することもできます。

ディープラーニングとその画像処理アプリケーションは、数年前とはまったく異なる段階にあります。前世紀の初めには、ディープニューラルネットワークが自然画像を分類できるというのは画期的なことでした。今日、これらの画期的なモデルは、Transformer を使用するか、または Diffusion モデルに基づいて、単純なテキスト プロンプトに基づいて非常にリアルで複雑な画像を生成できるため、 「テキスト画像」の分野が輝き、アート界の新たなブラシとなっています

「脅威」か「共生」か、人間画家はどこへ向かうのか?

AIアーティストは誕生以来、論争に悩まされてきました。著作権紛争、誤った情報の出力、アルゴリズムの偏りなどにより、「芸術的画像」アプリケーションは何度も論争の中心となってきました。たとえば、今年 1 月には、3 人のアーティストが、Stable Diffusion と Midjourney の作成者である Stability AI と Midjourney、および DreamUp のアーティスト ポートフォリオ プラットフォームである DeviantArt に対して訴訟を起こしました。同団体は、ウェブから収集した50億枚の画像を使って「元のアーティストの同意なしに」AIモデルをトレーニングし、「何百万人ものアーティスト」の権利を侵害したと主張している。

アーティストの多くは、AIが自分たちの独特なスタイルを模倣することでロボットに取って代わられ、生計を失うのではないかと恐れています。昨年12月、何百人ものアーティストがインターネット最大のアートコミュニティの1つであるArtStationに画像をアップロードし、「 AI生成画像ノー」を訴えた。一方で、芸術家の中には「私たちは目の前で芸術の死が進行していくのを見ている」と悲観的に考える者もいる。トレーニングデータに使用される画像の著作権については、依然として論争が続いています。

もちろん、AIを積極的に取り入れ、反復的で退屈な作業を省くためにWenshengの画像モデルを絵画アシスタントとして使用しているアーティストもいます。同時に、一部のアーティストはAIを想像力の「エンジン」として使い、Midjourneyのようなソフトウェアやコミュニティでのユーザーとの交流の中で、お互いを引き裂き、新しく興味深い人間の美学を生み出し、それが現実世界に溢れ出しています。 Midjourney は次のように説明しています。「AI は現実世界の複製ではなく、人間の想像力の延長です。」

現在、規制当局は AI アーティストに追いつこうとしています。最近、米国著作権局は書簡の中で、AIシステム「Midjourney」を使用して作成されたグラフィックノベルの画像は著作権保護を受けるべきではないと述べた。この判決は、AIによって作成された作品の著作権保護の範囲に関して米国の裁判所または機関が下した最初の判決の一つとなる。さらに、一部の学者は、ヴィンセント グラフ DIffusion モデルによるスタイルの模倣からアーティストを保護するために、アーティストが慎重に計算された摂動をアートに適用できるようにする Glaze と呼ばれるシステムを提案しました。

一連の「ビンテージ」アプリケーションにより、プログラミングの知識のないアーティストや一般の人々が、これらの強力なモデルを使用して視覚的に素晴らしい画像を生成できるようになります。 「AIに創造力を与える」これらのツールは、絵画であろうと他の分野であろうと、アーティストが創造性を表現するのに役立ち、芸術の未来を形作る可能性があります。

芸術における AI の役割は、その使用方法と、それを使用する人々の目標と価値観によって異なりますが、これらのモデルの使用は倫理的かつ責任ある考慮に基づいて行われるべきであることを覚えておくことが重要です。

参考リンク:

https://arxiv.org/abs/2302.10913

https://arxiv.org/abs/2302.04222

https://tech.cornell.edu/news/ai-vs-artist-the-future-of-creativity/

https://www.taipeitimes.com/News/biz/archives/2023/02/24/2003794928

https://www.buzzfeednews.com/article/pranavdixit/ai-art-generators-lawsuit-stable-diffusion-midjourney

https://www.theverge.com/2023/1/16/23557098/generative-ai-art-copyright-legal-lawsuit-stable-diffusion-midjourney-deviantart

https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/

<<:  最も美しい春はどこですか? 12枚の地図が教えてくれます!

>>:  私の友人関係を壊滅させた砂嵐はどうなったのでしょうか?

推薦する

MIUI6は論争を引き起こした。カスタマイズされたシステムは将来どこに向かうのでしょうか?

「最高のサードパーティ製カスタマイズAndroid携帯システム」であるMIUIは、最近、コードネー...

にんじんと洋ナシのジュース

にんじんジュースと梨ジュースはどちらも飲料食品です。その製造法を正しく習得することによってのみ、含ま...

ローストラムの調理方法

ほとんどの人は肉を食べるのが好きで、最も一般的なのは豚肉、牛肉、羊肉です。羊肉は非常に栄養価の高い食...

中国と日本は協力を拡大し、自動運転の国際基準の検証試験を実施する

自動車分野における中国と日本の協力はますます緊密になっている。以前、中国電力協会と日本の業界団体は、...

「猫は裏切り者、犬は忠実」?なぜ猫は犬よりも独立心が強いように見えるのでしょうか?

ペットの飼い主は、猫を飼うのは犬を飼うよりずっと簡単だということに気づいたに違いありません。他のこと...

MediaTekの10コアHelio X20プロセッサが過熱にさらされた:Xiaomiはもうそれを望んでいない

Helio X10 MT6795のWi-Fi中断問題は最近MediaTekに大きな問題を引き起こし、...

ゴーヤの作り方

ゴーヤと言えば、どこから始めたらいいのか分からないという人も多いでしょう。ゴーヤには栄養価や健康価値...

ORCインターナショナル:調査によるとソーシャルメディアは観光業界に完全に浸透している

アコーがアジア太平洋地域で実施した第2回ソーシャルメディア調査の結果によると、今日の旅行者は、ビーチ...

カレー粉の副作用

カレー粉といえば、おいしいタイ料理を作るのに使うことをすぐに思い浮かべる人が多いでしょう。カレー粉は...

もち米のケーキの作り方

もち米のケーキは、多くの人に好まれています。この珍味は、食べても体に害はありません。もち米のケーキは...

氷砂糖梨の作り方

氷砂糖は私たちの日常生活で非常に一般的です。氷砂糖は、もともと味気ない食材を甘くするための調味料とし...

AppleのAirPodsヘッドフォンはなぜこんなに時間がかかるのでしょうか?

最近最も混乱を招くAppleのアクセサリといえば、AirPodsワイヤレスヘッドフォンでしょう。 i...

トウモロコシが濡れると発がん物質が生成される

トウモロコシは誰もがよく知る食品ですが、トウモロコシが湿気るとどんな物質が発生し、人体にどんな害を及...