AI は素早く上手に描画しますが、どのように描画するのでしょうか?

科学普及中国冬休み特別コラム「子どものためのハイテク授業」へようこそ！

今日の最先端の技術の一つである人工知能は、驚くべきスピードで私たちの生活を変えています。スマート音声アシスタントから自動運転車、AI ペインティングから機械学習まで、AI は私たちに無限の可能性に満ちた未来をもたらします。このコラムでは、ビデオとテキストを使用して、人工知能の原理、応用、そして社会への大きな影響を子供たちにわかりやすく説明します。

私たちと一緒に AI の旅を始めましょう!

これはスーザンという名前のイギリス人の女の子で、これは彼女の父親のアダムです。この父と娘の写真には類似点がある。彼らの写真を注意深く見てください。この共通点を見つけられますか？

AI生成画像

さて、答えを明らかにしましょう。共通点は、この2枚の写真がAIによって生成されていることです。スーザンとアダム、父と娘は存在しません。彼らの身元は捏造されたものである。

このような写真を見ると、少し驚かれるかもしれません。結局、昔はゲームやアニメ映画のキャラクターがどれだけリアルであっても、一目見ればAIが合成した肖像画だと分かったものだった。しかし今では、この 2 枚の写真に写っている人物はほとんど実在の人物のように見えます。

AIは人間の写真を生成するだけでなく、私たちのニーズに応じてさまざまなスタイルの写真を描くこともできます。今日は、AIがどうやってこんな絵を描くのか？というお話です。

生成的敵対ネットワーク

AI によって生成された画像の背後には、GAN という非常に重要なテクノロジーがあります。

GAN は Generative Adversarial Networks の略語で、生成的敵対ネットワークを意味します。 2014年にイアン・グッドフェロー氏とその同僚によって提案されました。GANというととても難しそうに聞こえますが、その原理は実はとても理解しやすいものです。

顔の写真を描くことに特化した GAN を構築したいとします。このネットワークには、ジェネレーターとディスクリミネーターという 2 つの重要なメンバーがあります。

ジェネレーターのタスクは、ポートレート画像を生成することです。生成された画像は、実際の人物の写真と混合され、識別器が判断を下すことになります。識別器は、どれがジェネレータによって生成された写真で、どれが実際の人間の写真であるかを認識する必要があります。

ジェネレータによって生成された写真が識別器を騙すと、ジェネレータはスコアを取得し、そうでない場合は識別器がスコアを取得します。

最初は、ジェネレータによって生成された写真は実は非常に単純なものであり、実際の写真に配置すると一目でわかることが想像できます。

しかし、何千回ものトレーニングサイクルを経るうちに、ジェネレーターによって生成される画像は実際の人間の写真にどんどん近づいていきます。このプロセスでは、識別器もスコアを得るために識別能力を向上させる必要があります。

ますます巧妙になる識別器を欺くために、生成器は能力を向上し続けなければなりません。このように、何千万回ものトレーニングを経て、AIは極めてリアルな肖像画を描くことができるようになります。

ギャラリー内の画像は著作権で保護されています。転載して使用すると著作権侵害の恐れがあります。

もちろん、肖像画を描くだけでなく、GAN にさまざまなスタイルの画像を描かせることもできます。

たとえば、GAN にピカソ風の絵画を生成するように依頼した場合、その識別器は、その絵が実在の人物のように見えるかどうかを判断する必要はなくなり、どの絵が本物のピカソの作品で、どの絵が AI によって生成された作品であるかを判断する必要があります。このようなトレーニングにより、さまざまなスタイルの絵を描くことができます。これが Style GAN モデルが行うことです。

GAN に加えて、Stable Diffusion という別の画像生成技術があります。最近人気のMidJourneyはこのモデルを使用して生成されました。簡単に言えば、安定拡散は、無秩序なノイズの多い画像の束から段階的にノイズを除去し、最終的に期待される画像を生成できるプロセスです。

もちろん、現在私たちがよく知っている画像生成ソフトウェアにも、自然言語で記述された内容に基づいて画像を生成するという非常に重要な機能があります。

このプロセスは簡単ではありませんが、幸いなことにそれを可能にする 2 つのテクノロジーがあります。

1つ目は画像認識技術です。過去数十年にわたり、自動運転であれ、写真内の物体の検索であれ、画像の内容を認識するために AI が活用されてきました。このプロセスでは、人間が大量の写真の内容にラベルを付け、それを使ってAIがさまざまなものを認識できるようにAIをトレーニングしてきました。

もう一つの重要な技術は自然言語認識です。過去数十年にわたり、人々は私たちが書いたものや言っていることを AI に理解させようとしてきました。これにより、AI は与えられたテキストの意味をよりよく理解できるようになります。

「木にフクロウがいる」と言うと、コンピューターは、木に「猫」と「頭」があり、「鷲」がいるということではなく、鳥について話していることを理解できます。

画像認識や自然言語処理技術が成熟するにつれ、クロスモーダル検索と呼ばれる技術が登場しました。

モダリティとは、テキスト、画像、ビデオなど、データが存在する形式を指します。クロスモーダル検索では、テキスト内の「カップ」という単語を写真内のカップの画像に関連付けるなど、異なるモダリティのデータを関連付けることができます。

クロスモーダル検索技術の助けを借りて、AIは入力したテキスト情報を画像情報に変換できます。

現在では、GANや安定拡散に基づくAI画像生成技術が広く利用されています。画像生成に加えて、音楽、ビデオ、テキストの生成においても非常に幅広い用途があります。

2022年末以降も、多くの企業が人間の画家をAI画家に置き換えると発表しています。さまざまなソーシャルメディアで、AI によって生成された写真や動画を目にすることもあるでしょう。

もちろん、AI によって生成された写真やビデオについて懸念を表明する人もいます。結局のところ、彼らが生成する写真やビデオは非常にリアルなので、悪意のある人がこれらの写真を使用して詐欺を働いたり、噂を広めたりする可能性があります。