科学普及中国冬休み特別コラム「子どものためのハイテク授業」へようこそ! 今日の最先端の技術の一つである人工知能は、驚くべきスピードで私たちの生活を変えています。スマート音声アシスタントから自動運転車、AI ペインティングから機械学習まで、AI は私たちに無限の可能性に満ちた未来をもたらします。このコラムでは、ビデオとテキストを使用して、人工知能の原理、応用、そして社会への大きな影響を子供たちにわかりやすく説明します。 私たちと一緒に AI の旅を始めましょう! これはスーザンという名前のイギリス人の女の子で、これは彼女の父親のアダムです。この父と娘の写真には類似点がある。彼らの写真を注意深く見てください。この共通点を見つけられますか? AI生成画像 さて、答えを明らかにしましょう。共通点は、この2枚の写真がAIによって生成されていることです。スーザンとアダム、父と娘は存在しません。彼らの身元は捏造されたものである。 このような写真を見ると、少し驚かれるかもしれません。結局、昔はゲームやアニメ映画のキャラクターがどれだけリアルであっても、一目見ればAIが合成した肖像画だと分かったものだった。しかし今では、この 2 枚の写真に写っている人物はほとんど実在の人物のように見えます。 AIは人間の写真を生成するだけでなく、私たちのニーズに応じてさまざまなスタイルの写真を描くこともできます。今日は、AIがどうやってこんな絵を描くのか?というお話です。 生成的敵対ネットワーク AI によって生成された画像の背後には、GAN という非常に重要なテクノロジーがあります。 GAN は Generative Adversarial Networks の略語で、生成的敵対ネットワークを意味します。 2014年にイアン・グッドフェロー氏とその同僚によって提案されました。GANというととても難しそうに聞こえますが、その原理は実はとても理解しやすいものです。 顔の写真を描くことに特化した GAN を構築したいとします。このネットワークには、ジェネレーターとディスクリミネーターという 2 つの重要なメンバーがあります。 ジェネレーターのタスクは、ポートレート画像を生成することです。生成された画像は、実際の人物の写真と混合され、識別器が判断を下すことになります。識別器は、どれがジェネレータによって生成された写真で、どれが実際の人間の写真であるかを認識する必要があります。 ジェネレータによって生成された写真が識別器を騙すと、ジェネレータはスコアを取得し、そうでない場合は識別器がスコアを取得します。 最初は、ジェネレータによって生成された写真は実は非常に単純なものであり、実際の写真に配置すると一目でわかることが想像できます。 しかし、何千回ものトレーニングサイクルを経るうちに、ジェネレーターによって生成される画像は実際の人間の写真にどんどん近づいていきます。このプロセスでは、識別器もスコアを得るために識別能力を向上させる必要があります。 ますます巧妙になる識別器を欺くために、生成器は能力を向上し続けなければなりません。このように、何千万回ものトレーニングを経て、AIは極めてリアルな肖像画を描くことができるようになります。 ギャラリー内の画像は著作権で保護されています。転載して使用すると著作権侵害の恐れがあります。 もちろん、肖像画を描くだけでなく、GAN にさまざまなスタイルの画像を描かせることもできます。 たとえば、GAN にピカソ風の絵画を生成するように依頼した場合、その識別器は、その絵が実在の人物のように見えるかどうかを判断する必要はなくなり、どの絵が本物のピカソの作品で、どの絵が AI によって生成された作品であるかを判断する必要があります。このようなトレーニングにより、さまざまなスタイルの絵を描くことができます。これが Style GAN モデルが行うことです。 GAN に加えて、Stable Diffusion という別の画像生成技術があります。最近人気のMidJourneyはこのモデルを使用して生成されました。簡単に言えば、安定拡散は、無秩序なノイズの多い画像の束から段階的にノイズを除去し、最終的に期待される画像を生成できるプロセスです。 もちろん、現在私たちがよく知っている画像生成ソフトウェアにも、自然言語で記述された内容に基づいて画像を生成するという非常に重要な機能があります。 このプロセスは簡単ではありませんが、幸いなことにそれを可能にする 2 つのテクノロジーがあります。 1つ目は画像認識技術です。過去数十年にわたり、自動運転であれ、写真内の物体の検索であれ、画像の内容を認識するために AI が活用されてきました。このプロセスでは、人間が大量の写真の内容にラベルを付け、それを使ってAIがさまざまなものを認識できるようにAIをトレーニングしてきました。 もう一つの重要な技術は自然言語認識です。過去数十年にわたり、人々は私たちが書いたものや言っていることを AI に理解させようとしてきました。これにより、AI は与えられたテキストの意味をよりよく理解できるようになります。 「木にフクロウがいる」と言うと、コンピューターは、木に「猫」と「頭」があり、「鷲」がいるということではなく、鳥について話していることを理解できます。 画像認識や自然言語処理技術が成熟するにつれ、クロスモーダル検索と呼ばれる技術が登場しました。 モダリティとは、テキスト、画像、ビデオなど、データが存在する形式を指します。クロスモーダル検索では、テキスト内の「カップ」という単語を写真内のカップの画像に関連付けるなど、異なるモダリティのデータを関連付けることができます。 クロスモーダル検索技術の助けを借りて、AIは入力したテキスト情報を画像情報に変換できます。 現在では、GANや安定拡散に基づくAI画像生成技術が広く利用されています。画像生成に加えて、音楽、ビデオ、テキストの生成においても非常に幅広い用途があります。 2022年末以降も、多くの企業が人間の画家をAI画家に置き換えると発表しています。さまざまなソーシャルメディアで、AI によって生成された写真や動画を目にすることもあるでしょう。 もちろん、AI によって生成された写真やビデオについて懸念を表明する人もいます。結局のところ、彼らが生成する写真やビデオは非常にリアルなので、悪意のある人がこれらの写真を使用して詐欺を働いたり、噂を広めたりする可能性があります。 多くのAI企業もこれを考慮し、提供するAIサービスに何らかの制限を課し始めています。多くの国も、AI生成コンテンツに関する法律や規制の改善を検討し始めています。 ルールの改善と技術のさらなる発展により、AI技術がもたらすメリットはデメリットをはるかに上回り、最終的にはAIが人類にさらに役立つようになると信じています。 企画・制作 この記事は科学普及中国創造育成プログラムの成果です 制作:中国科学技術協会科学普及部 制作|中国科学技術出版有限公司、北京中科星和文化メディア有限公司 著者: 北京雲宇基文化コミュニケーション株式会社 査読者: 秦増昌、北京航空航天大学オートメーション科学・電気工学部准教授 企画丨Fu Sijia 編集者:傅思佳 校正:徐来林 |
<<: 台湾の台南でマグニチュード6.2の地震が発生し、福建省や広東省の多くの地域で揺れを感じました。再度のお知らせ:地震の早期警報は重要です!
>>: 年末が近づいてきましたので、お正月用の食材を買いだめする際は、これらの食品保存のヒントを念頭に置いてください。
暑い夏が近づくにつれ、お粥、冷菜、冷麺、ゼリーなどの各種食品が夏の屋台の名物スナックの一つになってい...
マトンスープは誰もが知っていると思います。名前の通り、マトンスープは羊肉で作られたスープです。マトン...
以前のメディア報道によると、新型FAW-VWアウディQ5は2018年第1四半期に中国で発売される予定...
最近は生活のペースが速く、料理をする時間がほとんどない人が多くいます。テイクアウトやファーストフード...
青班霞の効果と機能を理解したい場合は、まず青班霞に関する関連情報を理解する必要があります。青板峡は人...
映画とゲームのつながりは、過去 6 か月間で非常によく使われる言葉であり、映画やテレビ業界とゲームは...
粽は多くの人に好まれています。粽にはさまざまな味があり、自分の好みに合わせて作ることができます。粽を...
キャデラックは過去1年間に中国で急成長を遂げ、今年1月に最大の市場が中国に移った。キャデラックは老舗...
1. ニンニクを食べないニンニクには揮発性物質が多く含まれており、食べ過ぎると胃液の分泌が抑制され...
監査専門家:周洪志北京理工大学物理・光電子工学部上級実験家、修士指導教員キャンプやピクニック、レスト...
「顕微鏡はすべてに焦点を合わせ、インキュベーターは新しい生命を育む」は、サウスウェスト大学食品科学...
通常の製品であれば、支払った金額に見合った品質が得られますが、そうでなければ消費者を欺くことになりま...
私たちの生活の中で、テレビで仙草蜂蜜の広告をよく見ます。広告を見て美味しいだろうと思う友達もいますが...
感謝祭は、アメリカとカナダで共通の祝日です。もともとアメリカで、インディアンに感謝するという本来の意...
塩などの調味料については、多くの人が馴染みがあると思います。レストランでも家庭でも、私たちは料理の味...