写真を撮ればすべてがわかります。 AIはどうやって写真を「理解」するのでしょうか?

写真を撮ればすべてがわかります。 AIはどうやって写真を「理解」するのでしょうか?

科学普及中国冬休み特別コラム「子どものためのハイテク授業」へようこそ!

今日の最先端の技術の一つである人工知能は、驚くべきスピードで私たちの生活を変えています。スマート音声アシスタントから自動運転車、AI ペインティングから機械学習まで、AI は私たちに無限の可能性に満ちた未来をもたらします。このコラムでは、ビデオとテキストを使用して、人工知能の原理、応用、そして社会への大きな影響を子供たちにわかりやすく説明します。

私たちと一緒に AI の旅を始めましょう!

以下はテキストバージョンです。

AI画像認識は私たちの生活のいたるところに存在しています。

見覚えのない植物を見つけましたか?写真を撮って数分で調べます。自動運転車はまるで目を持っているようで、道路がどこにあり、木がどこにあるのかを簡単に判断できます。顔認識技術により、顔をスキャンして支払うことも可能になりました。

これらすべては、畳み込みニューラル ネットワークという 1 つのテクノロジーから切り離すことはできません。この技術はAIの目のようなものです。

AI の目がどのように機能するかを理解するには、まず動物の目がどのように機能するかを調べる必要があります。

猫の目からAIの目へ:視覚ニューロンからのインスピレーション

1950年代から1960年代にかけて、デイヴィッド・ヒューベルとトルステン・ヴィーゼルは猫の視覚を研究し、猫の視野に絵が入った後、猫の脳内の視覚を司るニューロンがさまざまなものによって活性化されることを発見しました。

理解しやすくするために、例を見てみましょう。たとえば、このような画像では、一部のニューロンは画像内の物体のエッジラインに非常に興味を持ち、この情報の処理に集中しますが、一部のニューロンは大きな色のブロックに敏感で、この情報の処理が得意です。これらの神経細胞は協力して働き、生物がさまざまな複雑な画像を認識できるようにします。

エドガー・ドガ、田舎の競馬場で、1869年

この研究により、デイヴィッドとトルスタインは1981年のノーベル生理学・医学賞を受賞し、人工知能の分野で非常に重要なアルゴリズムである畳み込みニューラルネットワークにも影響を与えました。

1980年代に、日本の科学者福島邦彦は、日本語の手書き文字を認識するためにネオコグニトロンと呼ばれるモデルを設計しました。 Neocognitron にはさまざまな「レイヤー」があり、さまざまな情報を抽出し、最終的にこの情報を組み合わせて認識された文字を判断します。

これに触発されたヤン・ルカンというフランスの科学者が、最も初期の畳み込みニューラル ネットワークを設計し、畳み込みニューラル ネットワークに基づく LeNet モデルを確立しました。このモデルは当時、多くの銀行で手書き文字を認識するために使用されていました。簡単な例を通して、畳み込みニューラル ネットワークがどのように機能するかを見てみましょう。

畳み込みニューラルネットワーク: 画像認識の知られざる英雄

ニューラル ネットワークと比較すると、畳み込みニューラル ネットワークでは、画像を認識するときに畳み込みと集約という 2 つのプロセスが追加されます。

この畳み込みのプロセスは、畳み込みカーネルと呼ばれるものによって実行されます。

コンピュータの視点から見ると、画像は実際にはピクセルで構成されたマトリックスです。畳み込みカーネルは、各ピクセルの情報を個別に考慮するのではなく、3×3や5×5などの特定の領域のピクセル情報を同時に処理します。このようにして、隣接するピクセルの情報を総合的に考慮し、より高レベルの特徴をより適切に抽出することができます。

畳み込みカーネルは、特定の視野を持つ望遠鏡を通して写真を見て、見た情報を処理して記録する観察者のようなものだと想像できます。

さらに、異なる焦点を持つ観察者を設定して、画像からさまざまな次元の情報を引き出すことができます。たとえば、色情報の抽出に重点を置くオブザーバーもあれば、物体のエッジ輪郭情報の抽出に重点を置くオブザーバーもあり、特定の形状の情報の抽出に特化したオブザーバーもあります。最後に、この情報が統合され、ニューラル ネットワークがより良い判断を下せるようになります。

さらに、畳み込みニューラル ネットワークには、集約 (プーリングとも呼ばれます) というもう 1 つの重要なステップがあります。

画像は非常に大きなマトリックスであることが多く、集約によってある領域内の情報を 1 つの情報に圧縮することができます。 16×16 行列の場合、収束法を使用して 2×2 グリッド内の最も暗いグリッドの情報を取り出すことができれば、次のように 8×8 行列に変換できます。同じ収束をもう一度実行すると、8×8 行列を 4×4 行列に変換できます。収束後、画像には多少の変化が生じますが、画像全体の基本的な特徴は保持されます。

畳み込みと収束により、畳み込みニューラル ネットワークは画像情報を非常に適切に抽出できるようになり、画像の学習と処理の効率が大幅に向上します。

もちろん、畳み込みニューラル ネットワークもニューラル ネットワークと同じバックプロパゲーション アルゴリズムを使用し、既知の結果に基づいてニューラル ネットワーク内のパラメーターを継続的に調整して、より正確な判断を下します。

では、AI は一部の業界の生態系をどのように変えるのでしょうか?次の数回のエピソードで、これについて一緒に探っていきましょう。

企画・制作

この記事は科学普及中国創造育成プログラムの成果です

制作:中国科学技術協会科学普及部

制作|中国科学技術出版有限公司、北京中科星和文化メディア有限公司

著者: 北京雲宇基文化コミュニケーション株式会社

査読者: 秦増昌、北京航空航天大学オートメーション科学・電気工学部准教授

企画丨Fu Sijia

編集者:傅思佳

この記事の表紙画像と画像は著作権ライブラリから取得しています

転載は著作権紛争につながる可能性がある

<<:  注意深い!高速鉄道の車内の電源ソケットは携帯電話にとって本当に有害です。

>>:  ソファを移動させるときに廊下の角をどうやって通すか?これは60年以上も数学者を悩ませてきた問題です。

推薦する

キビ粥を飲むと体重が減りますか?

美を愛する多くの女の子にとって、自分に合った減量の秘訣を見つけることは非常に重要です。なぜなら、完璧...

アメリカは今回、なぜこの場所を有人月面着陸の着陸地点に選んだのでしょうか?

◎中国宇宙科学学会会長、中国科学院国家宇宙科学センター元所長 呉吉氏アルテミスが月の南極に着陸する...

400回目の打ち上げが間近に迫り、長征シリーズのロケットは宇宙への素晴らしい旅をします

中国は2021年11月27日、西昌衛星発射センターで長征シリーズロケットの399回目の打ち上げを実施...

Yu Yongfu: AutoNavi はなぜ Guo Degang との協力を求めたのですか?

最近、AutoNavi MapsはDeyun ClubのGuo Degang氏と協力協定を締結しまし...

黒砂糖は減量に役立ちますか?

黒砂糖に関しては、多くの友人は黒砂糖が過度の月経出血の治療や冬の体の温めに使用できることしか知らず、...

いい香りのスパイスは何千種類もありますが、この5つはぜひ知っておいてほしいです。

現代の生活では、食べ物や薬、毎日使うシャンプーや歯磨き粉、女性の魅力を演出する香水など、あらゆるとこ...

クリームチーズケーキ

ケーキは多くの女性の大好物です。ケーキは女性のために生まれたようです。それぞれのケーキの絶妙な見た目...

バーベキューポークバンズの作り方

焼肉まんは広東省の代表的な珍味で、生地の中に焼いた豚肉の餡が入っていることからその名が付けられました...

写真を撮るときに「HDR」モードがあります。どのようにして写真撮影のための「魔法のツール」になるのでしょうか?

携帯電話やカメラの技術が進歩するにつれ、写真を撮るときに「HDR」というオプションを目にすることが多...

リュウガンと蓮の実のスープ

おそらく、女性の友人の中には、リュウガンと蓮の実のスープを生活の中で作る方法についてある程度理解して...

ピクルスの揚げ方

キッチンでは、主婦はさまざまな食材をいつでも最高の料理に変えることができます。これが変革の力です。漬...

電子レンジで焼いたサツマイモ

電子レンジは、一般的に使用されている電気製品です。主に調理や焙煎に使用されます。サツマイモも私たちが...

ウィルソン:2021年12月の新エネルギー車産業月次レポート

01. 市場パフォーマンス新エネルギー市場の全体的なパフォーマンス12月の乗用車市場販売台数は226...

陽澄湖の毛ガニの食べ方

人生で毛ガニを食べたことがある人は多く、毛ガニの柔らかくて香り高いカニ卵によだれを垂らしたことがある...

iPhone 7はどれくらい高性能ですか?その性能はMacBook Airを上回る

少し前、いくつかのベンチマークデータベースで、今年のAppleの新型iPhone 7シリーズのパフォ...