写真を撮ればすべてがわかります。 AIはどうやって写真を「理解」するのでしょうか?

写真を撮ればすべてがわかります。 AIはどうやって写真を「理解」するのでしょうか?

科学普及中国冬休み特別コラム「子どものためのハイテク授業」へようこそ!

今日の最先端の技術の一つである人工知能は、驚くべきスピードで私たちの生活を変えています。スマート音声アシスタントから自動運転車、AI ペインティングから機械学習まで、AI は私たちに無限の可能性に満ちた未来をもたらします。このコラムでは、ビデオとテキストを使用して、人工知能の原理、応用、そして社会への大きな影響を子供たちにわかりやすく説明します。

私たちと一緒に AI の旅を始めましょう!

以下はテキストバージョンです。

AI画像認識は私たちの生活のいたるところに存在しています。

見覚えのない植物を見つけましたか?写真を撮って数分で調べます。自動運転車はまるで目を持っているようで、道路がどこにあり、木がどこにあるのかを簡単に判断できます。顔認識技術により、顔をスキャンして支払うことも可能になりました。

これらすべては、畳み込みニューラル ネットワークという 1 つのテクノロジーから切り離すことはできません。この技術はAIの目のようなものです。

AI の目がどのように機能するかを理解するには、まず動物の目がどのように機能するかを調べる必要があります。

猫の目からAIの目へ:視覚ニューロンからのインスピレーション

1950年代から1960年代にかけて、デイヴィッド・ヒューベルとトルステン・ヴィーゼルは猫の視覚を研究し、猫の視野に絵が入った後、猫の脳内の視覚を司るニューロンがさまざまなものによって活性化されることを発見しました。

理解しやすくするために、例を見てみましょう。たとえば、このような画像では、一部のニューロンは画像内の物体のエッジラインに非常に興味を持ち、この情報の処理に集中しますが、一部のニューロンは大きな色のブロックに敏感で、この情報の処理が得意です。これらの神経細胞は協力して働き、生物がさまざまな複雑な画像を認識できるようにします。

エドガー・ドガ、田舎の競馬場で、1869年

この研究により、デイヴィッドとトルスタインは1981年のノーベル生理学・医学賞を受賞し、人工知能の分野で非常に重要なアルゴリズムである畳み込みニューラルネットワークにも影響を与えました。

1980年代に、日本の科学者福島邦彦は、日本語の手書き文字を認識するためにネオコグニトロンと呼ばれるモデルを設計しました。 Neocognitron にはさまざまな「レイヤー」があり、さまざまな情報を抽出し、最終的にこの情報を組み合わせて認識された文字を判断します。

これに触発されたヤン・ルカンというフランスの科学者が、最も初期の畳み込みニューラル ネットワークを設計し、畳み込みニューラル ネットワークに基づく LeNet モデルを確立しました。このモデルは当時、多くの銀行で手書き文字を認識するために使用されていました。簡単な例を通して、畳み込みニューラル ネットワークがどのように機能するかを見てみましょう。

畳み込みニューラルネットワーク: 画像認識の知られざる英雄

ニューラル ネットワークと比較すると、畳み込みニューラル ネットワークでは、画像を認識するときに畳み込みと集約という 2 つのプロセスが追加されます。

この畳み込みのプロセスは、畳み込みカーネルと呼ばれるものによって実行されます。

コンピュータの視点から見ると、画像は実際にはピクセルで構成されたマトリックスです。畳み込みカーネルは、各ピクセルの情報を個別に考慮するのではなく、3×3や5×5などの特定の領域のピクセル情報を同時に処理します。このようにして、隣接するピクセルの情報を総合的に考慮し、より高レベルの特徴をより適切に抽出することができます。

畳み込みカーネルは、特定の視野を持つ望遠鏡を通して写真を見て、見た情報を処理して記録する観察者のようなものだと想像できます。

さらに、異なる焦点を持つ観察者を設定して、画像からさまざまな次元の情報を引き出すことができます。たとえば、色情報の抽出に重点を置くオブザーバーもあれば、物体のエッジ輪郭情報の抽出に重点を置くオブザーバーもあり、特定の形状の情報の抽出に特化したオブザーバーもあります。最後に、この情報が統合され、ニューラル ネットワークがより良い判断を下せるようになります。

さらに、畳み込みニューラル ネットワークには、集約 (プーリングとも呼ばれます) というもう 1 つの重要なステップがあります。

画像は非常に大きなマトリックスであることが多く、集約によってある領域内の情報を 1 つの情報に圧縮することができます。 16×16 行列の場合、収束法を使用して 2×2 グリッド内の最も暗いグリッドの情報を取り出すことができれば、次のように 8×8 行列に変換できます。同じ収束をもう一度実行すると、8×8 行列を 4×4 行列に変換できます。収束後、画像には多少の変化が生じますが、画像全体の基本的な特徴は保持されます。

畳み込みと収束により、畳み込みニューラル ネットワークは画像情報を非常に適切に抽出できるようになり、画像の学習と処理の効率が大幅に向上します。

もちろん、畳み込みニューラル ネットワークもニューラル ネットワークと同じバックプロパゲーション アルゴリズムを使用し、既知の結果に基づいてニューラル ネットワーク内のパラメーターを継続的に調整して、より正確な判断を下します。

では、AI は一部の業界の生態系をどのように変えるのでしょうか?次の数回のエピソードで、これについて一緒に探っていきましょう。

企画・制作

この記事は科学普及中国創造育成プログラムの成果です

制作:中国科学技術協会科学普及部

制作|中国科学技術出版有限公司、北京中科星和文化メディア有限公司

著者: 北京雲宇基文化コミュニケーション株式会社

査読者: 秦増昌、北京航空航天大学オートメーション科学・電気工学部准教授

企画丨Fu Sijia

編集者:傅思佳

この記事の表紙画像と画像は著作権ライブラリから取得しています

転載は著作権紛争につながる可能性がある

<<:  注意深い!高速鉄道の車内の電源ソケットは携帯電話にとって本当に有害です。

>>:  ソファを移動させるときに廊下の角をどうやって通すか?これは60年以上も数学者を悩ませてきた問題です。

推薦する

動物も餃子を酢に浸すのが好きなようです。なぜ?

餃子を食べるときは酢に浸さなければなりません。酢がないと、味はいつも少し変な感じがします。この感情は...

竹茸の調理法とその治療効果

竹茸は比較的よく知られている食用菌です。栄養分が豊富で、人間の免疫力を高めるのに役立ちます。また、ガ...

金を飲み込むことは一種の「自殺」ですが、なぜいまだに金を食べる人がいるのでしょうか?

多くの企業がステーキやケーキなどの食品に金箔を施し、まさに黄金のご飯や黄金のケーキなどを作り出します...

プルーンジュースの栄養価

プルーンは栄養価の高い食品なので、プルーンジュースは確かに私たちの体にさまざまな健康効果をもたらしま...

夏のスープレシピの紹介

健康的な食事も季節によって異なります。これは主に、健康を維持し、体の抵抗力を高めるために、季節ごとに...

おいしい油そばの作り方を教えます

陝西料理といえば、麩焼き、羊肉のスープと饅頭、臊子面など、本当にたくさんありますが、最も特徴的な陝西...

洗濯するときは暑いのに、洗濯後は暖かくならない…季節の変わり目、ダウンジャケットの洗濯に関する7つの質問

気温が暖かくなるにつれ、人々は重い冬物を脱ぎ捨て、再び冬が来たときに暖かく過ごせるようにダウンジャケ...

ワンダーマン・トンプソン:米国ブラックフライデー2023レポート

ブラックフライデーの支出は2023年にわずかに増加するでしょう。米国のブラックフライデーの買い物客は...

地震が起きたとき、どんな家がより安全でしょうか?

12月18日23時59分、甘粛省臨夏回族自治州東郷サラール自治県鶏足山宝安で震源の深さ10キロ、マ...

腸をきれいにする6種類の腸内洗浄食品

はじめに:環境汚染、コンピューターの放射線、悪い食習慣などにより、人体はさまざまな生理的老廃物を生成...

冬至を過ぎるとなぜ寒くなるのでしょうか? |エキスポデイリー

冬至を過ぎるとなぜ寒くなるのでしょうか?論理的に考えると、冬至以降は日照時間が長くなりますが、日照時...

メープルシロップの摂取方法

誰もが知っていることの一つは、私たちの生活は木や花、植物から切り離せないということです。なぜなら、こ...

豚の腸の洗い方

屋台を押しながら豚の腸などの軽食を売っている露天商をよく見かけます。しかし、外で食べる食べ物は美味し...

熱を消し、夏の暑さを和らげる5つの食事レシピ

夏は気温が高く、日照時間も長くなり、地面の温度も上昇し、気温が高い中で活動すると熱中症になりやすくな...

フナと小豆のスープ

フナと小豆のスープは、すでに特に有名な薬膳料理であり、広東料理の一種でもあります。特に秋には、多くの...