写真を撮ればすべてがわかります。 AIはどうやって写真を「理解」するのでしょうか?

写真を撮ればすべてがわかります。 AIはどうやって写真を「理解」するのでしょうか?

科学普及中国冬休み特別コラム「子どものためのハイテク授業」へようこそ!

今日の最先端の技術の一つである人工知能は、驚くべきスピードで私たちの生活を変えています。スマート音声アシスタントから自動運転車、AI ペインティングから機械学習まで、AI は私たちに無限の可能性に満ちた未来をもたらします。このコラムでは、ビデオとテキストを使用して、人工知能の原理、応用、そして社会への大きな影響を子供たちにわかりやすく説明します。

私たちと一緒に AI の旅を始めましょう!

以下はテキストバージョンです。

AI画像認識は私たちの生活のいたるところに存在しています。

見覚えのない植物を見つけましたか?写真を撮って数分で調べます。自動運転車はまるで目を持っているようで、道路がどこにあり、木がどこにあるのかを簡単に判断できます。顔認識技術により、顔をスキャンして支払うことも可能になりました。

これらすべては、畳み込みニューラル ネットワークという 1 つのテクノロジーから切り離すことはできません。この技術はAIの目のようなものです。

AI の目がどのように機能するかを理解するには、まず動物の目がどのように機能するかを調べる必要があります。

猫の目からAIの目へ:視覚ニューロンからのインスピレーション

1950年代から1960年代にかけて、デイヴィッド・ヒューベルとトルステン・ヴィーゼルは猫の視覚を研究し、猫の視野に絵が入った後、猫の脳内の視覚を司るニューロンがさまざまなものによって活性化されることを発見しました。

理解しやすくするために、例を見てみましょう。たとえば、このような画像では、一部のニューロンは画像内の物体のエッジラインに非常に興味を持ち、この情報の処理に集中しますが、一部のニューロンは大きな色のブロックに敏感で、この情報の処理が得意です。これらの神経細胞は協力して働き、生物がさまざまな複雑な画像を認識できるようにします。

エドガー・ドガ、田舎の競馬場で、1869年

この研究により、デイヴィッドとトルスタインは1981年のノーベル生理学・医学賞を受賞し、人工知能の分野で非常に重要なアルゴリズムである畳み込みニューラルネットワークにも影響を与えました。

1980年代に、日本の科学者福島邦彦は、日本語の手書き文字を認識するためにネオコグニトロンと呼ばれるモデルを設計しました。 Neocognitron にはさまざまな「レイヤー」があり、さまざまな情報を抽出し、最終的にこの情報を組み合わせて認識された文字を判断します。

これに触発されたヤン・ルカンというフランスの科学者が、最も初期の畳み込みニューラル ネットワークを設計し、畳み込みニューラル ネットワークに基づく LeNet モデルを確立しました。このモデルは当時、多くの銀行で手書き文字を認識するために使用されていました。簡単な例を通して、畳み込みニューラル ネットワークがどのように機能するかを見てみましょう。

畳み込みニューラルネットワーク: 画像認識の知られざる英雄

ニューラル ネットワークと比較すると、畳み込みニューラル ネットワークでは、画像を認識するときに畳み込みと集約という 2 つのプロセスが追加されます。

この畳み込みのプロセスは、畳み込みカーネルと呼ばれるものによって実行されます。

コンピュータの視点から見ると、画像は実際にはピクセルで構成されたマトリックスです。畳み込みカーネルは、各ピクセルの情報を個別に考慮するのではなく、3×3や5×5などの特定の領域のピクセル情報を同時に処理します。このようにして、隣接するピクセルの情報を総合的に考慮し、より高レベルの特徴をより適切に抽出することができます。

畳み込みカーネルは、特定の視野を持つ望遠鏡を通して写真を見て、見た情報を処理して記録する観察者のようなものだと想像できます。

さらに、異なる焦点を持つ観察者を設定して、画像からさまざまな次元の情報を引き出すことができます。たとえば、色情報の抽出に重点を置くオブザーバーもあれば、物体のエッジ輪郭情報の抽出に重点を置くオブザーバーもあり、特定の形状の情報の抽出に特化したオブザーバーもあります。最後に、この情報が統合され、ニューラル ネットワークがより良い判断を下せるようになります。

さらに、畳み込みニューラル ネットワークには、集約 (プーリングとも呼ばれます) というもう 1 つの重要なステップがあります。

画像は非常に大きなマトリックスであることが多く、集約によってある領域内の情報を 1 つの情報に圧縮することができます。 16×16 行列の場合、収束法を使用して 2×2 グリッド内の最も暗いグリッドの情報を取り出すことができれば、次のように 8×8 行列に変換できます。同じ収束をもう一度実行すると、8×8 行列を 4×4 行列に変換できます。収束後、画像には多少の変化が生じますが、画像全体の基本的な特徴は保持されます。

畳み込みと収束により、畳み込みニューラル ネットワークは画像情報を非常に適切に抽出できるようになり、画像の学習と処理の効率が大幅に向上します。

もちろん、畳み込みニューラル ネットワークもニューラル ネットワークと同じバックプロパゲーション アルゴリズムを使用し、既知の結果に基づいてニューラル ネットワーク内のパラメーターを継続的に調整して、より正確な判断を下します。

では、AI は一部の業界の生態系をどのように変えるのでしょうか?次の数回のエピソードで、これについて一緒に探っていきましょう。

企画・制作

この記事は科学普及中国創造育成プログラムの成果です

制作:中国科学技術協会科学普及部

制作|中国科学技術出版有限公司、北京中科星和文化メディア有限公司

著者: 北京雲宇基文化コミュニケーション株式会社

査読者: 秦増昌、北京航空航天大学オートメーション科学・電気工学部准教授

企画丨Fu Sijia

編集者:傅思佳

この記事の表紙画像と画像は著作権ライブラリから取得しています

転載は著作権紛争につながる可能性がある

<<:  注意深い!高速鉄道の車内の電源ソケットは携帯電話にとって本当に有害です。

>>:  ソファを移動させるときに廊下の角をどうやって通すか?これは60年以上も数学者を悩ませてきた問題です。

推薦する

高血圧に良い食べ物は何ですか?

現代人は生活水準が高く、食べたいものは何でも手に入ります。食事制限に気を配らず、毎食野菜や饅頭、米な...

夏の暑さがやって来ます!古代人のクールな「秘密」を掘り下げる

暑い夏には、エアコン、スイカ、テレビが多くの人にとって必需品となっています。現代の便利な生活は、暑い...

風邪が怖いときに食べるもの

寒い季節になると、多くの人が風邪を怖がる問題を抱えます。特に高齢者と一部の女性は、風邪を怖がる人の8...

気血を補うために何を食べるべきか

昔、女性は「桃の花」と称えられましたが、実際にはすべての女性がそのような名声を得られるわけではありま...

大根でダイエットする方法

大根は最も一般的な野菜の1つです。小さな高麗人参として賞賛されており、その地位の高さを示しています。...

中国人が携帯電話を購入する際の3つの考え方

携帯電話の購入は複雑なプロセスです。最初のステップは予算を決めることです。いくらまでなら出せるか、ま...

そうです、電極を脳に埋め込むことができるのです!

制作:中国科学普及協会著者:石宮プロデューサー: 中国科学博覧会想像できますか?将来的には、針を使っ...

ソラクティブ:2022年の今後の動向

Solactive は、現在から未来を変えるトレンドを分析した「Future Trends 2022...

公用箸と私用箸も区別すべきでしょうか?箸一本に含まれる細菌の量を見れば分かります!

「こっちへ来て、これを少し食べなさい。あなたには届かないから、私があげるわ。」このような熱心な食卓...

コプリヌスの調理方法

コプリナス・コマトゥスは非常に優れた食材です。コプリナス・コマトゥスと呼ばれるのは、鶏の脚に似ている...

オランダの科学者、2050年までにロボットの歓楽街を開設することを提案

『ゴースト・イン・ザ・シェル』の設定では、富裕層や権力者の夜間の特別なニーズを満たすために特別に使用...

ジュージューと焼ける牛テンダーロインの調理方法

牛ヒレ肉の鉄板焼きは牛ヒレ肉の食べ方の一つで、その調理法を知っている人も多いでしょう。この鉄板焼き牛...

3つの警告が同時に発令されました!新たな大規模豪雨が到来…災害から身を守るには?

中央気象台4月25日 06:00公開を続ける大雨の青色警報激しい対流性気象に対する青色警報黄霧警報黄...

ポーチドエッグを崩さずに調理する方法

まずポーチドエッグとは何かというところから始めましょう。ポーチドエッグは卵の定番の食べ方です。フライ...

ザクロは宝物でいっぱいの果物です

ザクロは宝物でいっぱいの果物です。ザクロを食べると健康に多くのメリットがあります。ザクロを定期的に食...