写真を撮ればすべてがわかります。 AIはどうやって写真を「理解」するのでしょうか?

写真を撮ればすべてがわかります。 AIはどうやって写真を「理解」するのでしょうか?

科学普及中国冬休み特別コラム「子どものためのハイテク授業」へようこそ!

今日の最先端の技術の一つである人工知能は、驚くべきスピードで私たちの生活を変えています。スマート音声アシスタントから自動運転車、AI ペインティングから機械学習まで、AI は私たちに無限の可能性に満ちた未来をもたらします。このコラムでは、ビデオとテキストを使用して、人工知能の原理、応用、そして社会への大きな影響を子供たちにわかりやすく説明します。

私たちと一緒に AI の旅を始めましょう!

以下はテキストバージョンです。

AI画像認識は私たちの生活のいたるところに存在しています。

見覚えのない植物を見つけましたか?写真を撮って数分で調べます。自動運転車はまるで目を持っているようで、道路がどこにあり、木がどこにあるのかを簡単に判断できます。顔認識技術により、顔をスキャンして支払うことも可能になりました。

これらすべては、畳み込みニューラル ネットワークという 1 つのテクノロジーから切り離すことはできません。この技術はAIの目のようなものです。

AI の目がどのように機能するかを理解するには、まず動物の目がどのように機能するかを調べる必要があります。

猫の目からAIの目へ:視覚ニューロンからのインスピレーション

1950年代から1960年代にかけて、デイヴィッド・ヒューベルとトルステン・ヴィーゼルは猫の視覚を研究し、猫の視野に絵が入った後、猫の脳内の視覚を司るニューロンがさまざまなものによって活性化されることを発見しました。

理解しやすくするために、例を見てみましょう。たとえば、このような画像では、一部のニューロンは画像内の物体のエッジラインに非常に興味を持ち、この情報の処理に集中しますが、一部のニューロンは大きな色のブロックに敏感で、この情報の処理が得意です。これらの神経細胞は協力して働き、生物がさまざまな複雑な画像を認識できるようにします。

エドガー・ドガ、田舎の競馬場で、1869年

この研究により、デイヴィッドとトルスタインは1981年のノーベル生理学・医学賞を受賞し、人工知能の分野で非常に重要なアルゴリズムである畳み込みニューラルネットワークにも影響を与えました。

1980年代に、日本の科学者福島邦彦は、日本語の手書き文字を認識するためにネオコグニトロンと呼ばれるモデルを設計しました。 Neocognitron にはさまざまな「レイヤー」があり、さまざまな情報を抽出し、最終的にこの情報を組み合わせて認識された文字を判断します。

これに触発されたヤン・ルカンというフランスの科学者が、最も初期の畳み込みニューラル ネットワークを設計し、畳み込みニューラル ネットワークに基づく LeNet モデルを確立しました。このモデルは当時、多くの銀行で手書き文字を認識するために使用されていました。簡単な例を通して、畳み込みニューラル ネットワークがどのように機能するかを見てみましょう。

畳み込みニューラルネットワーク: 画像認識の知られざる英雄

ニューラル ネットワークと比較すると、畳み込みニューラル ネットワークでは、画像を認識するときに畳み込みと集約という 2 つのプロセスが追加されます。

この畳み込みのプロセスは、畳み込みカーネルと呼ばれるものによって実行されます。

コンピュータの視点から見ると、画像は実際にはピクセルで構成されたマトリックスです。畳み込みカーネルは、各ピクセルの情報を個別に考慮するのではなく、3×3や5×5などの特定の領域のピクセル情報を同時に処理します。このようにして、隣接するピクセルの情報を総合的に考慮し、より高レベルの特徴をより適切に抽出することができます。

畳み込みカーネルは、特定の視野を持つ望遠鏡を通して写真を見て、見た情報を処理して記録する観察者のようなものだと想像できます。

さらに、異なる焦点を持つ観察者を設定して、画像からさまざまな次元の情報を引き出すことができます。たとえば、色情報の抽出に重点を置くオブザーバーもあれば、物体のエッジ輪郭情報の抽出に重点を置くオブザーバーもあり、特定の形状の情報の抽出に特化したオブザーバーもあります。最後に、この情報が統合され、ニューラル ネットワークがより良い判断を下せるようになります。

さらに、畳み込みニューラル ネットワークには、集約 (プーリングとも呼ばれます) というもう 1 つの重要なステップがあります。

画像は非常に大きなマトリックスであることが多く、集約によってある領域内の情報を 1 つの情報に圧縮することができます。 16×16 行列の場合、収束法を使用して 2×2 グリッド内の最も暗いグリッドの情報を取り出すことができれば、次のように 8×8 行列に変換できます。同じ収束をもう一度実行すると、8×8 行列を 4×4 行列に変換できます。収束後、画像には多少の変化が生じますが、画像全体の基本的な特徴は保持されます。

畳み込みと収束により、畳み込みニューラル ネットワークは画像情報を非常に適切に抽出できるようになり、画像の学習と処理の効率が大幅に向上します。

もちろん、畳み込みニューラル ネットワークもニューラル ネットワークと同じバックプロパゲーション アルゴリズムを使用し、既知の結果に基づいてニューラル ネットワーク内のパラメーターを継続的に調整して、より正確な判断を下します。

では、AI は一部の業界の生態系をどのように変えるのでしょうか?次の数回のエピソードで、これについて一緒に探っていきましょう。

企画・制作

この記事は科学普及中国創造育成プログラムの成果です

制作:中国科学技術協会科学普及部

制作|中国科学技術出版有限公司、北京中科星和文化メディア有限公司

著者: 北京雲宇基文化コミュニケーション株式会社

査読者: 秦増昌、北京航空航天大学オートメーション科学・電気工学部准教授

企画丨Fu Sijia

編集者:傅思佳

この記事の表紙画像と画像は著作権ライブラリから取得しています

転載は著作権紛争につながる可能性がある

<<:  注意深い!高速鉄道の車内の電源ソケットは携帯電話にとって本当に有害です。

>>:  ソファを移動させるときに廊下の角をどうやって通すか?これは60年以上も数学者を悩ませてきた問題です。

推薦する

皮膚アレルギーがある場合、ハマグリを食べることはできますか?

皮膚アレルギーは多くの人にとって頭痛の種です。一般的にこの病気を治す方法はないので、患者は薬を服用す...

出産後、子宮が脱出して太ももの上に落ちてきました。これはホラー映画ではなく、数え切れないほどの女性たちのドキュメンタリーです。

河南省鄭州市に住む2児の母親(32歳)は、出産後8カ月間寝たきりの状態だった。その理由は恐ろしいもの...

酢に浸した黒豆の食べ方

黒豆は私たちにとって非常に一般的な食べ物です。栄養価が高く、人体に非常に役立ちます。しかし、酢に浸し...

もち米ゼリーの作り方

もち米ゼリーは北京の伝統的なお菓子です。もち米ゼリーの材料はもち米です。もち米は栄養価が高く、健康維...

妊娠率がわずか4~12%の卵子凍結技術で、本当に生殖の自由を実現できるのでしょうか?

編集者注:今年の両会において、国家衛生健康委員会と中華全国婦女連合会は共同で「高齢女性と女性癌患者の...

胡椒と花椒

コショウ粉と花椒粉はどちらも私たちの日常の調味料として良いものですが、コショウ粉と花椒粉は同じもので...

同城旅行は、愛奇芸の『ランニングマン4』に1億2300万元をスポンサーとして提供したことに何を見出したのか?

「1、2、3、GO!」このスローガンを聞いて、多くのネットユーザーが特定のチームに対する期待を再び...

顔料アーティストが哀牢山へ一人で向かった「宝石」とは何でしょうか?専門家:顔料には適さない

「小さな青い鉱物、とても美しい…柔らかい青い感じ…」過去2週間で哀牢山は「非常に人気」となり、そのき...

ホルモンに影響を与え、あなたを長髪の女性に変える10の習慣

気温が上がってくると、爽やかなスカートや美しいサスペンダーの出番がやってきます。しかし、体に毛が生え...

毎年秋になると、「収穫」するのは植物だけではありません…

制作:中国科学普及協会著者: 高開星 (中国科学院微生物研究所)プロデューサー: 中国科学博覧会秋は...

肝臓に栄養を与えるには、果物が役立ちます!

現代社会では、B型肝炎や脂肪肝などの病気はすでに一般的です。これらの肝臓病は非常に一般的ですが、私た...

ケールの調理方法

日常生活で非常に一般的な野菜であるケールは、私たちの食卓で最もよく使われる料理の一つです。ケール(中...

ビタミンCが豊富な食品

ビタミンCは人体にとって非常に有用なビタミンです。不足すると、口内炎や歯茎からの出血などの問題が起こ...

衛星電話の発信と受信はどのように行いますか?天通1号衛星が助けに来る

天通衛星電話は衛星通信システムとしてだけでなく、通常のスマートフォンとしても使用できます。自然災害の...

鴨の脚のレシピ

家禽類の食品は日常生活でよく食べられています。このタイプの食品は子供たちにとってより馴染み深いもので...