コンピューターには視覚がありますか?コンピューターに世界を「見せる」

1. ビジョンの誕生

地球上の生命は誕生以来数十億年の間、大きな変化を経験していません。彼らは原始的な海の底に「平らに横たわって」おり、自力で動くことも、狩りをしたり餌を探したりすることもできない。

進化が突然爆発的に進み始めたのは、およそ 5 億年前のことでした。その後の数千万年の間に、生命は多種多様な体の構造を模索し、今日のほぼすべての種類の生物を網羅するようになりました。彼らはまた、狩りをしたり、光を求めたり、危害を避けたりするなど、複雑な行動も持っていました。

カンブリア爆発による生命の出現には多くの理由があるが、重要な理由の一つは視覚の出現である。視覚は生物が環境に適応する能力を飛躍的に向上させ、最も重要な知覚機能となっています。

一見すると、私たちは常に目を使って物を見るので、視覚は目の機能のように思えます。しかし実際には、目は外界からの光情報を受動的に受け取ることしかできない単なる感覚器官です。この情報は、脳で理解される前に複雑な解読を経なければならず、それによって私たちは周囲で何が起こっているのか、どのように反応すべきなのかを知ることができます。したがって、脳は実際には最も重要な視覚器官です。

コンピュータにとって、「目」の機能をシミュレートすることは難しくなく、カメラなら簡単に行うことができます。しかし、視覚情報を脳の視覚領域のように真に理解するのは非常に困難です。

画像ソース: pixabay

私たち人間が幼い頃、人生で数匹の猫を見るだけで、猫の視覚的特徴を非常に明確に理解することができます。次に見知らぬ猫を見たとき、一目でそれが猫だとわかるでしょう。しかし、そのような特徴をコンピューターが理解できる形式に変換するのは困難です。たとえば、写真に写っている猫はすべて猫ですが、コンピュータにとっては類似点はありません。

そのため、従来の視覚アルゴリズムは、多数のルールを設定し、さまざまな画像の特徴を抽出しようとしますが、画像の内容を理解することができず、画像内の物体が猫なのか犬なのかを識別するなど、人間にとって簡単なことすらできませんでした。

2. ニューラルネットワークアルゴリズムの威力

画像を分類するアルゴリズムの精度を確認するため。 2010年、当時プリンストン大学で教鞭をとっていたコンピューター科学者のフェイフェイ・リー氏は、1,000以上のカテゴリを含む巨大な画像データセットであるImageNetをリリースしました。 2010 年には、最先端のアルゴリズムでも画像の約 72% しか正しく識別できませんでした。

しかし、ディープラーニングの登場によってすべてが変わりました。 2012年、トロント大学のジェフリー・ヒントンと彼の学生2人がニューラルネットワークAlexNetを発表しました。このネットワークはすぐに ImageNet に大きな進歩をもたらし、精度を 84% 以上に向上させました。

数年後、ヒントンはチューリング賞を受賞し、論文のもう一人の著者であるイリヤ・スツケヴァーはOpenAIの創設チームのメンバーになったが、それはまた別の話だ。

ニューラルネットワークはどのようにして画像を認識するのでしょうか?簡単な例を見てみましょう。 28×28 の画像上の手書きの数字を認識したいとします。画像内のピクセルを 784 個の数字のシーケンスに引き伸ばすことができます。次に、このシーケンスをニューラルネットワークへの入力として渡すことができます。ニューラルネットワークの出力には 10 個のニューロンが含まれ、各ニューロンの出力値は数値を表します。

最初は画像データを入力した後、出力結果はランダムになります。しかし、このニューラルネットワークを大量のトレーニングデータでトレーニングし、正しい結果に応じてネットワークのパラメーターを変更させ、継続的にフィードバックを提供すると、ニューラルネットワークは徐々に数字を正しく認識する方法を学習します。

しかし、この単純なニューラルネットワークには問題があります。

3. 新たな問題の出現

最初の問題は、パラメータがたくさんあることです。入力と出力に加えて中間層として 100 個のニューロンのみを使用する場合、接続は 784*100+100*10 = 79400 個になります。ただし、処理する必要がある画像は 28 x 28 ピクセルよりもはるかに大きいことが多く、その結果、モデル内のパラメーターが多すぎてトレーニングが困難になります。 2 番目の問題は、この方法では元の画像内のピクセルの分布が乱れ、人間の画像表示パターンと一致しなくなることです。

これら2つの問題をどのように解決すればよいでしょうか?研究者たちは2つの特性を観察しました。

まず、画像内のオブジェクトを識別するには、必ずしも画像内のすべてのピクセルをスキャンする必要はなく、画像の重要な領域に重要な特徴が現れるかどうかを見つけるだけで済みます。たとえば、白黒の皮膚の一部を見れば、その写真の動物がシマウマであると直接判断できるかもしれません。

第二に、画像内でのこの機能の位置は重要ではありません。写真のどこに猫が写っていても、それは猫です。

そのため、研究者たちはピクセルをシャッフルする代わりに、小さな窓に似たツールを使って画像上をスライドし、画像のさまざまな場所の局所的な特徴を捉えました。これらの小さなウィンドウは、一連のパラメータを使用して画像全体をスライドできるため、パラメータの数を減らしながら、画像のさまざまな領域をキャプチャできます。このような「小さなウィンドウ」を使用するニューラルネットワークは、畳み込みニューラルネットワークとも呼ばれます。 AlexNet は実際には単純な畳み込みニューラルネットワークです。

その後、ニューラルネットワーク技術は継続的に最適化され、ニューロンとネットワーク層の数は増加し続け、パフォーマンスは向上し続けました。数年後、ImageNet の精度は 97% を超え、少なくともこのデータセットにおける人間のレベルに近づきました。

ただし、画像分類に加えて、コンピュータービジョンには他にも多くのタスクがあります。画像分類よりもさらに難しいのは物体認識です。オブジェクト認識タスクでは、画像内のオブジェクトを識別するだけでなく、オブジェクトの位置をマークすることも必要です。場合によっては、画像に複数の種類のオブジェクトが含まれることがあります。

自動運転システムは他の車、歩行者、信号、標識など、さまざまな種類の物体を認識できる必要があるため、物体認識は自動運転で広く使用されています。

さらに、さまざまな「モダリティ」からのデータを理解し、それらを組み合わせるためのモデルも必要です。たとえば、テキストと画像を組み合わせたモデルは、テキストに基づいて画像を生成できます。

既存の画像を処理するだけでなく、マシンで新しい画像やビデオを生成することも望んでいます。現在、OpenAI、Google、Baiduなどの機関はすでに比較的成熟した画像生成ツールを持っていますが、ビデオ生成技術はまだ比較的原始的で、改善の余地がたくさんあります。

コンピュータービジョンの分野におけるもう 1 つの未解決の問題は、GPT-4 や chatGPT のような汎用ビジョンモデルを開発できるかどうかです。結局のところ、視覚的な理解は知能の不可欠な部分であり、視覚能力を欠いた大規模な言語モデルは、それが完全な知能を体現しているとすべての人を納得させることはできません。

この記事は、中国科学普及-星空プロジェクト（創造と栽培）によって作成されました。転載の際は出典を明記してください。

著者: 関新宇科学人気作家

査読者: Yu Yang、Tencent Xuanwu Lab 所長

<<: あなたのトイレは腐った卵のような臭いがしますか？気をつけて！

>>: Kh-BDがデビュー、ロシア爆撃機の「第二の春」が来るのか？