1. ビジョンの誕生 地球上の生命は誕生以来数十億年の間、大きな変化を経験していません。彼らは原始的な海の底に「平らに横たわって」おり、自力で動くことも、狩りをしたり餌を探したりすることもできない。 進化が突然爆発的に進み始めたのは、およそ 5 億年前のことでした。その後の数千万年の間に、生命は多種多様な体の構造を模索し、今日のほぼすべての種類の生物を網羅するようになりました。彼らはまた、狩りをしたり、光を求めたり、危害を避けたりするなど、複雑な行動も持っていました。 カンブリア爆発による生命の出現には多くの理由があるが、重要な理由の一つは視覚の出現である。視覚は生物が環境に適応する能力を飛躍的に向上させ、最も重要な知覚機能となっています。 一見すると、私たちは常に目を使って物を見るので、視覚は目の機能のように思えます。しかし実際には、目は外界からの光情報を受動的に受け取ることしかできない単なる感覚器官です。この情報は、脳で理解される前に複雑な解読を経なければならず、それによって私たちは周囲で何が起こっているのか、どのように反応すべきなのかを知ることができます。したがって、脳は実際には最も重要な視覚器官です。 コンピュータにとって、「目」の機能をシミュレートすることは難しくなく、カメラなら簡単に行うことができます。しかし、視覚情報を脳の視覚領域のように真に理解するのは非常に困難です。 画像ソース: pixabay 私たち人間が幼い頃、人生で数匹の猫を見るだけで、猫の視覚的特徴を非常に明確に理解することができます。次に見知らぬ猫を見たとき、一目でそれが猫だとわかるでしょう。しかし、そのような特徴をコンピューターが理解できる形式に変換するのは困難です。たとえば、写真に写っている猫はすべて猫ですが、コンピュータにとっては類似点はありません。 そのため、従来の視覚アルゴリズムは、多数のルールを設定し、さまざまな画像の特徴を抽出しようとしますが、画像の内容を理解することができず、画像内の物体が猫なのか犬なのかを識別するなど、人間にとって簡単なことすらできませんでした。 2. ニューラルネットワークアルゴリズムの威力 画像を分類するアルゴリズムの精度を確認するため。 2010年、当時プリンストン大学で教鞭をとっていたコンピューター科学者のフェイフェイ・リー氏は、1,000以上のカテゴリを含む巨大な画像データセットであるImageNetをリリースしました。 2010 年には、最先端のアルゴリズムでも画像の約 72% しか正しく識別できませんでした。 しかし、ディープラーニングの登場によってすべてが変わりました。 2012年、トロント大学のジェフリー・ヒントンと彼の学生2人がニューラルネットワークAlexNetを発表しました。このネットワークはすぐに ImageNet に大きな進歩をもたらし、精度を 84% 以上に向上させました。 数年後、ヒントンはチューリング賞を受賞し、論文のもう一人の著者であるイリヤ・スツケヴァーはOpenAIの創設チームのメンバーになったが、それはまた別の話だ。 ニューラルネットワークはどのようにして画像を認識するのでしょうか?簡単な例を見てみましょう。 28×28 の画像上の手書きの数字を認識したいとします。画像内のピクセルを 784 個の数字のシーケンスに引き伸ばすことができます。次に、このシーケンスをニューラル ネットワークへの入力として渡すことができます。ニューラル ネットワークの出力には 10 個のニューロンが含まれ、各ニューロンの出力値は数値を表します。 最初は画像データを入力した後、出力結果はランダムになります。しかし、このニューラル ネットワークを大量のトレーニング データでトレーニングし、正しい結果に応じてネットワークのパラメーターを変更させ、継続的にフィードバックを提供すると、ニューラル ネットワークは徐々に数字を正しく認識する方法を学習します。 しかし、この単純なニューラル ネットワークには問題があります。 3. 新たな問題の出現 最初の問題は、パラメータがたくさんあることです。入力と出力に加えて中間層として 100 個のニューロンのみを使用する場合、接続は 784*100+100*10 = 79400 個になります。ただし、処理する必要がある画像は 28 x 28 ピクセルよりもはるかに大きいことが多く、その結果、モデル内のパラメーターが多すぎてトレーニングが困難になります。 2 番目の問題は、この方法では元の画像内のピクセルの分布が乱れ、人間の画像表示パターンと一致しなくなることです。 これら2つの問題をどのように解決すればよいでしょうか?研究者たちは2つの特性を観察しました。 まず、画像内のオブジェクトを識別するには、必ずしも画像内のすべてのピクセルをスキャンする必要はなく、画像の重要な領域に重要な特徴が現れるかどうかを見つけるだけで済みます。たとえば、白黒の皮膚の一部を見れば、その写真の動物がシマウマであると直接判断できるかもしれません。 第二に、画像内でのこの機能の位置は重要ではありません。写真のどこに猫が写っていても、それは猫です。 そのため、研究者たちはピクセルをシャッフルする代わりに、小さな窓に似たツールを使って画像上をスライドし、画像のさまざまな場所の局所的な特徴を捉えました。これらの小さなウィンドウは、一連のパラメータを使用して画像全体をスライドできるため、パラメータの数を減らしながら、画像のさまざまな領域をキャプチャできます。このような「小さなウィンドウ」を使用するニューラル ネットワークは、畳み込みニューラル ネットワークとも呼ばれます。 AlexNet は実際には単純な畳み込みニューラル ネットワークです。 その後、ニューラル ネットワーク技術は継続的に最適化され、ニューロンとネットワーク層の数は増加し続け、パフォーマンスは向上し続けました。数年後、ImageNet の精度は 97% を超え、少なくともこのデータセットにおける人間のレベルに近づきました。 ただし、画像分類に加えて、コンピューター ビジョンには他にも多くのタスクがあります。画像分類よりもさらに難しいのは物体認識です。オブジェクト認識タスクでは、画像内のオブジェクトを識別するだけでなく、オブジェクトの位置をマークすることも必要です。場合によっては、画像に複数の種類のオブジェクトが含まれることがあります。 自動運転システムは他の車、歩行者、信号、標識など、さまざまな種類の物体を認識できる必要があるため、物体認識は自動運転で広く使用されています。 さらに、さまざまな「モダリティ」からのデータを理解し、それらを組み合わせるためのモデルも必要です。たとえば、テキストと画像を組み合わせたモデルは、テキストに基づいて画像を生成できます。 既存の画像を処理するだけでなく、マシンで新しい画像やビデオを生成することも望んでいます。現在、OpenAI、Google、Baiduなどの機関はすでに比較的成熟した画像生成ツールを持っていますが、ビデオ生成技術はまだ比較的原始的で、改善の余地がたくさんあります。 コンピューター ビジョンの分野におけるもう 1 つの未解決の問題は、GPT-4 や chatGPT のような汎用ビジョン モデルを開発できるかどうかです。結局のところ、視覚的な理解は知能の不可欠な部分であり、視覚能力を欠いた大規模な言語モデルは、それが完全な知能を体現しているとすべての人を納得させることはできません。 この記事は、中国科学普及-星空プロジェクト(創造と栽培)によって作成されました。転載の際は出典を明記してください。 著者: 関新宇 科学人気作家 査読者: Yu Yang、Tencent Xuanwu Lab 所長 |
<<: あなたのトイレは腐った卵のような臭いがしますか?気をつけて!
>>: Kh-BDがデビュー、ロシア爆撃機の「第二の春」が来るのか?
蜂蜜と熟成酢は私たちの日常の食生活で非常に一般的な食材であり、私たちの体に多くの利点があります。蜂蜜...
生姜レンコンジュースレンコン90グラムとショウガ10グラム。レンコンとショウガを洗い、50mlの冷水...
クコの実は生活に浸透しており、広く使用されています。クコの実は人体のさまざまな側面を改善するのに非常...
豆腐は多くの人に好まれる食べ物です。栄養が豊富で、豆腐を長く食べると健康に良いです。しかし、豆腐を選...
アトランティック・マンスリー誌は最近、社会的、文化的要因により、コンピューターがポピュラーなポップソ...
導入この罰金は補助金詐欺を直接的に処罰するものだが、航続距離150キロ、最高時速100キロをやっ...
本当に責任感のある男性は、家族を養うためにお金を稼ぐ責任だけでなく、自分の体とパートナーに対しても責...
生活の中では、一般的な食べ物がたくさんあります。食べ物の種類によって、色や形が大きく異なり、価格も異...
最近は生活のペースが速く、料理をする時間がほとんどない人が多くいます。テイクアウトやファーストフード...
毛沢東主席は『水の歌 井岡山再登』という詩の中でこう書いている:「私は空の月を掴み、五つの海で亀を捕...
私たちの友人の中には、生活の中でトマトダイエットをよく知っている人もいるはずです。一般的には、夜にト...
一般的な食材は多く、食材によって調理法が異なります。食材を選ぶときは、その食材がどのように作られ...
リンゴと赤身の肉のスープの作り方は比較的簡単です。リンゴを細かく切って、赤身の肉を鍋に入れてリンゴと...
家庭的な料理であればあるほど、包丁さばきの腕前や食材の味の使いこなしなど、料理人の調理技術がよく表れ...
実は豆腐かすは豆乳や豆腐を作るときに出る副産物で、食べ方はいろいろ。水分、タンパク質、脂肪を多く含ん...