顔認識が現実のものとなった。認識されましたか?

顔認識が現実のものとなった。認識されましたか?

映画のこれらのプロットを覚えていますか? 『トランスフォーマー2』では、若い男性主人公とその友人たちが検問所を通過したとき、当直中の兵士を騙したものの、軍の顔認識技術によって発見されてしまった。 2014年の『ロボコップ』のリメイク版で、ロボコップが初めて一般公開された。彼は群衆の中の顔をすべてスキャンし、指名手配犯のデータベースと比較し続けた。彼は一瞬にして、群衆の中に長年逃亡中の指名手配犯がいることに気づき、その犯人を制圧した。他の多くの映画では、米国のあらゆる機密部門は、初期の映画での指紋や虹彩から今日の顔まで、入室時にさまざまな生体認証特徴をスキャンすることを義務付けています。

顔認識とは一体何でしょうか?

顔認識は視覚パターン認識のサブ問題であり、おそらく解決するのが最も難しい問題です。

実際、私たち人間は視覚的なパターン認識を常に行っています。私たちは目を通して視覚情報を取得し、この情報は脳によって処理され、意味のある概念として認識されます。そうすれば、目の前に置かれているものがカップなのか、本なのか、それとも何か他のものなのかが分かります。

顔認識も常時行っています。私たちは日々の生活の中で数え切れないほど多くの人々に会い、身近な人々を認識し、挨拶し、交流し、その他の見知らぬ人々を無視します。借金があってまだ返済できない人達とも関わらないようにしてください。
しかし、この一見単純なタスクは、機械にとってそれほど簡単ではありません。

コンピュータにとって、画像は、静止画像であれ、動的なビデオのフレームであれ、多数のピクセルで構成されたマトリックスです。たとえば、1080p デジタル画像は、1980 x 1080 ピクセルで構成されるマトリックスです。 8 ビット RGB 形式の場合、各ピクセルは 0 から 255 までの値を持つ 3 つの数値です。

マシンは、データの特定の部分がどのような概念を表しているか、つまり、データのどの部分がカップで、どの部分が本で、どの部分が顔であるかを判断する必要があります。これは視覚パターン認識における粗い分類問題です。

顔認識では、機械が顔であると判断するすべてのデータの中から、その顔が誰のものであるかを区別する必要があります。これは詳細な分類の問題です。

顔はいくつのカテゴリーに分類できますか?

処理される問題の顔データベースのサイズによって異なります。顔データベース内のターゲット顔の数に応じて、マシンは対応する数のサブ分類を実行する必要があります。機械が見るすべての人を認識するようにしたい場合、顔を世界中の人の数と同じ数のカテゴリに分類することができ、これらのカテゴリ間の違いは非常に微妙です。これは顔認識の難しさを示しています。

言うまでもなく、この問題は照明、角度、顔の装飾など、さまざまな要因によっても影響を受けます。これは、顔認識技術が日常生活でまだ広く使用されていない理由、そしてほとんどの人が顔認識にSF映画でしか触れることができない理由も説明しています。

違いを見分けるのは難しい - 混同しやすい概念もある

人々にとってあまり馴染みのない事柄には、多くの概念的な混乱が伴うことがよくあります。

例えば、西洋の宗教に詳しくない中国人は、なぜ一部の人々が神を信じているのにイエスを信じないのか理解できないかもしれません。あるいは、教会で働く叔父の中にはセックスを控えなければならない人がいる一方で、他の人は結婚できる人がいるのはなぜか。

顔認識は新しいものであるため、多くの概念的な混乱も伴います。顔認識を理解するには、これらの概念を区別することが重要です。

顔検出と顔認識

顔認識作業を完了するにはいくつかのステップがあります。まず、コンピューターは画像またはビデオ内の顔の位置を見つける必要があります。この部分の作業は一般に顔検出と呼ばれます。前述したように、これは大まかな分類です。特に顔検出の場合、これは実際にはバイナリ分類です。コンピュータは、対象の画像が顔であるかどうかを判断するだけです。しかし、顔の大きさや位置は事前に判別できないため、コンピュータは画像全体をあらゆる顔の大きさでスキャンし、サブウィンドウで捉えた画像が顔であるかどうかを一つ一つ判別する必要があります。各スキャン処理中、サブウィンドウの移動のステップ サイズは数ピクセルになる場合があります。

したがって、コンピューターが写真の顔を検出するためにバイナリ分類の判断を何回行う必要があるかは大まかに想像できます。

顔検出ステップでは、画像から顔の位置とサイズを取得し、画像のこの部分を、顔の構成要素のポイントの配置、顔画像の位置合わせと正規化、顔画像の品質の選択、特徴の抽出、特徴の比較などの後続のステップに送信します。すべての手順が完了した後にのみ、顔の身元が判明します。

もちろん、顔検出機能のみを使用して特定のアプリケーションを完了することもできます。たとえば、現在のほとんどのカメラや携帯電話のカメラには顔検出機能があり、顔の位置を自動的に取得して、自動的に焦点を合わせ、画像を最適化できます。性別、年齢、さらには外見など、顔に関する予備的な判断を下すこともできます。

1対1の顔認証と1対Nの顔検索

主人公は様々な手段を使って何重もの本人確認を突破し、機密部署への侵入に成功する。これは映画によく出てくる筋書きです。そして、これらの本人確認の層には、顔認識が含まれることがよくあります。このようなアプリケーションでは、多くの場合、ユーザーは自分の ID を提供する必要があります。

例えば、ドアカードを使用する場合、コンピュータはドアカードを介してバックグラウンドでドアカード所有者の顔サンプルを取得し、それを現在ドアカードを使用している人の顔画像と比較して、現在ドアカードを使用している人がドアカードの所有者と一致するかどうかを確認することができます。これにより、ドアカードを拾った人が簡単に会社に侵入するのを防ぐことができます。

これは1対1のID認証です。コンピュータは現在の顔と保存されている顔を比較します。この顔は他の検証方法の補助として機能し、それによって本人認証の信頼性が向上します。この種のアプリケーションは、機密施設へのアクセス、インターネット金融分野での遠隔口座開設、大口引き出しの際の本人確認など、すでに広く使用されています。

冒頭で触れた「ロボコップ」のシーンは1対Nの顔探しです。ロボコップは指名手配中の犯罪者のデータをすべて保存している顔データベースをオンラインで検索できます。彼は人と会うたびに、まずその人の顔情報を入手し、その情報を使って指名手配犯データベースと一人ずつ照合します。一致率が高ければ、その場で逮捕されるだろう。顔が認識されるたびに、コンピューターは n 回の顔比較を実行する必要があります。ここで、n は認識されるライブラリ内の顔テンプレートの数です。

コンピュータが顔のみに基づいて人物の身元を認識する必要がある場合、これは実際には 1vN 顔検索です。対象となる顔ライブラリは、n 個の顔で構成される「知人ライブラリ」です。 n が増加すると、正確な認識の難易度が増し、1 回の認識に必要な計算時間も増加します。考えてみましょう。平均的な人は何人の顔を正確に認識できるでしょうか?おそらく数十個くらいでしょう。

現在利用可能な最高の顔認識技術は、実際にはこのレベルを超えています。

例えば、国内トップクラスの顔認識技術を持つ企業は通常、自社の各種カメラで撮影した人物の行動を表示し、正確に身元を識別するスクリーンウォールを備えている。同社は通常、数百人の顔のデータベースを保有している。しかし、N が数千人または数万人のデータベースにまで増加し続けると、一意の一致する顔をリアルタイムで検索することは SF の要件になります。顔データベースが大きいアプリケーションでは、リアルタイム要件は一般的に低く、手動検索の範囲を狭めるために、非常によく一致する上位 m 個の疑わしい顔のみを見つける必要があります。

この記事の表紙画像は著作権ライブラリからのものであり、複製は許可されていません。

<<:  食品安全 |ネットセレブの塩には本当の「塩価値」があるのでしょうか、それとも単なる「IQ税」なのでしょうか?専門家は「目を開けろ」と提案

>>:  新着!神舟14号の乗組員が軌道上で祖国の美しい風景を撮影 →

推薦する

白菜をオイスターソースで調理する方法

菜心は中国人がよく食べる野菜の 1 つです。菜心の調理法はさまざまです。ニンニクのみじん切りと一緒に...

クレジットカード現金引き出しの賢い5つの秘訣

「『カードを維持』しますか、それとも『カードをスワイプして現金を引き出す』だけですか?」著者がクレジ...

柿が腸管に入ると

多くの人がこのような経験をしたことがあるでしょう。赤くて甘くて柔らかい柿、または白い柿の霜で覆われた...

iPhone 6を1年間充電するにはいくらかかりますか?

iPhone を毎日充電するのは Apple ファンにとっては日常的なことかもしれませんが、iPh...

自動車業界におけるトランプ氏の将来は疑問だらけ

11月、トランプ大統領の「強制と誘導」により、フォード・モーター社はメキシコへの工場移転を断念した。...

CtripとQunarの『地獄の業火』と『羅生門』

CtripとQunarの合併の噂に関して、Qunarは「その気はない」と答えた。 Qunar.co...

高血圧の人は緑豆を食べても大丈夫ですか?

一般的に高血圧とは、血圧が持続的に高くなる病気であると理解されています。重症化すると、脳卒中や心臓病...

錬金術は伝説から現実へ?天然金の「高貴さ」はいつまで続くのでしょうか?

2024年の初め、エルビンと江西省の相互特産品の交換は、ネットユーザーから「なぜこれを持っていると...

消費者向けドローン市場の競争が激化

7月8日、ウォール・ストリート・ジャーナルによると、フランスのパロット、中国のDJI、カリフォルニア...

ドクター・ストレンジの魔法使いサークルに参加するのは簡単ではありません。ハリー・ポッターは生計を立てるために死体の役を演じます。

11月は、多くのショッピング愛好家が毎年恒例のダブルイレブンの買い物ラッシュを迎えるほか、大多数の...

黒骨鶏の煮込み方

黒鶏シチューは、人生で最も一般的な滋養スープの一つで、血液を補い、気を養う効果が最も優れているため、...

もち米のチャーハンの作り方

もち米を使って美味しいもち米を作ることができますが、もちろんもち米は単調すぎるので、一般的なもち米は...

ポルチーニを食べると体重が減りますか?

菌類食品は昔から比較的栄養価が高く、ポルチーニも例外ではありません。実際、ポルチーニは野生の食用キノ...

単語を調べるのに最適なツールは何ですか? Youdao 辞書ペン総合レビュー

タブレット学習機、読書ペン、電子辞書…現在、さまざまな電子「学習用具」が、子どもたちの英語学習に欠か...

CWT: 旅行を予約する際、人々は人間と機械のどちらを好みますか?

CWT の調査によると、旅行者はアプリやブラウザを通じて旅行取引をデジタルで管理することを好むこと...