ああ?音楽にも「指紋」がある!楽曲認識機能の実現方法 →

ああ?音楽にも「指紋」がある!楽曲認識機能の実現方法 →

誰もがこのような経験をしたことがあるかもしれません。

聞き覚えのあるメロディーを聞く

でも曲名が思い出せない

このとき、曲認識機能をオンにしてください

数秒後

対応する曲が画面に表示されます。

この機能はどのように機能しますか?

こんなに短時間で曲名を正確に特定するにはどうすればいいのでしょうか?

オーディオ指紋は曲を識別する鍵となる

曲を聴いて識別するための鍵は、オーディオ フィンガープリンティングにあります。人の指紋がそれぞれユニークであるように、曲にもそれぞれユニークな指紋があります。オーディオ フィンガープリントは、オーディオ信号のデジタル DNA です。その生成プロセスは、おおよそ次のステップに分けられます。
オーディオ信号のデジタル化

音楽認識の第一歩は、音を「聴く」ことです。しかし、機械はどのようにして歌を「聞く」のでしょうか?音は本質的に振動です。人間の耳に受信された後、鼓膜やその他の組織がこの振動を脳が認識できる信号に変換します。音楽を聴く機械の原理も同様です。音の振動を電気信号に変換し、その電気信号をコンピューターで処理できるデジタル信号に変換します。

現実世界の音は連続的(線のような)アナログ信号ですが、コンピューターが処理する信号は離散的(複数の点のような)デジタル信号です。そのため、連続した音の波形をサンプリングして離散的なデジタル信号に変換する必要があります。サンプリング レートによって信号のキャプチャ効果が決まります。サンプリング レートが高くなるほど、ポイントの密度が高くなり、元のサウンドがより完全に保存されます

特徴抽出後のデジタル化された信号は、音声処理モジュールに送信され、特にフーリエ変換(数学的変換アルゴリズム)を介して、時間領域から周波数領域への変換を含む音声特徴抽出が行われ、連続音声信号がさまざまな周波数の成分に分解されます。

時間領域信号は、サウンド表現の最も直接的な形式(つまり、録音ソフトウェアで通常表示される波形)であり、周波数領域信号は、サウンドに含まれる周波数成分を反映できます。周波数領域分析後、結果として得られるスペクトログラムは、オーディオの特性情報を視覚化できます。スペクトログラムは、曲の周波数と振幅を毎秒記録し信号にどの周波数がいつ現れるか、またそれらの強度がどのように関連しているかを直感的に示します。

オーディオ指紋生成

スペクトル グラフの特徴に基づいて、オーディオ フィンガープリントを取得できます。通常、オーディオはいくつかの小さなブロックに分割され、オーディオ内の重要な周波数ピークが抽出されます。各フラグメントのピークの組み合わせが、曲全体のオーディオ フィンガープリントを形成します

通常、低音、中音、高音のバランスの取れた分析を確実にするために、異なる周波数範囲が個別に処理され、混乱や特定の音楽要素の欠落を回避します。

各曲は固有のオーディオ フィンガープリントに変換されるため、同じ曲の異なるバージョンであっても、周波数、振幅、時間の違いにより異なるフィンガープリントが生成され、その後のマッチングの精度が最も高くなります。

最後に、曲の「指紋」ができたら、次のステップは、既存の曲データベース内でそれに一致する指紋を見つけて、特定の曲を識別することです。楽曲認識技術では、オーディオ全体を比較するよりもハッシュ値を直接比較する方がはるかに高速であるため、各オーディオ フィンガープリントをハッシュ値 (一種のコード) に変換します。ソフトウェアは、ユーザーの録音のフィンガープリントをデータベース内のフィンガープリントのハッシュ値と比較し、一致する曲を見つけます。

オーディオ指紋のその他の用途

オーディオ フィンガープリント テクノロジーは、曲の識別に使用されるだけでなく、次の分野にも応用できます。

1. パーソナライズされた音楽のおすすめ

特徴抽出とマッチング技術は、パーソナライズされた音楽推奨の基礎も提供します。推薦システムは、メロディー、リズム、感情などの音楽の特徴に基づいてユーザーの好みを探ります。これにより、推薦の精度が向上するだけでなく、ユーザーは自分の好みに合ったより多くの音楽を発見できるようになります。

2. 著作権の検出と保護

オーディオ フィンガープリント テクノロジーは、メディア ライブラリ内に同じ内容の曲があるかどうかの検出、ユーザーがアップロードしたビデオやオーディオが著作権を侵害しているかどうかの検出、曲が無断で使用されているかどうかの検出など、著作権の検出と保護にも使用できます。

3. オーディオ再生モニタリング

たとえば、広告主がテレビやラジオが特定の頻度で時間通りに広告を放送しているかどうかを監視する必要がある場合、ラジオ局はこのテクノロジーを使用して監視およびカウントできます。

<<:  いつも食べずにはいられない?口を制御できないのも無理はありません!体のこの部分が壊れているのかもしれません。

>>:  「玄武」は河北省の「草原の空の道」を支援

推薦する

豚肉とキノコの炒め物

豚肉とキノコの炒め物は肉料理の1つの方法です。さまざまな調理方法も、より多くの人々のニーズを満たすた...

パンに保存料のデヒドロ酢酸ナトリウムを加えると「毒パン」となり、食べると肝臓や腎臓にダメージを与えるのでしょうか?

ゴシップ「パンなどの焼き菓子には保存料の『デヒドロ酢酸ナトリウム』が添加されており、『毒パン』になる...

酸性体質に効く食べ物

酸性体質の方はアルカリ性の食品を摂取すると良いでしょう。体内の酸塩基バランスを調整できるように、水を...

酢は治療効果があります

日常生活では、料理をするときに調味料として酢を少し加える人をよく見かけます。酢を加えると料理がさらに...

弾道有人飛行は白熱した議論を巻き起こしている。天体物理学者たちは詳細な解釈を与えた。どれくらい知っていますか?

弾道飛行とは何ですか? (なぜ気にする必要があるのでしょうか?)ニューシェパードブースターがNS-1...

もち米チキンの作り方

もち米チキンを作るとなると、毎日早起きして朝食を売っている人にとっては非常に簡単です。なぜなら、毎日...

妊婦はドライアプリコットを食べても大丈夫ですか?

私たちがよく食べる干しあんずは、私たちの日常生活のいたるところに存在しています。ドライアプリコットは...

モレルチキンシチュー

厳密に言えば、アミガサタケと煮込んだ鶏肉は家庭料理と見なされるべきですが、多くの場合、アミガサタケと...

糖尿病患者はアヒルの砂肝を食べることができますか?

アヒルの砂肝は非常に一般的な食材です。タンパク質、ビタミン、炭水化物、カルシウム、鉄分、脂肪を多く含...

焼き芋はなぜ美味しいのでしょうか?焼き芋界で一番美味しいサツマイモはどれでしょうか?

冬に食通の心を癒してくれるものがあるとすれば、それは街頭で売られている熱々で香り高く甘い焼き芋に違い...

航空機ピストンエンジン

航空ピストンエンジンは、シリンダー内のピストンの往復運動を利用してガス作動媒体の熱力学サイクルを完了...

仙草ゼリーの食べ方

生活の中には、独特の製法を持つ食べ物がたくさんあります。それらをスムーズに作るためには、それらを選ぶ...

ごまペーストパンケーキの作り方

どの地域にも独特のお菓子があることはご存じのとおりです。首都である北京には、確かに多くの特別なお菓子...

量子ドット vs. OLED: どちらのスクリーン技術が優れているのでしょうか?

OLED はもはや新しい技術ではありませんが、パネルメーカーは OLED ディスプレイの生産を増やす...