ああ?音楽にも「指紋」がある!楽曲認識機能の実現方法 →

ああ?音楽にも「指紋」がある!楽曲認識機能の実現方法 →

誰もがこのような経験をしたことがあるかもしれません。

聞き覚えのあるメロディーを聞く

でも曲名が思い出せない

このとき、曲認識機能をオンにしてください

数秒後

対応する曲が画面に表示されます。

この機能はどのように機能しますか?

こんなに短時間で曲名を正確に特定するにはどうすればいいのでしょうか?

オーディオ指紋は曲を識別する鍵となる

曲を聴いて識別するための鍵は、オーディオ フィンガープリンティングにあります。人の指紋がそれぞれユニークであるように、曲にもそれぞれユニークな指紋があります。オーディオ フィンガープリントは、オーディオ信号のデジタル DNA です。その生成プロセスは、おおよそ次のステップに分けられます。
オーディオ信号のデジタル化

音楽認識の第一歩は、音を「聴く」ことです。しかし、機械はどのようにして歌を「聞く」のでしょうか?音は本質的に振動です。人間の耳に受信された後、鼓膜やその他の組織がこの振動を脳が認識できる信号に変換します。音楽を聴く機械の原理も同様です。音の振動を電気信号に変換し、その電気信号をコンピューターで処理できるデジタル信号に変換します。

現実世界の音は連続的(線のような)アナログ信号ですが、コンピューターが処理する信号は離散的(複数の点のような)デジタル信号です。そのため、連続した音の波形をサンプリングして離散的なデジタル信号に変換する必要があります。サンプリング レートによって信号のキャプチャ効果が決まります。サンプリング レートが高くなるほど、ポイントの密度が高くなり、元のサウンドがより完全に保存されます

特徴抽出後のデジタル化された信号は、音声処理モジュールに送信され、特にフーリエ変換(数学的変換アルゴリズム)を介して、時間領域から周波数領域への変換を含む音声特徴抽出が行われ、連続音声信号がさまざまな周波数の成分に分解されます。

時間領域信号は、サウンド表現の最も直接的な形式(つまり、録音ソフトウェアで通常表示される波形)であり、周波数領域信号は、サウンドに含まれる周波数成分を反映できます。周波数領域分析後、結果として得られるスペクトログラムは、オーディオの特性情報を視覚化できます。スペクトログラムは、曲の周波数と振幅を毎秒記録し信号にどの周波数がいつ現れるか、またそれらの強度がどのように関連しているかを直感的に示します。

オーディオ指紋生成

スペクトル グラフの特徴に基づいて、オーディオ フィンガープリントを取得できます。通常、オーディオはいくつかの小さなブロックに分割され、オーディオ内の重要な周波数ピークが抽出されます。各フラグメントのピークの組み合わせが、曲全体のオーディオ フィンガープリントを形成します

通常、低音、中音、高音のバランスの取れた分析を確実にするために、異なる周波数範囲が個別に処理され、混乱や特定の音楽要素の欠落を回避します。

各曲は固有のオーディオ フィンガープリントに変換されるため、同じ曲の異なるバージョンであっても、周波数、振幅、時間の違いにより異なるフィンガープリントが生成され、その後のマッチングの精度が最も高くなります。

最後に、曲の「指紋」ができたら、次のステップは、既存の曲データベース内でそれに一致する指紋を見つけて、特定の曲を識別することです。楽曲認識技術では、オーディオ全体を比較するよりもハッシュ値を直接比較する方がはるかに高速であるため、各オーディオ フィンガープリントをハッシュ値 (一種のコード) に変換します。ソフトウェアは、ユーザーの録音のフィンガープリントをデータベース内のフィンガープリントのハッシュ値と比較し、一致する曲を見つけます。

オーディオ指紋のその他の用途

オーディオ フィンガープリント テクノロジーは、曲の識別に使用されるだけでなく、次の分野にも応用できます。

1. パーソナライズされた音楽のおすすめ

特徴抽出とマッチング技術は、パーソナライズされた音楽推奨の基礎も提供します。推薦システムは、メロディー、リズム、感情などの音楽の特徴に基づいてユーザーの好みを探ります。これにより、推薦の精度が向上するだけでなく、ユーザーは自分の好みに合ったより多くの音楽を発見できるようになります。

2. 著作権の検出と保護

オーディオ フィンガープリント テクノロジーは、メディア ライブラリ内に同じ内容の曲があるかどうかの検出、ユーザーがアップロードしたビデオやオーディオが著作権を侵害しているかどうかの検出、曲が無断で使用されているかどうかの検出など、著作権の検出と保護にも使用できます。

3. オーディオ再生モニタリング

たとえば、広告主がテレビやラジオが特定の頻度で時間通りに広告を放送しているかどうかを監視する必要がある場合、ラジオ局はこのテクノロジーを使用して監視およびカウントできます。

<<:  いつも食べずにはいられない?口を制御できないのも無理はありません!体のこの部分が壊れているのかもしれません。

>>:  「玄武」は河北省の「草原の空の道」を支援

推薦する

テスラはオートパイロットソフトウェアチームを再び再編、マスク氏が責任者に

事情に詳しい関係者によると、テスラは再びオートパイロット・ソフトウェア・チームを再編し、最高経営責任...

ドリアンの栄養価と効能

ドリアンは果物の王様です。その栄養価は他の果物よりも高いです。しかし、ドリアンは臭いがきついので、多...

生姜の魔法の効用とは

生姜は人間にとって一般的な食材であるだけでなく、薬効成分を多く含む食材でもあるため、私たちの友人の多...

2017年のAndroidスマートフォンの展望:フルスクリーンスマートフォンが爆発的に増加、HuaweiとSamsungが首位を争う

海外メディアの報道によると、2016年も残り12日となり、2017年を楽しみに待つ時期となった。今年...

韓国冷麺の作り方

名前の通り、韓国冷麺は韓国風冷麺の一種です。韓国冷麺は作り方が簡単で美味しいです。そのため、韓国の隣...

葉の上に人が立つと、花が3色に変化します!この「魔法の」植物は、実は神秘的なものではありません...

この記事の専門家:植物科学ライター、ロン・ハイ蓮の花について言えば、子供の頃からこの花を見てきたので...

消えた天佑:「フォーカスインタビュー」を去った後、酔っぱらったまま一人だけ残る

「氷はすごい。悩みを全部忘れられる。トランプをしたり、おしゃべりしたりできる。3日間は起きていられる...

ラバニンニクの効能

ラバニンニクを食べるのは北方の人々の習慣であり、その調理法は非常に簡単です。主な材料はニンニクです。...

生のカボチャの種の栄養価

みなさんはカボチャの種をご存知だと思います。カボチャの種は、その名の通りカボチャの種のことです。退屈...

ダークチョコレートの効果と機能

チョコレートは多くの人に好まれています。甘くて美味しいので、特に恋をしている人にとっては特にそうです...

日本がマイクロ波無線電力伝送実験に成功:宇宙太陽光発電の開発

宇宙航空研究開発機構(JAXA)は今月8日、マイクロ波無線電力伝送実験を行い、伝送距離55メートルに...

ピーナッツの食べ方

ピーナッツの食べ方はいろいろあります。ここでは、ピーナッツの食べ方をご紹介します。ピーナッツは実は殻...

女性のこうした痛みは、決して「大げさ」なものではありません。

痛みは、世界保健機関によって、心拍数、呼吸、脈拍、体温に続く第5のバイタルサインとして挙げられており...

キャベツの調理方法

キャベツはそのまま炒めたり、酸っぱいキャベツを作るのに使うこともできます。おそらく、私たちの日常生活...

「弾薬」とは何ですか?放射性医薬品の過去と現在を知る

医療診断・治療技術の継続的な発展により、多くの新しい用語が目に入ります。 「核医学」「核医学」「弾薬...