ああ?音楽にも「指紋」がある!楽曲認識機能の実現方法 →

ああ?音楽にも「指紋」がある!楽曲認識機能の実現方法 →

誰もがこのような経験をしたことがあるかもしれません。

聞き覚えのあるメロディーを聞く

でも曲名が思い出せない

このとき、曲認識機能をオンにしてください

数秒後

対応する曲が画面に表示されます。

この機能はどのように機能しますか?

こんなに短時間で曲名を正確に特定するにはどうすればいいのでしょうか?

オーディオ指紋は曲を識別する鍵となる

曲を聴いて識別するための鍵は、オーディオ フィンガープリンティングにあります。人の指紋がそれぞれユニークであるように、曲にもそれぞれユニークな指紋があります。オーディオ フィンガープリントは、オーディオ信号のデジタル DNA です。その生成プロセスは、おおよそ次のステップに分けられます。
オーディオ信号のデジタル化

音楽認識の第一歩は、音を「聴く」ことです。しかし、機械はどのようにして歌を「聞く」のでしょうか?音は本質的に振動です。人間の耳に受信された後、鼓膜やその他の組織がこの振動を脳が認識できる信号に変換します。音楽を聴く機械の原理も同様です。音の振動を電気信号に変換し、その電気信号をコンピューターで処理できるデジタル信号に変換します。

現実世界の音は連続的(線のような)アナログ信号ですが、コンピューターが処理する信号は離散的(複数の点のような)デジタル信号です。そのため、連続した音の波形をサンプリングして離散的なデジタル信号に変換する必要があります。サンプリング レートによって信号のキャプチャ効果が決まります。サンプリング レートが高くなるほど、ポイントの密度が高くなり、元のサウンドがより完全に保存されます

特徴抽出後のデジタル化された信号は、音声処理モジュールに送信され、特にフーリエ変換(数学的変換アルゴリズム)を介して、時間領域から周波数領域への変換を含む音声特徴抽出が行われ、連続音声信号がさまざまな周波数の成分に分解されます。

時間領域信号は、サウンド表現の最も直接的な形式(つまり、録音ソフトウェアで通常表示される波形)であり、周波数領域信号は、サウンドに含まれる周波数成分を反映できます。周波数領域分析後、結果として得られるスペクトログラムは、オーディオの特性情報を視覚化できます。スペクトログラムは、曲の周波数と振幅を毎秒記録し信号にどの周波数がいつ現れるか、またそれらの強度がどのように関連しているかを直感的に示します。

オーディオ指紋生成

スペクトル グラフの特徴に基づいて、オーディオ フィンガープリントを取得できます。通常、オーディオはいくつかの小さなブロックに分割され、オーディオ内の重要な周波数ピークが抽出されます。各フラグメントのピークの組み合わせが、曲全体のオーディオ フィンガープリントを形成します

通常、低音、中音、高音のバランスの取れた分析を確実にするために、異なる周波数範囲が個別に処理され、混乱や特定の音楽要素の欠落を回避します。

各曲は固有のオーディオ フィンガープリントに変換されるため、同じ曲の異なるバージョンであっても、周波数、振幅、時間の違いにより異なるフィンガープリントが生成され、その後のマッチングの精度が最も高くなります。

最後に、曲の「指紋」ができたら、次のステップは、既存の曲データベース内でそれに一致する指紋を見つけて、特定の曲を識別することです。楽曲認識技術では、オーディオ全体を比較するよりもハッシュ値を直接比較する方がはるかに高速であるため、各オーディオ フィンガープリントをハッシュ値 (一種のコード) に変換します。ソフトウェアは、ユーザーの録音のフィンガープリントをデータベース内のフィンガープリントのハッシュ値と比較し、一致する曲を見つけます。

オーディオ指紋のその他の用途

オーディオ フィンガープリント テクノロジーは、曲の識別に使用されるだけでなく、次の分野にも応用できます。

1. パーソナライズされた音楽のおすすめ

特徴抽出とマッチング技術は、パーソナライズされた音楽推奨の基礎も提供します。推薦システムは、メロディー、リズム、感情などの音楽の特徴に基づいてユーザーの好みを探ります。これにより、推薦の精度が向上するだけでなく、ユーザーは自分の好みに合ったより多くの音楽を発見できるようになります。

2. 著作権の検出と保護

オーディオ フィンガープリント テクノロジーは、メディア ライブラリ内に同じ内容の曲があるかどうかの検出、ユーザーがアップロードしたビデオやオーディオが著作権を侵害しているかどうかの検出、曲が無断で使用されているかどうかの検出など、著作権の検出と保護にも使用できます。

3. オーディオ再生モニタリング

たとえば、広告主がテレビやラジオが特定の頻度で時間通りに広告を放送しているかどうかを監視する必要がある場合、ラジオ局はこのテクノロジーを使用して監視およびカウントできます。

<<:  いつも食べずにはいられない?口を制御できないのも無理はありません!体のこの部分が壊れているのかもしれません。

>>:  「玄武」は河北省の「草原の空の道」を支援

推薦する

とても疲れているのに、なぜそんなに太っているのですか?本当に努力によってつく脂肪があるんです!

オフィスワーカーは仕事のために早く出勤し、遅く帰ってきます。すでにとても疲れているのに、もっと痩せる...

授乳中にコショウを食べてもいいですか?

私たちの日常生活では、コショウは料理の味を調整し、胃を強くして消化を助け、食欲を増進する材料として使...

マスク氏:テスラの電気ピックアップ「サイバートラック」はまもなく生産ラインから出荷され、予約は50万台を超える

最近、ネットユーザーがツイッターでマスク氏に、テスラの電気ピックアップ「サイバートラック」がいつ発売...

塩味のソーダを定期的に飲むと体重が減る

ソルティソーダは、私たちが日常的に飲むシンプルな飲み物の 1 つです。ソルティソーダは無色透明の液体...

めったに見られない雲南桐がなぜ絶滅の危機に瀕しているのでしょうか?

最近、科学研究者らが雲南省騰衝市国地堂寨で、絶滅危惧種に指定されている希少な桐の木を発見した。雲南桐...

ZTE「Big Q」体験レビュー:1,000元の4Gもユニーク

競争が激化する千元スマートフォン市場において、国内の携帯電話メーカーは、ハードウェアパラメータであれ...

腰痛や骨折、実は「蟹座病」が原因?この血液インジケーターは犯人を特定できる「スーパー探偵」です!

多発性骨髄腫は、一般に「カニ病」や「骨食い病」とも呼ばれ、臨床症状が複雑かつ多様で、誤診率も高い病気...

現代人はどうやって青海チベット高原を「登る」のでしょうか?デニソワ人からの贈り物

制作:中国科学普及協会著者: 牛長泰 (中国科学院南京地質古生物学研究所博士)プロデューサー: 中国...

自分の体型に不安を感じていませんか?

著者: 上海精神衛生センター副主任医師 陳漢周偉上海メンタルヘルスセンター評者: 上海メンタルヘルス...

牛肉と野菜の炒め物

牛肉は多くの野菜と組み合わせることができますが、最も良い組み合わせはジャガイモと野菜です。牛肉はジャ...

[豚バラ肉とポテトチップスの炒め物]は午後中エネルギーをたっぷり与えてくれます

【豚バラ肉とポテトチップスの炒め物】は、まさに時短料理の代表格。材料を混ぜるだけで、作り方は豚肉炒め...

40社近くの顧客がLeTVと提携し、5つのスクリーンと8つの番組で1億元を超える広告収入を生み出し、トップチームとしての強さを証明しました。

2014 年が「ワールドカップ」の年と呼ばれる理由は、世界中のサッカーファンにとってお祭りであるだ...

フォードF-150ハイブリッド版はEVモードを提供せず、耐久性がボトルネックに

最近、海外メディアは、フォードのCTO(最高技術責任者)が、F-150ハイブリッド版にはEV(純電気...

東莞初の無人工場建設は労働力不足を緩和できるか?

最近、広東省東莞市で初の民間「無人工場」の建設が始まり、地元の「機械による人代替」戦略が新たな段階に...

全粒粉パンを食べると太りますか?あなたが食べているものは「偽物」かもしれません。その落とし穴を避けるためのコツをご紹介します。

今年は健康的な食生活のトレンドがますます人気を集めており、全粒粉パンは健康的な主食のモデルとして人々...