あなたのヘッドフォンはAIによって「破壊」されようとしています。ちょっと見てください、そして世界中が彼の声で満たされます

あなたのヘッドフォンはAIによって「破壊」されようとしています。ちょっと見てください、そして世界中が彼の声で満たされます

現代の生活は、大部分が騒々しいです。周囲の騒音が気になる場合は、ノイズキャンセリングヘッドホンを着用して周囲の騒音を遮断することもできます。

しかし、現在のノイズキャンセリングヘッドホンは、実際に聞きたい音も含めて、すべての音を無差別にフィルタリングしてしまうという問題があります。

Appleの第2世代AirPods Proは、例えば装着者が話していることを感知して自動的に音量を調節できるが、誰の話をいつ聞くかについてはほとんど制御できない。

現在、新たな人工知能(AI)技術により、伝統に革命を起こすヘッドフォンが誕生するかもしれない。一目見るだけで、世界中がそのヘッドフォンの音で満たされるだろう。

ワシントン大学の研究チームが人工知能ヘッドフォンシステム「Target Speech Hearing (TSH)」を開発しました。装着者は、対象のスピーカーを 3 ~ 5 秒間見つめるだけで、スピーカーを「ロック」し、周囲の他のすべての音を排除して、「ロック」したスピーカーの音声だけを聞くことができます。 TSH システムは、装着者が騒がしい場所で動き回っていてスピーカーに向いていない場合でも機能します。

私たちは現在、AI を単に質問に答えるウェブベースのチャットボットとしてしか考えていない」と、論文の責任著者でワシントン大学ポール・G・アレン・コンピューターサイエンス&エンジニアリング学部の教授であるシャムナス・ゴラコタ氏は述べた。 「しかし、このプロジェクトでは、装着者の好みに応じて聴覚を変化させることができるAIを開発しました。」

研究チームによると、TSHシステムは1人の声だけを聞くことができるだけでなく、1人の声だけを除去することもできるという。これは、ある人の妨害的な発言をフィルタリングしながら、他の人の発言は聞き取れるようにしたい場合など、特定の状況で役立ちます。

研究チームは以前、人間とコンピュータの相互作用の分野で最も重要な国際会議であるACM CHI Conference on Human Factors in Computing Systemsでこの研究結果を発表していた。

この概念実証デバイスのコードは現在、他の人が使用できるように公開されているが、まだ商品化されておらず、人気ブランドのノイズキャンセリングヘッドフォンに組み込むための協議が行われている。

今後の研究では、TSH システムをイヤホンや補聴器にまで拡張したいと考えています。

「ロック」されたときの音

論文によれば、TSH システムを使用する場合、装着者は対象のスピーカーに頭を向け、ボタンをタップするだけで「ロック」が完了する。

この研究は、チームがこれまでに行ってきた意味聴覚に関する研究に基づいている。意味聴覚では、ユーザーが聞きたい特定のカテゴリーの音(鳥の鳴き声や話し声など)を選択し、環境内の他の音を打ち消すことができる。

「ロックされた」スピーカーの音波は、ヘッドセットの両側にあるマイクに同時に届きます。ヘッドセットは組み込みコンピュータに信号を送信し、そこで機械学習ソフトウェアが「ロックされた」話者の音声パターンの学習を開始します。

TSH システムはこれらの音をキャプチャし、ヘッドフォンを装着して動き回っているときでも、継続的に再生します。

「ターゲット」の人物が話し続けると、その人物の声に注意を払うシステム能力が向上し、システムにさらに多くのトレーニング データが提供されます。

研究者らは21人の被験者を対象にこのシステムをテストし、被験者は平均して「ロックされた」音の明瞭度を、フィルタリングされていない音声のほぼ2倍と評価した。

欠点と展望

しかし、この研究にもいくつかの限界があります。

たとえば、現在の TSH システムでは、一度に 1 人の話者しか「ロックオン」できず、話者と同じ方向に他の大きな声が存在しない場合にのみ、対象の話者にロックオンできます。

研究チームは今後の研究で、TSH システムを拡張して、複数のターゲット話者を同時に「ロック」できるようにしたいと考えています。彼らは2つの方法を提案しました。

1) スピーカーごとに個別のネットワーク インスタンスを実行します。このアプローチの問題点は、各スピーカーに独立した処理フローが必要なため、より多くのコンピューティング リソースが必要になることです。

2) 複数の話者を同時に処理できるネットワークをトレーニングします。これには、話者ごとに個別のインスタンスを実行する必要がなく、すべての話者の音声を 1 回のパスで分離する「集約型マルチ話者埋め込み」形式が使用され、複数の話者をより効率的に処理できるようになります。

さらに、人間の声の特徴は、加齢、健康状態、感情の変化などの要因によって変化する可能性があり、その結果、TSH システムが声の微妙な違いを認識できなくなり、対象の話し手を「ロックオン」できなくなる可能性があります。

研究チームによると、装着者は両耳ヒアラブルデバイスを使用して、対象話者を抽出する前に対象音声の登録サンプルをキャプチャできるため、この要素は短期的にはそれほど変化しない可能性があるという。

同時に、対象話者と妨害話者との類似性が高くなるほど、妨害話者を完全に排除することが難しくなります。システムの堅牢性を高めるために、1 つの「ロック」レコードだけでなく、異なる時点での複数の「ロック」レコードを使用できます。

なお、研究チームはトレーニングに合成データを使用し、現実世界には見られない話者や屋内・屋外の環境への一般化やモビリティのサポートはできたものの、実際の応用においては、異なる環境や話者に対するモデルの一般化能力をさらに検証し、改善する必要があるかもしれない

最後に、彼らはターゲットスピーカーをより効果的に「ロックイン」するためのいくつかの方法も模索しました。たとえば、ターゲット スピーカーの移動がサポートされるため、同じ方向に別の強力な干渉スピーカーが出現する可能性が低くなります。静止したシーンでも、ネットワークは、装着者が見ている方向に最も近い、または最も大きな声を出す話者にのみ焦点を合わせるようにトレーニングされます。

参考リンク:

https://dl.acm.org/doi/10.1145/3613904.3642057

https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/

<<:  全国ヘアケアデー丨白髪を1本抜くと、また10本生えてくる?抜くべきか抜かないべきか?

>>:  世界カワウソの日 |カワウソはどんな悪意を持っているのでしょうか?

推薦する

密度が空気よりも低いので、保温・断熱効果の高い魔法のアイテムです!

人類の歴史の発展の過程において、新素材の発見と発明は人類の文明を促進する上で重要な役割を果たしてきま...

コーンスターチを食べると太りますか?

実際、コーンスターチを食べると太るかどうかは、私たちの体の消化能力によって決まります。なぜなら、消化...

多くの場所で暖房シーズンに突入しました!これらのことに必ず注意してください。そうしないと病気になる可能性があります。

11月1日から、瀋陽、天津などの地域は暖房シーズンに入り、正式に暖房を開始しました。 11月1日早...

大規模言語モデルは推論できるか?丨AI That Guy

大規模言語モデルは便利ですが、推論を含む AI の基本的な問題を解決することはできません。著者: W...

初確認です!地球の外にも生命の源はある!宇宙人って本当にいるんですか?

この記事の専門家:ヤン・チャオ、中国科学院大学化学博士この記事の査読者:フェン・レイ、紫山天文台准研...

パスタソースとは何ですか?

パスタソースは、その名の通り、パスタを作るときに欠かせない特別なソースです。パスタを作るとき、パスタ...

暑い夏の日です、お気をつけて!食中毒の「最大の死因」はあなたのすぐそばにいるかもしれません!

これは大易小虎の第3866番目の記事です6月22日、陝西省西安市吉徳堡にある万科金月成幼稚園では、1...

テスラの中国での販売不振:閉鎖的なエコシステムをめぐる議論

テスラは6月17日、モデルSの全世界での走行距離が10億マイル(約16億キロメートル)に達したと発表...

自宅でできるCOVID-19セルフテストが登場!抗原検査と核酸検査の違いは何ですか?

国家衛生健康委員会の3月11日のウェブサイトによると、自己検査が必要な地域住民は、小売薬局、オンライ...

餌を食べると太りますか?

白桃と言えば、多くの人は馴染みがないかもしれません。なぜなら、白桃は実は地元の特別な食べ物だからです...

新エネルギー車は徐々に移行期に入り、生産資格審査は緩和される可能性

最近、国家発展改革委員会は、河南蘇田電動車両技術有限公司(以下、河南蘇田)が年間10万台の電気自動車...

ライスヌードルロールの作り方

実際、おいしいライスヌードルロールを作る秘訣は、ライスヌードルロールを柔らかく、かつ歯ごたえのあるも...

父の日:あなたの名前は私の最大の目標です

卒業後、王維の息子である太子は父の遺産を継承し、海軍士官になった。李凌超さんは父の影響で、北京大学の...

ゴリラは恐ろしいキングコングですか?いいえ、それは優しい巨人です。

自然史博物館に入り、シロナガスクジラ「ホープ」の骨格の下を歩き、階段を上り、ダーウィンの像に挨拶し、...

バン!トイレが爆発した!男性は重度の火傷を負いました。多くの人が自宅にこれを持っています...

「バン!」大きな音がした福建省漳州市の林さん宅のトイレで爆発が発生!さらに深刻なのは顔と首がひどく...