現代の生活は、大部分が騒々しいです。周囲の騒音が気になる場合は、ノイズキャンセリングヘッドホンを着用して周囲の騒音を遮断することもできます。 しかし、現在のノイズキャンセリングヘッドホンは、実際に聞きたい音も含めて、すべての音を無差別にフィルタリングしてしまうという問題があります。 Appleの第2世代AirPods Proは、例えば装着者が話していることを感知して自動的に音量を調節できるが、誰の話をいつ聞くかについてはほとんど制御できない。 現在、新たな人工知能(AI)技術により、伝統に革命を起こすヘッドフォンが誕生するかもしれない。一目見るだけで、世界中がそのヘッドフォンの音で満たされるだろう。 ワシントン大学の研究チームが人工知能ヘッドフォンシステム「Target Speech Hearing (TSH)」を開発しました。装着者は、対象のスピーカーを 3 ~ 5 秒間見つめるだけで、スピーカーを「ロック」し、周囲の他のすべての音を排除して、「ロック」したスピーカーの音声だけを聞くことができます。 TSH システムは、装着者が騒がしい場所で動き回っていてスピーカーに向いていない場合でも機能します。 「私たちは現在、AI を単に質問に答えるウェブベースのチャットボットとしてしか考えていない」と、論文の責任著者でワシントン大学ポール・G・アレン・コンピューターサイエンス&エンジニアリング学部の教授であるシャムナス・ゴラコタ氏は述べた。 「しかし、このプロジェクトでは、装着者の好みに応じて聴覚を変化させることができるAIを開発しました。」 研究チームによると、TSHシステムは1人の声だけを聞くことができるだけでなく、1人の声だけを除去することもできるという。これは、ある人の妨害的な発言をフィルタリングしながら、他の人の発言は聞き取れるようにしたい場合など、特定の状況で役立ちます。 研究チームは以前、人間とコンピュータの相互作用の分野で最も重要な国際会議であるACM CHI Conference on Human Factors in Computing Systemsでこの研究結果を発表していた。 この概念実証デバイスのコードは現在、他の人が使用できるように公開されているが、まだ商品化されておらず、人気ブランドのノイズキャンセリングヘッドフォンに組み込むための協議が行われている。 今後の研究では、TSH システムをイヤホンや補聴器にまで拡張したいと考えています。 「ロック」されたときの音 論文によれば、TSH システムを使用する場合、装着者は対象のスピーカーに頭を向け、ボタンをタップするだけで「ロック」が完了する。 この研究は、チームがこれまでに行ってきた意味聴覚に関する研究に基づいている。意味聴覚では、ユーザーが聞きたい特定のカテゴリーの音(鳥の鳴き声や話し声など)を選択し、環境内の他の音を打ち消すことができる。 「ロックされた」スピーカーの音波は、ヘッドセットの両側にあるマイクに同時に届きます。ヘッドセットは組み込みコンピュータに信号を送信し、そこで機械学習ソフトウェアが「ロックされた」話者の音声パターンの学習を開始します。 TSH システムはこれらの音をキャプチャし、ヘッドフォンを装着して動き回っているときでも、継続的に再生します。 「ターゲット」の人物が話し続けると、その人物の声に注意を払うシステム能力が向上し、システムにさらに多くのトレーニング データが提供されます。 研究者らは21人の被験者を対象にこのシステムをテストし、被験者は平均して「ロックされた」音の明瞭度を、フィルタリングされていない音声のほぼ2倍と評価した。 欠点と展望 しかし、この研究にもいくつかの限界があります。 たとえば、現在の TSH システムでは、一度に 1 人の話者しか「ロックオン」できず、話者と同じ方向に他の大きな声が存在しない場合にのみ、対象の話者にロックオンできます。 研究チームは今後の研究で、TSH システムを拡張して、複数のターゲット話者を同時に「ロック」できるようにしたいと考えています。彼らは2つの方法を提案しました。 1) スピーカーごとに個別のネットワーク インスタンスを実行します。このアプローチの問題点は、各スピーカーに独立した処理フローが必要なため、より多くのコンピューティング リソースが必要になることです。 2) 複数の話者を同時に処理できるネットワークをトレーニングします。これには、話者ごとに個別のインスタンスを実行する必要がなく、すべての話者の音声を 1 回のパスで分離する「集約型マルチ話者埋め込み」形式が使用され、複数の話者をより効率的に処理できるようになります。 さらに、人間の声の特徴は、加齢、健康状態、感情の変化などの要因によって変化する可能性があり、その結果、TSH システムが声の微妙な違いを認識できなくなり、対象の話し手を「ロックオン」できなくなる可能性があります。 研究チームによると、装着者は両耳ヒアラブルデバイスを使用して、対象話者を抽出する前に対象音声の登録サンプルをキャプチャできるため、この要素は短期的にはそれほど変化しない可能性があるという。 同時に、対象話者と妨害話者との類似性が高くなるほど、妨害話者を完全に排除することが難しくなります。システムの堅牢性を高めるために、1 つの「ロック」レコードだけでなく、異なる時点での複数の「ロック」レコードを使用できます。 なお、研究チームはトレーニングに合成データを使用し、現実世界には見られない話者や屋内・屋外の環境への一般化やモビリティのサポートはできたものの、実際の応用においては、異なる環境や話者に対するモデルの一般化能力をさらに検証し、改善する必要があるかもしれない。 最後に、彼らはターゲットスピーカーをより効果的に「ロックイン」するためのいくつかの方法も模索しました。たとえば、ターゲット スピーカーの移動がサポートされるため、同じ方向に別の強力な干渉スピーカーが出現する可能性が低くなります。静止したシーンでも、ネットワークは、装着者が見ている方向に最も近い、または最も大きな声を出す話者にのみ焦点を合わせるようにトレーニングされます。 参考リンク: https://dl.acm.org/doi/10.1145/3613904.3642057 https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/ |
<<: 全国ヘアケアデー丨白髪を1本抜くと、また10本生えてくる?抜くべきか抜かないべきか?
>>: 世界カワウソの日 |カワウソはどんな悪意を持っているのでしょうか?
人類の歴史の発展の過程において、新素材の発見と発明は人類の文明を促進する上で重要な役割を果たしてきま...
実際、コーンスターチを食べると太るかどうかは、私たちの体の消化能力によって決まります。なぜなら、消化...
11月1日から、瀋陽、天津などの地域は暖房シーズンに入り、正式に暖房を開始しました。 11月1日早...
大規模言語モデルは便利ですが、推論を含む AI の基本的な問題を解決することはできません。著者: W...
この記事の専門家:ヤン・チャオ、中国科学院大学化学博士この記事の査読者:フェン・レイ、紫山天文台准研...
パスタソースは、その名の通り、パスタを作るときに欠かせない特別なソースです。パスタを作るとき、パスタ...
これは大易小虎の第3866番目の記事です6月22日、陝西省西安市吉徳堡にある万科金月成幼稚園では、1...
テスラは6月17日、モデルSの全世界での走行距離が10億マイル(約16億キロメートル)に達したと発表...
国家衛生健康委員会の3月11日のウェブサイトによると、自己検査が必要な地域住民は、小売薬局、オンライ...
白桃と言えば、多くの人は馴染みがないかもしれません。なぜなら、白桃は実は地元の特別な食べ物だからです...
最近、国家発展改革委員会は、河南蘇田電動車両技術有限公司(以下、河南蘇田)が年間10万台の電気自動車...
実際、おいしいライスヌードルロールを作る秘訣は、ライスヌードルロールを柔らかく、かつ歯ごたえのあるも...
卒業後、王維の息子である太子は父の遺産を継承し、海軍士官になった。李凌超さんは父の影響で、北京大学の...
自然史博物館に入り、シロナガスクジラ「ホープ」の骨格の下を歩き、階段を上り、ダーウィンの像に挨拶し、...
「バン!」大きな音がした福建省漳州市の林さん宅のトイレで爆発が発生!さらに深刻なのは顔と首がひどく...