現代の生活は、大部分が騒々しいです。周囲の騒音が気になる場合は、ノイズキャンセリングヘッドホンを着用して周囲の騒音を遮断することもできます。 しかし、現在のノイズキャンセリングヘッドホンは、実際に聞きたい音も含めて、すべての音を無差別にフィルタリングしてしまうという問題があります。 Appleの第2世代AirPods Proは、例えば装着者が話していることを感知して自動的に音量を調節できるが、誰の話をいつ聞くかについてはほとんど制御できない。 現在、新たな人工知能(AI)技術により、伝統に革命を起こすヘッドフォンが誕生するかもしれない。一目見るだけで、世界中がそのヘッドフォンの音で満たされるだろう。 ワシントン大学の研究チームが人工知能ヘッドフォンシステム「Target Speech Hearing (TSH)」を開発しました。装着者は、対象のスピーカーを 3 ~ 5 秒間見つめるだけで、スピーカーを「ロック」し、周囲の他のすべての音を排除して、「ロック」したスピーカーの音声だけを聞くことができます。 TSH システムは、装着者が騒がしい場所で動き回っていてスピーカーに向いていない場合でも機能します。 「私たちは現在、AI を単に質問に答えるウェブベースのチャットボットとしてしか考えていない」と、論文の責任著者でワシントン大学ポール・G・アレン・コンピューターサイエンス&エンジニアリング学部の教授であるシャムナス・ゴラコタ氏は述べた。 「しかし、このプロジェクトでは、装着者の好みに応じて聴覚を変化させることができるAIを開発しました。」 研究チームによると、TSHシステムは1人の声だけを聞くことができるだけでなく、1人の声だけを除去することもできるという。これは、ある人の妨害的な発言をフィルタリングしながら、他の人の発言は聞き取れるようにしたい場合など、特定の状況で役立ちます。 研究チームは以前、人間とコンピュータの相互作用の分野で最も重要な国際会議であるACM CHI Conference on Human Factors in Computing Systemsでこの研究結果を発表していた。 この概念実証デバイスのコードは現在、他の人が使用できるように公開されているが、まだ商品化されておらず、人気ブランドのノイズキャンセリングヘッドフォンに組み込むための協議が行われている。 今後の研究では、TSH システムをイヤホンや補聴器にまで拡張したいと考えています。 「ロック」されたときの音 論文によれば、TSH システムを使用する場合、装着者は対象のスピーカーに頭を向け、ボタンをタップするだけで「ロック」が完了する。 この研究は、チームがこれまでに行ってきた意味聴覚に関する研究に基づいている。意味聴覚では、ユーザーが聞きたい特定のカテゴリーの音(鳥の鳴き声や話し声など)を選択し、環境内の他の音を打ち消すことができる。 「ロックされた」スピーカーの音波は、ヘッドセットの両側にあるマイクに同時に届きます。ヘッドセットは組み込みコンピュータに信号を送信し、そこで機械学習ソフトウェアが「ロックされた」話者の音声パターンの学習を開始します。 TSH システムはこれらの音をキャプチャし、ヘッドフォンを装着して動き回っているときでも、継続的に再生します。 「ターゲット」の人物が話し続けると、その人物の声に注意を払うシステム能力が向上し、システムにさらに多くのトレーニング データが提供されます。 研究者らは21人の被験者を対象にこのシステムをテストし、被験者は平均して「ロックされた」音の明瞭度を、フィルタリングされていない音声のほぼ2倍と評価した。 欠点と展望 しかし、この研究にもいくつかの限界があります。 たとえば、現在の TSH システムでは、一度に 1 人の話者しか「ロックオン」できず、話者と同じ方向に他の大きな声が存在しない場合にのみ、対象の話者にロックオンできます。 研究チームは今後の研究で、TSH システムを拡張して、複数のターゲット話者を同時に「ロック」できるようにしたいと考えています。彼らは2つの方法を提案しました。 1) スピーカーごとに個別のネットワーク インスタンスを実行します。このアプローチの問題点は、各スピーカーに独立した処理フローが必要なため、より多くのコンピューティング リソースが必要になることです。 2) 複数の話者を同時に処理できるネットワークをトレーニングします。これには、話者ごとに個別のインスタンスを実行する必要がなく、すべての話者の音声を 1 回のパスで分離する「集約型マルチ話者埋め込み」形式が使用され、複数の話者をより効率的に処理できるようになります。 さらに、人間の声の特徴は、加齢、健康状態、感情の変化などの要因によって変化する可能性があり、その結果、TSH システムが声の微妙な違いを認識できなくなり、対象の話し手を「ロックオン」できなくなる可能性があります。 研究チームによると、装着者は両耳ヒアラブルデバイスを使用して、対象話者を抽出する前に対象音声の登録サンプルをキャプチャできるため、この要素は短期的にはそれほど変化しない可能性があるという。 同時に、対象話者と妨害話者との類似性が高くなるほど、妨害話者を完全に排除することが難しくなります。システムの堅牢性を高めるために、1 つの「ロック」レコードだけでなく、異なる時点での複数の「ロック」レコードを使用できます。 なお、研究チームはトレーニングに合成データを使用し、現実世界には見られない話者や屋内・屋外の環境への一般化やモビリティのサポートはできたものの、実際の応用においては、異なる環境や話者に対するモデルの一般化能力をさらに検証し、改善する必要があるかもしれない。 最後に、彼らはターゲットスピーカーをより効果的に「ロックイン」するためのいくつかの方法も模索しました。たとえば、ターゲット スピーカーの移動がサポートされるため、同じ方向に別の強力な干渉スピーカーが出現する可能性が低くなります。静止したシーンでも、ネットワークは、装着者が見ている方向に最も近い、または最も大きな声を出す話者にのみ焦点を合わせるようにトレーニングされます。 参考リンク: https://dl.acm.org/doi/10.1145/3613904.3642057 https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/ |
<<: 全国ヘアケアデー丨白髪を1本抜くと、また10本生えてくる?抜くべきか抜かないべきか?
>>: 世界カワウソの日 |カワウソはどんな悪意を持っているのでしょうか?
私たちの食生活において、煮込み料理は間違いなく非常に一般的な方法です。一般的に、煮込み料理は独特で忘...
秋は健康維持にも良い季節です。この時期に最も適しているのは、滋養強壮食品を通じて健康維持効果を得るこ...
龍里魚は昔から高級魚の一つです。龍里魚自体に不飽和脂肪酸が豊富に含まれているため、動脈硬化の発生を効...
著者: ドゥアン・ユエチュお使いのブラウザはビデオタグをサポートしていませんプログラミングで英語を使...
バーベキューは、今や誰もが大好きなごちそうです。バーベキューレストランに行くと、いつも人でいっぱいで...
友人とチェスをするために座ったとします。しかし、その友人は普通の人ではありません。むしろ、それはゲー...
一般的に、中小企業を大企業に育てるのは難しいと考えられていますが、2,000 社の小さな自動車会社の...
昨年以来、4Kテレビ(超高精細テレビ)が消費者の間で人気を集め、大手カラーテレビ会社の収益源となって...
実は、補償の基本的な枠組みは前回の公聴会で発表されていた。これまでの高圧的な事例を考えると、実際に契...
植物の中国語名は洗練されたコードのようなもので、生物学的な用語による長々とした説明を必要とせず、植物...
多くの人がザワークラウトを食べるのが好きです。ザワークラウトは人間の消化を促進するのに非常に役立ち、...
2024年8月、Ideal Autoの納入台数は4万8000台に達し、多くの新勢力を大きく上回り、...
健康診断の報告書を受け取るたびに戸惑っていませんか?これらの数字と矢印は何を意味していますか?表示さ...
【胡麻ソースワンタン】原材料:豚すね肉 2 本、鶏の骨 1 本、冷凍ワンタン、麺、白ワイン、塩、玉...
先週金曜日、アップルが世界最大の高級品グループLVMH傘下の高級時計ブランド、タグ・ホイヤーのグロー...