現代の生活は、大部分が騒々しいです。周囲の騒音が気になる場合は、ノイズキャンセリングヘッドホンを着用して周囲の騒音を遮断することもできます。 しかし、現在のノイズキャンセリングヘッドホンは、実際に聞きたい音も含めて、すべての音を無差別にフィルタリングしてしまうという問題があります。 Appleの第2世代AirPods Proは、例えば装着者が話していることを感知して自動的に音量を調節できるが、誰の話をいつ聞くかについてはほとんど制御できない。 現在、新たな人工知能(AI)技術により、伝統に革命を起こすヘッドフォンが誕生するかもしれない。一目見るだけで、世界中がそのヘッドフォンの音で満たされるだろう。 ワシントン大学の研究チームが人工知能ヘッドフォンシステム「Target Speech Hearing (TSH)」を開発しました。装着者は、対象のスピーカーを 3 ~ 5 秒間見つめるだけで、スピーカーを「ロック」し、周囲の他のすべての音を排除して、「ロック」したスピーカーの音声だけを聞くことができます。 TSH システムは、装着者が騒がしい場所で動き回っていてスピーカーに向いていない場合でも機能します。 「私たちは現在、AI を単に質問に答えるウェブベースのチャットボットとしてしか考えていない」と、論文の責任著者でワシントン大学ポール・G・アレン・コンピューターサイエンス&エンジニアリング学部の教授であるシャムナス・ゴラコタ氏は述べた。 「しかし、このプロジェクトでは、装着者の好みに応じて聴覚を変化させることができるAIを開発しました。」 研究チームによると、TSHシステムは1人の声だけを聞くことができるだけでなく、1人の声だけを除去することもできるという。これは、ある人の妨害的な発言をフィルタリングしながら、他の人の発言は聞き取れるようにしたい場合など、特定の状況で役立ちます。 研究チームは以前、人間とコンピュータの相互作用の分野で最も重要な国際会議であるACM CHI Conference on Human Factors in Computing Systemsでこの研究結果を発表していた。 この概念実証デバイスのコードは現在、他の人が使用できるように公開されているが、まだ商品化されておらず、人気ブランドのノイズキャンセリングヘッドフォンに組み込むための協議が行われている。 今後の研究では、TSH システムをイヤホンや補聴器にまで拡張したいと考えています。 「ロック」されたときの音 論文によれば、TSH システムを使用する場合、装着者は対象のスピーカーに頭を向け、ボタンをタップするだけで「ロック」が完了する。 この研究は、チームがこれまでに行ってきた意味聴覚に関する研究に基づいている。意味聴覚では、ユーザーが聞きたい特定のカテゴリーの音(鳥の鳴き声や話し声など)を選択し、環境内の他の音を打ち消すことができる。 「ロックされた」スピーカーの音波は、ヘッドセットの両側にあるマイクに同時に届きます。ヘッドセットは組み込みコンピュータに信号を送信し、そこで機械学習ソフトウェアが「ロックされた」話者の音声パターンの学習を開始します。 TSH システムはこれらの音をキャプチャし、ヘッドフォンを装着して動き回っているときでも、継続的に再生します。 「ターゲット」の人物が話し続けると、その人物の声に注意を払うシステム能力が向上し、システムにさらに多くのトレーニング データが提供されます。 研究者らは21人の被験者を対象にこのシステムをテストし、被験者は平均して「ロックされた」音の明瞭度を、フィルタリングされていない音声のほぼ2倍と評価した。 欠点と展望 しかし、この研究にもいくつかの限界があります。 たとえば、現在の TSH システムでは、一度に 1 人の話者しか「ロックオン」できず、話者と同じ方向に他の大きな声が存在しない場合にのみ、対象の話者にロックオンできます。 研究チームは今後の研究で、TSH システムを拡張して、複数のターゲット話者を同時に「ロック」できるようにしたいと考えています。彼らは2つの方法を提案しました。 1) スピーカーごとに個別のネットワーク インスタンスを実行します。このアプローチの問題点は、各スピーカーに独立した処理フローが必要なため、より多くのコンピューティング リソースが必要になることです。 2) 複数の話者を同時に処理できるネットワークをトレーニングします。これには、話者ごとに個別のインスタンスを実行する必要がなく、すべての話者の音声を 1 回のパスで分離する「集約型マルチ話者埋め込み」形式が使用され、複数の話者をより効率的に処理できるようになります。 さらに、人間の声の特徴は、加齢、健康状態、感情の変化などの要因によって変化する可能性があり、その結果、TSH システムが声の微妙な違いを認識できなくなり、対象の話し手を「ロックオン」できなくなる可能性があります。 研究チームによると、装着者は両耳ヒアラブルデバイスを使用して、対象話者を抽出する前に対象音声の登録サンプルをキャプチャできるため、この要素は短期的にはそれほど変化しない可能性があるという。 同時に、対象話者と妨害話者との類似性が高くなるほど、妨害話者を完全に排除することが難しくなります。システムの堅牢性を高めるために、1 つの「ロック」レコードだけでなく、異なる時点での複数の「ロック」レコードを使用できます。 なお、研究チームはトレーニングに合成データを使用し、現実世界には見られない話者や屋内・屋外の環境への一般化やモビリティのサポートはできたものの、実際の応用においては、異なる環境や話者に対するモデルの一般化能力をさらに検証し、改善する必要があるかもしれない。 最後に、彼らはターゲットスピーカーをより効果的に「ロックイン」するためのいくつかの方法も模索しました。たとえば、ターゲット スピーカーの移動がサポートされるため、同じ方向に別の強力な干渉スピーカーが出現する可能性が低くなります。静止したシーンでも、ネットワークは、装着者が見ている方向に最も近い、または最も大きな声を出す話者にのみ焦点を合わせるようにトレーニングされます。 参考リンク: https://dl.acm.org/doi/10.1145/3613904.3642057 https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/ |
<<: 全国ヘアケアデー丨白髪を1本抜くと、また10本生えてくる?抜くべきか抜かないべきか?
>>: 世界カワウソの日 |カワウソはどんな悪意を持っているのでしょうか?
月の巨大なクレーターに地下に通じるトンネルがあるかもしれない月面にはスカイライトと呼ばれるクレーター...
実は、ダブルスキンミルクをとても愛している人はたくさんいます。味が良いだけでなく、自分で作ったダブル...
チョウセンアサガオはナス科の一年生草本で、我が国全土に広く分布しています。野生植物の花は主に白いトラ...
今年7月、米国フロリダ州に住むゾーイさんは、自宅の風鈴が本来の風鈴とは異なる音を発していると話した。...
揚げ豆腐は漢民族の中で長い歴史を持つ有名な料理です。私たち北方の人は揚げ豆腐を豆腐パフと呼んでいます...
フォンダンケーキはケーキの一種です。異なる材料で作られたケーキは味も種類も異なりますが、本質は同じで...
2025年の技術予測マルチモーダル人工知能は業界を再構築し、テクノロジーのコラボレーションを再定義し...
「家族の中で老人は宝物のようなものだ」ということわざがあります。私たち若者にとって、彼らは親切で、...
制作:中国科学普及協会著者: ビンビンバン (中国科学院動物研究所)プロデューサー: 中国科学博覧会...
新疆大盤鶏は、現在、わが国の多くの都市で非常に人気のある料理です。大盤鶏は多くの中小規模のレストラン...
5月13日は2023年最初の世界渡り鳥の日であり、今年のテーマは「水:鳥の生命の維持」です。世界渡...
この記事の専門家:趙偉医学博士、天津大学泰達病院副主治医一日の計画は朝から始まります。朝に欠かせない...
カボチャ粥は一般的な粥です。カボチャは主に脾胃経絡に属し、中を補い、気を補い、熱を清め、解毒する効果...
ラム酒などのアルコール飲料といえば、女性の友人も男性の友人も飲むのが好きだと思います。ラム酒は主にサ...