AIは偽の人間の声で無敵なのか?

AIは偽の人間の声で無敵なのか?

2014年のある朝、ヴァル・キルマーは目を覚ますと周囲が血に覆われていることに気づいた。彼の体の唯一の異常は喉で、そこにしこりができ、飲み込むのが困難でした。

彼はすぐに喉頭がんと診断され、血を吐くようになった。治療のために気管切開手術を受けなければならなかった。この手術により喉に穴が開き、食事のためにチューブを挿入する必要が出てきます。それ以来、「呼吸するか、食べるか?」 2つの選択肢の中から選ぶ問題になりました。

『トップガン』におけるヴァル・キルマーとトム・クルーズのライバル関係 |出典: ルーパー

1995年版バットマンを演じたハリウッド俳優にとって、さらに深刻な結果は声を失ったことだった。今では、彼が話そうとすると、「キーキー音とうなり声」の中間のような音しか出ません。

昨年、キルマーさんは人工知能企業ソナンティック社と協力し、「話す能力」を取り戻すことを決意した。限られた録音で、研究チームは病気になる前のキルマーの声に非常によく似た声のクローンを作ることに成功し、将来的には彼に代わって話すことができるようになる。

人間の声をAIで合成する技術はすでにかなり成熟しています。 Resemble AI や Descript など、無料でテストできる主流のプラットフォームの中には、自分の声を複製するのに 25 文または 10 分間の録音のみが必要なものもあります。もちろん、トレーニング セットが長ければ長いほど、モデルは自分に似たものになります。最低限必要な要件は何ですか? 3.7秒で十分です。

キルマーのような患者を助けることに加え、音声クローンには、亡くなった親族や有名人など、老人を「蘇らせる」というもう一つの大きな用途がある。つい最近、音声合成会社 Play.ht が、スティーブ・ジョブズと有名なポッドキャスト司会者のジョー・ローガンとの会話を特集したポッドキャスト エピソードをリリースしました。テキストと音声はすべて AI によって合成されました。

「偽物」はポッドキャストで会話したり笑ったりしますが、本物は最初から最後まで参加する必要はありません。これは侵害に該当しますか?特に亡くなった人たちの声の所有権は誰にあるのでしょうか?誰でも使えますか?

さらに難しい質問は、本物と偽物をどうやって見分けるかということです。

良い技術なのに詐欺に使われるんですか?

人間の声と AI の違いが確実にわかるとは言わないでください。

2019年3月、英国のエネルギー会社の従業員が上司から電話を受け、1時間以内にハンガリーのサプライヤーに22万ユーロを送金するよう求められた。電話の向こうの「上司」はわずかにドイツ訛りがあ​​り、声は普段の上司とまったく同じだった。彼は何の疑いもなくすぐにそれを実行した。送金後、資金はすぐにメキシコに送金され、回収は困難でした。 2020年、香港の銀行支店長がクローン音声に騙され、詐欺師に3,500万ドルの送金を承認した。

これはますます一般的になりつつあります。 VMware が今年実施した調査によると、調査対象となった企業の 3 分の 2 が、過去 1 年間に受けた詐欺攻撃には音声またはビデオの偽造要素が含まれていたと回答しています。

アクセンチュア・セキュリティのマネージング・ディレクター、リサ・オコナー氏は、電話で聞き慣れた声を聞くと、ほとんどの人は「その声に実際に対処するための筋肉の記憶をまだ構築していない」と語る。

生理学的に言えば、人間の脳は偽の声に直面すると鈍くなります。

2019年にカリフォルニア大学リバーサイド校が行った研究では、本物のレンブラントの絵画と贋作のレンブラントの絵画を見た人の脳スキャンに明らかな違いが見つかった。しかし、モーガン・フリーマン、ロボットのフリーマン、そして物まねタレントが話すのを聞いたときには、同じことは当てはまりませんでした。

「この結果は、人間は本質的に本物の音と非本物の音を区別できない可能性があることを示唆している。」

実際の音声と合成音声を聞いた場合、人間の脳の活動に大きな違いはありません |出典:紙面イラスト

AIは偽の人間の声で無敵なのか?

科学者たちはこれに対処しようとしています。

最近の研究で、フロリダ大学の研究者らは、この機械に発声器官がないという欠陥を発見した。つまり、人間の話し方の限界は、各人の発声器官の構造によるものですが、AIにはそのような「限界」はありません。

何十年もの間、科学者たちは先史時代の生き物の鳴き声を再現しようと試みてきました。マンモス、恐竜…彼らの咆哮や叫び声はどんな音でしょうか?骨の形は多くの手がかりを与えてくれます。例えば、パラサウロロフスの場合、頭蓋骨に長い空洞があり、科学者はそれを使って共鳴周波数を推定しました。

同じことが人間の発声にも当てはまり、声道、声帯、舌、唇のさまざまな構造を連携させて空気を圧縮し、音を出したり変えたりします。研究者たちは音響および流体力学モデルを使用して、どの構造が音を生み出すのかを解明することができた。

通常は、凹凸のある不規則な経路のように見えます。

口の開き具合によって発する音が決まります |出典: 論文のスクリーンショット

しかし、同じモデルに機械で生成された音を入力すると、奇妙なことが起こりました。

赤い円はマシンの「音声チャンネル構造」を示しています |出典: 論文のスクリーンショット

ロボットの声は細くて長いストローのように声道から押し出されており、これは人体の通常の構造とはまったく異なります。このような側面の解剖図を見るだけで、その音が人間によって発せられたものか機械によって発せられたものかがほぼすぐに分かります。この方法を使用して、4,966 個の音声セグメントを 99.9% の精度でテストしました。

これがすぐに基本的な構成になるかもしれないと想像してください。電話に出ると同時に追加のプラグインが起動し、相手側の音声が実際の人間の声か機械合成された音声かを判断して警告を発します。

すでに多くの人がこれに取り組んでいます。 2019年、Googleはクローン音声や偽音声に対抗するため、偽音声検出の研究を促進する合成音声データベースをリリースしました。これには、Google のディープラーニング モデルによって「話された」何千ものフレーズが含まれており、68 種類の異なる音声を使用してさまざまなアクセントをカバーしています。これにより、外部の世界でも音声認証ソリューションの開発が促進されることが期待されます。

科学者のツールがなければ、私たちは自分たちだけで何をするのでしょうか?

いくつかヒントはありますが、ほとんどは直感に基づいています。

音声認証サービス企業である Pindrop は合成音声の開発を行っており、その過程で機械にいくつかの欠陥があることも発見しました。

ソフトウェアがノイズと区別するのが難しいため、f、s、v、z などの摩擦音の処理は得意ではありません。

音を引き延ばすと、アルゴリズムが録音内の背景ノイズから単語の終わりを区別することが難しくなり、文の区切りの問題が発生する可能性があります。

非常に「クリーン」で、まるでプロの機材を使ってスタジオで録音されたかのようで、品質は一貫しています。

Pindrop は、こうした欠陥を隠すために、わざと騒々しい環境音を挿入して相手の判断を妨害する、非常に「賢い」犯罪者も発見しました。いつもバックグラウンドで雄鶏の鳴き声を流す「チキンマン」と呼ばれる詐欺師や、同情を誘うために赤ん坊の泣き声を使う女性もいた。

したがって、反対側から継続的に奇妙な音が聞こえる場合は注意してください。

高額取引を伴う会話については、ディープフェイク検出会社ディープトレースのディレクター、ヘンリー・アジェド氏が実用的な提案をしている。会話を進めるためにコードを使用するか、通話の冒頭で秘密の質問をしたり答えたりすることを検討するという。

現在の AI の学習速度を考えると、こうした不器用な欠陥はすぐに一つずつ破られるだろうと私は信じています。かつての研究論文では、人のまばたきの不規則性を利用して、動画がディープフェイクであるかどうかを判断できることがわかっています。しかし、わずか数か月後、開発者はバグを修正しました。

しかし、少なくとも今のところ、人間は微妙な手がかりを通じて相手が自分と同じ種ではないと判断することができます。例えば、ローガンとジョブズの会話では、流暢なセリフの中に「ヘヘ、ヘヘ」という奇妙な笑い声が常に散りばめられており、非常に唐突で、口調が歪んでいる。

これは Resemble を彷彿とさせます。Resemble では、音声生成後に段落に一時停止や「怒り」や「喜び」などの感情を追加するオプションが提供されます。フィードバックから判断すると、モデルはまだ感情をうまく処理できないようです。

しかしある日、私たちはすべてを疑うようになるでしょう。

数日前、同僚の Xiao Yang が営業電話を受けました。彼はスピーカーフォンをオンにして、相手がロボットであるかどうかについてオフィスの他の人たちと熱心に議論しました。

突然、電話の向こうから声が聞こえた。「申し訳ありません。私の話し方を誤解されました。」

「この人は実在の人物だと信じますか?」

彼はこう答えました。「えー、信じられない。これはきっと AI のトリックだ。」

参考文献

[1] https://www.ndss-symposium.org/wp-content/uploads/2019/02/ndss2019_08-3_Neupane_paper.pdf

[2] https://theconversation.com/deepfake-audio-has-a-tell-researchers-use-fluid-dynamics-to-spot-artificial-imposter-voices-189104

[3] https://www.nytimes.com/2020/05/06/magazine/val-kilmer.html

[4] https://www.yahoo.com/entertainment/val-kilmer-cancer-treatment-lost-voice-142401511.html

[5] https://www.hellomagazine.com/healthandbeauty/health-and-fitness/20210825120419/val-kilmer-heartbreaking-reveal-cancer-diagnosis/
[6] https://arstechnica.com/information-technology/2022/10/fake-joe-rogan-interviews-fake-steve-jobs-in-an-ai-powered-podcast/

[7] https://www.howtogeek.com/682865/audio-deepfakes-can-anyone-tell-if-they-are-fake/

[8] https://Senseent.com/wp-content/uploads/Deepfakes-updated.pdf

[9] https://mitsloan.mit.edu/ideas-made-to-matter/deepfakes-explained

著者: 翁 燕

編集者: 嘘つき虫

グオクル ( ID : Guokr42 )

転載が必要な場合は[email protected]までご連絡ください。

友達の輪に転送するのを歓迎します

出典Guokr

<<:  多くの人から嫌われている「ドクダミ」は実は天然の抗炎症薬?

>>:  4,870 種類、なぜペルーはこれほど多くのジャガイモを収穫するのでしょうか?

推薦する

牛肉の栄養価

牛肉といえば、本当に美味しいとよく言われます。牛肉は本当に美味しいです。人々が牛肉を食べるのが好きな...

自家製インスタントティー

普段、仕事が忙しいため、ゆっくりと座ってお茶を淹れてお茶の健康効果を楽しむ時間がありません。では、ど...

なぜ中国人は旧正月に赤いものを食べなければならないのでしょうか?

執筆者:魏水華ヘッダー画像 |ビジュアルチャイナ「中国」の後に色を表す単語を入れたい場合、赤が第一候...

野菜と赤身肉のお粥の作り方

家に子供がいる場合は、お粥をもっと作ってあげてください。お粥にはいろいろな種類があります。野菜と赤身...

牛すじ焼き麺の作り方

牛すじ麺は、我が国の中西部地域の名物スナックです。牛すじ麺は牛すじで作られているわけではありませんが...

鴨肉の食べ方

鴨の押入れはとても一般的な食材です。それを調理する良い方法はたくさんあります。しかし、押入れを作ると...

パイク(カワカマス)の調理方法

パイク肉の味はとても良く、魚肉は私たちが日常生活でよく食べるものです。魚はとても美味しく、どのように...

一日中ハンバーガー、フライドポテト、コーラを食べれば痩せますか?それは本当です!必要なのは...

最近、海外で、57歳で体重200ポンドを超えるケビン・マギニスという男性が、100日間連続でマクドナ...

コーン油とひまわり油のどちらが良いでしょうか?

これら 2 種類の油は、私たちの生活の中で調理に非常に役立つ優れた製品であるため、誰もが人生で消費し...

アリババミュージックと世界クラスの音楽組織の間に立ちはだかるのは、高小松だけだろうか?

人事異動のニュースは、オンライン音楽業界が大きな産業変革の先駆けとなる可能性があることを示唆している...

越冬中の蚊を一匹殺すのは、第二世代の蚊を何千匹も殺すのと同じことでしょうか?冬になると蚊がこんなところに隠れるんですね…

「ブーブーブー~ブーブーブー」と、夜中にうるさい蚊の音を聞いてから久しくなりましたか?寒い秋から冬...

この果物を3個食べると1日分のビタミンCが摂取できます!お金を節約しながらおいしく食べる5つの方法をお教えします

暑い夏にライチを食べると甘くて爽やかで、気分も良くなります。私の国は世界最大のライチ栽培・生産国であ...

中国移動:TD-LTE音声通話成功率は98%に到達

2014年の上海アジアモバイル通信博覧会で、チャイナモバイルは「チャイナモバイルLTE端末品質管理お...

デビルジンジャーの効能

ゴーストジンジャーの効果は何でしょうか? まず、ゴーストジンジャーという奇妙な名前を理解する必要があ...

ロバ肉団子の作り方

餃子は、特に暑い夏に私たちが好む食べ物の一つです。夏が来ると食欲があまりなくなるので、餃子をより頻繁...