OpenAIは公式ウェブサイトでAI音声合成の進捗状況の一部を公開し、「Voice Engine」と呼ばれるモデルの小規模プレビューからの初期的な知見と結果を発表した。 報道によると、このモデルはテキスト入力と15秒間の音声サンプル1つを使用して、元の話者に非常によく似た自然な音声を生成するとのこと。驚くべきことに、わずか 15 秒のサンプルを持つ小さなモデルで、感情に訴えるリアルなサウンドを生成できました。 OpenAIは2022年末に早くもVoice Engineを開発し、それを使用してテキスト読み上げAPIのプリセット音声やChatGPTの音声と読み上げをサポートしました。 本日、OpenAI は実際のケースを通じて、Voice Engine の初期のアプリケーションをいくつか共有しました。 たとえば、音声エンジンは、血管性脳腫瘍のために流暢に話す能力を失った若い患者の声を回復させるために使用されました。 さらに、音声エンジンは、読み上げ補助、コンテンツの翻訳、話すことができない人へのサポートなどにも使用できます。 ギャラリー内の画像は著作権で保護されています。転載して使用すると著作権侵害の恐れがあります。 1) 自然な響きと感情的な音声を通じて、読書が苦手な人や子供たちに読書支援を提供する これらの音声は、プリセットされた音声ではなく、より幅広い範囲の話者を表します。教育テクノロジー企業である Age of Learning は、Voice Engine を使用して、事前にプログラムされたナレーション コンテンツを生成しています。また、Voice Engine と GPT-4 を使用して、生徒と交流するためのリアルタイムのパーソナライズされた応答を作成しました。 2) 動画やポッドキャストなどのコンテンツを翻訳する Voice Engine を使用すると、クリエイターや企業は音声でスムーズにコミュニケーションし、世界中のより多くの人々にリーチできるようになります。 OpenAI によれば、HeyGen はこの分野を早期に導入した企業の 1 つです。 HeyGen は、ビデオ翻訳に Voice Engine を使用し、話者の音声を複数の言語に翻訳して世界中の視聴者に届ける AI ビジュアル ストーリーテリング プラットフォームです。翻訳に使用する場合、Voice Engine は元の話者のネイティブアクセントを保持します。たとえば、フランス語話者の音声サンプルを使用して英語を生成すると、フランス語のアクセントの音声が生成されます。 3) 言語障害を持つ人々への支援を提供する Voice Engine は、言語に影響を及ぼす病気を持つ人々への治療アプリケーションや、学習ニーズを持つ人々への教育強化などを提供できます。 Livox は、補助的代替コミュニケーション (AAC) デバイスをサポートし、障害を持つ人々がコミュニケーションできるようにする AI 搭載の代替コミュニケーション アプリです。 Voice Engine は、非言語の人々のために、複数の言語でユニークでロボット的でない音声を提供します。ユーザーは、自分に最も適した音声を選択でき、多言語ユーザーの場合は、各言語で一貫した音声を使用できます。さらに、Voice Engine は、遠隔地における基本的なサービス提供を改善することで、世界中のコミュニティにサービスを提供します。たとえば、ディマギは、地域の保健従事者が授乳中の母親へのカウンセリングなどの基本的なサービスを提供するためのツールを開発しています。これらの労働者のスキル向上を支援するために、Dimagi は Voice Engine と GPT-4 を使用して、スワヒリ語であろうとより非公式な言語であろうと、各労働者の主要言語でインタラクティブなフィードバックを提供します。 OpenAIは、合成音声が悪用される可能性があるため、より広範なリリースには慎重かつ情報に基づいたアプローチを取り、現時点では技術をプレビューすることはあっても広くリリースしないことを選択したと述べた。 これらのパートナーとの契約条件では、元の発言者からの明示的かつ十分な情報に基づく同意が必要とされており、開発者が個々のユーザー向けに独自の音声を作成することは許可されていません。これらのパートナーは、視聴者が聞いている音声が AI によって生成されたものであることも明確に開示する必要があります。 さらに、OpenAI は、Voice Engine によって生成されたオーディオの出所を追跡するための透かし入れや、その使用状況を積極的に監視するなど、さまざまなセキュリティ対策を実施しています。 OpenAIは、将来的に視聴覚コンテンツの出所を追跡する技術の開発と導入を加速することを奨励し、人々が対話しているのが実際の人間なのか人工知能なのかを常に明確にし、人工知能による欺瞞的なコンテンツの可能性を含め、人工知能技術の能力と限界を一般の人々が理解できるようにしたいと述べた。 参考文献: https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices |
<<: 夏までに10ポンド痩せたいなら、今からこんな食生活を始めましょう!
>>: 抹茶とはいったい何でしょうか?宋代の皇帝は自ら「商品を宣伝」することさえできたのです!
カクテル、絶妙な色の組み合わせ、バーテンダーの熟練した技術の下で、踊る腕、華やかな音楽の下で、バーテ...
著者: 張斌、広東省人民病院評者:趙海燕、北京大学第三病院副主任医師めまいを経験したことがありますか...
「フェリックス・ホフマンがいなかったら、最も有名な市販薬であるアスピリンは存在しなかったかもしれな...
テスラのイーロン・マスク最高経営責任者(CEO)はニューヨークの裁判所に対し、先月投稿した複数のツイ...
パパイヤのフナ煮は、ほとんどの人にとって滋養効果が高いため、多くの良妻賢母が家庭料理を作るときによく...
新鮮なユリをどうやって食べるのでしょうか?実は、多くの人がこの質問の答えを知りません。ユリは誰もがよ...
制作:中国科学普及協会著者: 王才慧 (西北大学文化遺産学院)プロデューサー: 中国科学博覧会編集者...
チョコレートは非常に一般的な食べ物であり、多くの人に好まれています。独特の味があり、人体にいくつかの...
これは大易小虎の第3866番目の記事です6月22日、陝西省西安市吉徳堡にある万科金月成幼稚園では、1...
脾臓、胃、腎臓は互いに補完し合います。適切なケアを行えば、人は元気になり、活力に満ち溢れます。伝統的...
近年、極地観光市場は活況を呈している。訪問できる時間が短い北極と比べると、南極は極地観光のより人...
科学技術の分野には新しくてユニークなものがたくさんあるので、それに追いつくのは困難です。毎日ニュース...
大根は多くの人に好まれています。大根は人体からガスを排出するのに非常に役立ちます。便秘の人は大根をた...
タマリンドは私たちの生活によく使われる漢方薬です。その効能と機能は非常に強力で、下痢、ハンセン病の治...