実際のシーンか、それとも AI で生成されたシーンか? 「ヴィンセントビデオ」を識別する鋭い目がここにあります!正解率は93.7%と高い

実際のシーンか、それとも AI で生成されたシーンか? 「ヴィンセントビデオ」を識別する鋭い目がここにあります!正解率は93.7%と高い

今日、AI ビデオ生成ツールは、リアルなビデオ コンテンツを制作することで、デザイン、マーケティング、エンターテイメント、教育などの業界に変革をもたらしています。特に、Sora や Gen-3 などのビデオ モデルの場合、数行のプロンプト テキストを入力するだけで、リアルで連続した高品質のビデオ ブロックを生成できます。

この技術は世界中のクリエイターに無数の可能性をもたらした一方で、特に虚偽の情報、プロパガンダ、詐欺、フィッシングの拡散という点で、一般大衆に多くの危害とリスクをもたらしました
そのため、AI が生成した動画をいかに正確に識別するかが、誰もが気にしなければならない問題となっています。

最近、コロンビア大学のJunfeng Yang教授のチームは、DIVID(DIffusion-generated VIdeo Detector)と呼ばれるビデオ検出ツールを開発しました。 SORA、Gen-2、Pikaなどのモデルで生成された動画では、検出精度は93.7%に達しました

オープンソースコードとデータセットを含むこの研究論文は、先月シアトルで開催されたコンピュータービジョンおよびパターン認識に関する会議(CVPR)で発表されました。

DIVIDはどのようにして作られたのですか?

既存のディープフェイク検出器は、GAN によって生成されたサンプルを識別する際には優れたパフォーマンスを発揮しますが、拡散モデルによって生成されたビデオを検出するには十分な堅牢性がありません。

この研究で、研究チームはDIVIDと呼ばれる新しいツールを使用してAI生成ビデオを検出しました。報道によると、DIVIDは今年初めにチームが発表した研究成果であるRaidarに基づいており、大規模言語モデル(LLM)の内部操作にアクセスせずにテキスト自体を分析することでAIによって生成されたテキストを検出します。

Raidar は LLM を使用して特定のテキストを言い直したり修正したりし、システムがそのテキストに対して行った編集の数を測定します。編集が多いほど、テキストが人間によって書かれた可能性が高くなります。編集が少ないということは、テキストが機械で生成される可能性が高くなることを意味します。

彼らは同じコンセプトを使ってDIVIDを開発しました。 DIVID は、ビデオを再構築し、再構築された新しいビデオを元のビデオと比較することによって機能します。この方法は、拡散モデルによって生成された再構成画像は拡散プロセス分布からサンプリングされるため、互いに非常に類似しているはずであるという仮定に基づいているため、拡散生成ビデオを検出するために DIRE 値を使用します。大きな変化がある場合、元のビデオはおそらく人間が作成したものであり、そうでない場合は AI が作成したものであると考えられます。

図 | DIVID の検出プロセス。ステップ 1 では、一連のビデオ フレームが与えられた場合、研究チームはまず拡散モデルを使用して各フレームの再構成バージョンを生成します。次に、フレームとそれに対応する入力フレームを再構築することによって DIRE 値が計算されます。ステップ 2 では、DIRE 値シーケンスと元の RGB フレームに基づいて CNN + LSTM 検出器がトレーニングされます。

このフレームワークは、AI 生成ツールが大規模なデータセットの統計的分布に基づいてコンテンツを作成し、ビデオ フレーム内のピクセル強度分布、テクスチャ パターン、ノイズ特性などの「統計平均」コンテンツや、フレーム間で不自然に変化する小さな不一致、または拡散生成ビデオに現れる可能性が高い異常なパターンを生成するという考えに基づいています。

図 |ドメイン内テスト セットでの検出パフォーマンス。 DIVID は、精度 (Acc.) と平均精度 (AP) の点でベースライン アーキテクチャを上回ります。 RGB は元のビデオのピクセルフレーム値を表します。

対照的に、人間が作成したビデオには個性があり、統計的な基準からの逸脱が見られます。 DIVID は、ベンチマーク データセットで Stable Vision Diffusion、Sora、Pika、Gen-2 によって生成されたビデオに対して最大 93.7% の検出精度を達成します。

今後の展望

現在、DIVID はビデオを分析し、それが AI によって生成されたものか人間によって生成されたものかを出力するコマンドライン ツールであり、開発者のみが利用できます。研究者らは、この技術はディープフェイク通話をリアルタイムで検出するプラグインとしてZoomに統合できる可能性があると指摘している。チームは、DIVID を一般ユーザーが利用できるようにするための Web サイトまたはブラウザ プラグインの開発も検討しています。

研究者たちは現在、オープンソースのビデオ生成ツールからのさまざまな種類の合成ビデオを処理できるように DIVID のフレームワークを改善することに取り組んでいます。また、DIVID データセットを拡張するために、DIVID を使用してビデオを収集しています。

「私たちのフレームワークは、AI生成コンテンツの検出において大きな進歩を遂げています」と論文の著者の一人であるユンユン・ツァイ博士は述べています。 「AIを使って動画を制作する悪質な行為者が多すぎる。重要なのは彼らを阻止し、社会を守ることだ。」

参考リンク:

https://arxiv.org/abs/2406.09601

https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html

<<:  雷雨、強風、雹が近づいていますので、これらの地域では注意してください →

>>:  なぜ夏になると憂鬱な気分になりやすいのでしょうか?季節性うつ病を克服するための4つのヒント

推薦する

スープを頻繁に食べるのは有害ですか?

最近では、口の中が乾燥しないようにと、スープに浸した食べ物を食べる習慣を持つ人が増えています。テレビ...

揚げ餅のレシピ

揚げ餅は多くの人が好んで食べる食べ物ですが、作り方を知らない人も多いです。実際、これは理解できます。...

新鮮なオリーブを使った料理のレシピ

野菜市場に野菜を買いに行くと、きっといろいろな野菜に魅了されるでしょう。名前のわかる野菜だけでなく、...

一杯のビールは何百ドルもしますが、それはあなたのIQに対する税金でしょうか?

近年、クラフトビールが街や路地裏で人気になってきました。コミュニティ内にクラフトパブが突然増えました...

太陽の探検、成功しました!

太陽フレア活動が100回近く観測され、太陽のHαスペクトル線の微細構造が軌道上で初めて取得され、中国...

トカゲにインスピレーションを受けて!科学者が耐震性と安全性に優れた建物を設計 →

自然の力の前では、人間はいつもとても小さく見えます。地震は地球上で最も一般的な自然災害の一つであり、...

ピーナッツペーストの作り方

ピーナッツはとても美味しい食材です。主にワインのおつまみとして食べます。上質なワインと合わせると、香...

ロボットは国際宇宙ステーションに到着しました。彼らはどのように仕事をしているのでしょうか?

昨日は2025年の初日で、神舟19号の宇宙飛行士乗組員は宇宙ステーションから祝日の挨拶を送りました。...

男性はスキンケア製品を使う価値がないのでしょうか?

「スキンケア」という言葉は、女性に関連付けられることが多いです。化粧水、乳液、フェイスマスクなど、...

肉を数時間、あるいは 10 時間以上かけてゆっくり調理すると、アミノ酸やプリンは多く生成されますか?

最近、何人かの友人がスロークッカーについて私に尋ねてきました。 Aさんは「病院には健康番組を見て、番...

LeTV Cast は、何千万人ものユーザー急増の背後にあるモバイル TV 相互運用性の行き詰まりをどうやって打破したのでしょうか?

「家を経営してみないと、薪や米がどれだけ高価なものか分からない。」家族を持った多くの人は、長年の発...

菜種の栄養価

皆さんも白菜がお好きな方が多いと思いますが、白菜は市場でもどんどん売られるようになりました。しかし、...

トマトは生で食べたほうがいいですか、それとも調理して食べたほうがいいですか?

トマトとして一般に知られているトマトは、遠く離れたアメリカで生まれ、今では世界で最も身近な食べ物とな...

東坡豚肉の調理方法

東坡豚は漢民族の時代から続く我が国の伝統料理であり、そのレシピは皆さんもよくご存知だと思います。また...

ラード残留物は健康に良いのでしょうか?ついに信頼できる答えが見つかった

この記事の専門家: 張兆民、食品科学修士、上級エンジニアカリカリでおいしく、香りがよく、脂っこくない...