実際のシーンか、それとも AI で生成されたシーンか? 「ヴィンセントビデオ」を識別する鋭い目がここにあります!正解率は93.7%と高い

実際のシーンか、それとも AI で生成されたシーンか? 「ヴィンセントビデオ」を識別する鋭い目がここにあります!正解率は93.7%と高い

今日、AI ビデオ生成ツールは、リアルなビデオ コンテンツを制作することで、デザイン、マーケティング、エンターテイメント、教育などの業界に変革をもたらしています。特に、Sora や Gen-3 などのビデオ モデルの場合、数行のプロンプト テキストを入力するだけで、リアルで連続した高品質のビデオ ブロックを生成できます。

この技術は世界中のクリエイターに無数の可能性をもたらした一方で、特に虚偽の情報、プロパガンダ、詐欺、フィッシングの拡散という点で、一般大衆に多くの危害とリスクをもたらしました
そのため、AI が生成した動画をいかに正確に識別するかが、誰もが気にしなければならない問題となっています。

最近、コロンビア大学のJunfeng Yang教授のチームは、DIVID(DIffusion-generated VIdeo Detector)と呼ばれるビデオ検出ツールを開発しました。 SORA、Gen-2、Pikaなどのモデルで生成された動画では、検出精度は93.7%に達しました

オープンソースコードとデータセットを含むこの研究論文は、先月シアトルで開催されたコンピュータービジョンおよびパターン認識に関する会議(CVPR)で発表されました。

DIVIDはどのようにして作られたのですか?

既存のディープフェイク検出器は、GAN によって生成されたサンプルを識別する際には優れたパフォーマンスを発揮しますが、拡散モデルによって生成されたビデオを検出するには十分な堅牢性がありません。

この研究で、研究チームはDIVIDと呼ばれる新しいツールを使用してAI生成ビデオを検出しました。報道によると、DIVIDは今年初めにチームが発表した研究成果であるRaidarに基づいており、大規模言語モデル(LLM)の内部操作にアクセスせずにテキスト自体を分析することでAIによって生成されたテキストを検出します。

Raidar は LLM を使用して特定のテキストを言い直したり修正したりし、システムがそのテキストに対して行った編集の数を測定します。編集が多いほど、テキストが人間によって書かれた可能性が高くなります。編集が少ないということは、テキストが機械で生成される可能性が高くなることを意味します。

彼らは同じコンセプトを使ってDIVIDを開発しました。 DIVID は、ビデオを再構築し、再構築された新しいビデオを元のビデオと比較することによって機能します。この方法は、拡散モデルによって生成された再構成画像は拡散プロセス分布からサンプリングされるため、互いに非常に類似しているはずであるという仮定に基づいているため、拡散生成ビデオを検出するために DIRE 値を使用します。大きな変化がある場合、元のビデオはおそらく人間が作成したものであり、そうでない場合は AI が作成したものであると考えられます。

図 | DIVID の検出プロセス。ステップ 1 では、一連のビデオ フレームが与えられた場合、研究チームはまず拡散モデルを使用して各フレームの再構成バージョンを生成します。次に、フレームとそれに対応する入力フレームを再構築することによって DIRE 値が計算されます。ステップ 2 では、DIRE 値シーケンスと元の RGB フレームに基づいて CNN + LSTM 検出器がトレーニングされます。

このフレームワークは、AI 生成ツールが大規模なデータセットの統計的分布に基づいてコンテンツを作成し、ビデオ フレーム内のピクセル強度分布、テクスチャ パターン、ノイズ特性などの「統計平均」コンテンツや、フレーム間で不自然に変化する小さな不一致、または拡散生成ビデオに現れる可能性が高い異常なパターンを生成するという考えに基づいています。

図 |ドメイン内テスト セットでの検出パフォーマンス。 DIVID は、精度 (Acc.) と平均精度 (AP) の点でベースライン アーキテクチャを上回ります。 RGB は元のビデオのピクセルフレーム値を表します。

対照的に、人間が作成したビデオには個性があり、統計的な基準からの逸脱が見られます。 DIVID は、ベンチマーク データセットで Stable Vision Diffusion、Sora、Pika、Gen-2 によって生成されたビデオに対して最大 93.7% の検出精度を達成します。

今後の展望

現在、DIVID はビデオを分析し、それが AI によって生成されたものか人間によって生成されたものかを出力するコマンドライン ツールであり、開発者のみが利用できます。研究者らは、この技術はディープフェイク通話をリアルタイムで検出するプラグインとしてZoomに統合できる可能性があると指摘している。チームは、DIVID を一般ユーザーが利用できるようにするための Web サイトまたはブラウザ プラグインの開発も検討しています。

研究者たちは現在、オープンソースのビデオ生成ツールからのさまざまな種類の合成ビデオを処理できるように DIVID のフレームワークを改善することに取り組んでいます。また、DIVID データセットを拡張するために、DIVID を使用してビデオを収集しています。

「私たちのフレームワークは、AI生成コンテンツの検出において大きな進歩を遂げています」と論文の著者の一人であるユンユン・ツァイ博士は述べています。 「AIを使って動画を制作する悪質な行為者が多すぎる。重要なのは彼らを阻止し、社会を守ることだ。」

参考リンク:

https://arxiv.org/abs/2406.09601

https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html

<<:  雷雨、強風、雹が近づいていますので、これらの地域では注意してください →

>>:  なぜ夏になると憂鬱な気分になりやすいのでしょうか?季節性うつ病を克服するための4つのヒント

推薦する

糖尿病患者はピクルスにしたピーマン入りの鶏の足を食べることができますか?

実は、誰もが漬け唐辛子鶏足をよく知っています!人生において、それは食欲を増進し、渇望を和らげるのに役...

多くの人が食品の腐敗の「兆候」を無視している

私たちが毎日接触する食品の多くは新鮮なときは美味しくて栄養価の高い食べ物ですしかし、新鮮でなくなった...

PS4中国語版『Tearaway: Unpacking』:クリエイティブで豊富なハンドル機能が新たな楽しさを披露

今年の年末は多くのコンソール向け大ヒット作が発売される時期ですが、中国版も例外ではありません。 12...

「栄養についてどれだけ知っていますか」シリーズ |オートミールライス、オールドダック大麦、冬瓜の盛り合わせ…全粒穀物も美味しい

全粒穀物を多く食べることは、体重を維持し、心臓血管疾患や2型糖尿病のリスクを軽減するのに有益です。し...

この種類の「黒ゴマ」は食べられません、チョウセンアサガオ中毒にご注意ください!

チョウセンアサガオはナス科の一年生草本で、我が国全土に広く分布しています。野生植物の花は主に白いトラ...

夜更かしすればするほど、目が覚めてしまうのでしょうか? ——夜更かしの弊害(第1部)

これは大易小湖の第3721番目の記事です「日の出とともに働き、日没とともに休む」というのは、昔から自...

最もパワフルなテスラは0から100km/hまで2秒未満で加速できるが、それはトラック上でしか見ることができない。

「私のP100Dは、わずか2.5秒で0から100 km/hまで加速できます。これより速い車があるで...

主要企業の中で、スマートハードウェアメーカーの地位を確保できるのは誰か?

国内経済の成長鈍化に伴い、今年後半から国内資本市場は一時的に冷え込んでいる。スタートアップ企業が主流...

アマランサスと塩卵のスープ

アマランサスは北部でよく食べられる野菜で、主にスープを作るのに使われます。一方、保存卵は日常生活で白...

ニンジンの調理方法

にんじんは、私たちの食卓でよく見かける食材です。にんじんは非常に一般的な野菜ですが、にんじんを定期的...

妊娠中に梅干しを飲んでも大丈夫ですか?

妊娠中に食べてはいけないものはたくさんありますが、特にサンザシを含む食品は胎児に大きな影響を与え、注...

糖尿病患者はグレープフルーツの皮を食べても大丈夫ですか?

糖尿病患者が最も避けるべき食べ物は甘いものです。なぜ甘いものは糖尿病患者に適さないのでしょうか?甘い...

紫キャベツの栄養と調理法

紫キャベツといえば、特に冷たい料理やホットドッグやパンの具材として、誰もが食べたことがあると思います...

なぜ蝶は世界で最も変態的で残酷な生き物だと考えられているのでしょうか?その変容を理解するために

世界で最も変態的で残酷な生き物について話すとき、最初に頭に浮かぶものは何ですか?蛇?ムカデ?それとも...

ジュースの栄養素を保つ7つの方法

1. 新鮮な果物や野菜を選ぶ新鮮な果物や野菜は栄養価が高いですが、長期間放置するとビタミン含有量が...