今日、AI ビデオ生成ツールは、リアルなビデオ コンテンツを制作することで、デザイン、マーケティング、エンターテイメント、教育などの業界に変革をもたらしています。特に、Sora や Gen-3 などのビデオ モデルの場合、数行のプロンプト テキストを入力するだけで、リアルで連続した高品質のビデオ ブロックを生成できます。 この技術は世界中のクリエイターに無数の可能性をもたらした一方で、特に虚偽の情報、プロパガンダ、詐欺、フィッシングの拡散という点で、一般大衆に多くの危害とリスクをもたらしました。 最近、コロンビア大学のJunfeng Yang教授のチームは、DIVID(DIffusion-generated VIdeo Detector)と呼ばれるビデオ検出ツールを開発しました。 SORA、Gen-2、Pikaなどのモデルで生成された動画では、検出精度は93.7%に達しました。 オープンソースコードとデータセットを含むこの研究論文は、先月シアトルで開催されたコンピュータービジョンおよびパターン認識に関する会議(CVPR)で発表されました。 DIVIDはどのようにして作られたのですか? 既存のディープフェイク検出器は、GAN によって生成されたサンプルを識別する際には優れたパフォーマンスを発揮しますが、拡散モデルによって生成されたビデオを検出するには十分な堅牢性がありません。 この研究で、研究チームはDIVIDと呼ばれる新しいツールを使用してAI生成ビデオを検出しました。報道によると、DIVIDは今年初めにチームが発表した研究成果であるRaidarに基づいており、大規模言語モデル(LLM)の内部操作にアクセスせずにテキスト自体を分析することでAIによって生成されたテキストを検出します。 Raidar は LLM を使用して特定のテキストを言い直したり修正したりし、システムがそのテキストに対して行った編集の数を測定します。編集が多いほど、テキストが人間によって書かれた可能性が高くなります。編集が少ないということは、テキストが機械で生成される可能性が高くなることを意味します。 彼らは同じコンセプトを使ってDIVIDを開発しました。 DIVID は、ビデオを再構築し、再構築された新しいビデオを元のビデオと比較することによって機能します。この方法は、拡散モデルによって生成された再構成画像は拡散プロセス分布からサンプリングされるため、互いに非常に類似しているはずであるという仮定に基づいているため、拡散生成ビデオを検出するために DIRE 値を使用します。大きな変化がある場合、元のビデオはおそらく人間が作成したものであり、そうでない場合は AI が作成したものであると考えられます。 図 | DIVID の検出プロセス。ステップ 1 では、一連のビデオ フレームが与えられた場合、研究チームはまず拡散モデルを使用して各フレームの再構成バージョンを生成します。次に、フレームとそれに対応する入力フレームを再構築することによって DIRE 値が計算されます。ステップ 2 では、DIRE 値シーケンスと元の RGB フレームに基づいて CNN + LSTM 検出器がトレーニングされます。 このフレームワークは、AI 生成ツールが大規模なデータセットの統計的分布に基づいてコンテンツを作成し、ビデオ フレーム内のピクセル強度分布、テクスチャ パターン、ノイズ特性などの「統計平均」コンテンツや、フレーム間で不自然に変化する小さな不一致、または拡散生成ビデオに現れる可能性が高い異常なパターンを生成するという考えに基づいています。 図 |ドメイン内テスト セットでの検出パフォーマンス。 DIVID は、精度 (Acc.) と平均精度 (AP) の点でベースライン アーキテクチャを上回ります。 RGB は元のビデオのピクセルフレーム値を表します。 対照的に、人間が作成したビデオには個性があり、統計的な基準からの逸脱が見られます。 DIVID は、ベンチマーク データセットで Stable Vision Diffusion、Sora、Pika、Gen-2 によって生成されたビデオに対して最大 93.7% の検出精度を達成します。 今後の展望 現在、DIVID はビデオを分析し、それが AI によって生成されたものか人間によって生成されたものかを出力するコマンドライン ツールであり、開発者のみが利用できます。研究者らは、この技術はディープフェイク通話をリアルタイムで検出するプラグインとしてZoomに統合できる可能性があると指摘している。チームは、DIVID を一般ユーザーが利用できるようにするための Web サイトまたはブラウザ プラグインの開発も検討しています。 研究者たちは現在、オープンソースのビデオ生成ツールからのさまざまな種類の合成ビデオを処理できるように DIVID のフレームワークを改善することに取り組んでいます。また、DIVID データセットを拡張するために、DIVID を使用してビデオを収集しています。 「私たちのフレームワークは、AI生成コンテンツの検出において大きな進歩を遂げています」と論文の著者の一人であるユンユン・ツァイ博士は述べています。 「AIを使って動画を制作する悪質な行為者が多すぎる。重要なのは彼らを阻止し、社会を守ることだ。」 参考リンク: https://arxiv.org/abs/2406.09601 https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html |
<<: 雷雨、強風、雹が近づいていますので、これらの地域では注意してください →
>>: なぜ夏になると憂鬱な気分になりやすいのでしょうか?季節性うつ病を克服するための4つのヒント
百合と緑豆のお粥は一般的な主食です。その主原料である百合と緑豆は栄養価が高く、熱を清め、毒素を排出す...
秋の始まりとなり、だんだん涼しくなってきました。冷たい水が牡蠣をふっくらとさせます。養殖牡蠣の収穫時...
山では、自然の珍味がゆっくりと成長し、一生に一度の出会いを待っています。花は咲いては散り、草は枯れて...
Dell Technologies は、「人間と機械のコラボレーションの新時代」と題したレポートを発...
3年間の疫病との戦いを経て、私たちの心の中では、マスクの着用、頻繁な手洗い、頻繁な換気が防疫のキーワ...
トウモロコシは、減量を試みている多くの人が好んで食べる粗粒穀物です。ただし、もちトウモロコシのエネル...
さまざまな情報源のデータによると、2025年には中国における新エネルギー車の普及率は60%を超えると...
近年、COVID-19パンデミックの影響は広範囲かつ深刻になっています。バイオ医薬品産業は各界から大...
中国の農民収穫祭は、農民のために特別に国家レベルで制定された最初の祭りです。 2018年に創設され、...
最近、華電影電視が株式の私募を計画しているため取引を停止したため、市場では誰が華電影電視の株式を取得...
Tmall 618戦闘報告によると、主要ブランドはTmall 618期間中に上半期最大のビジネスブー...
制作:中国科学普及協会著者: 地球の重力プロデューサー: 中国科学博覧会編集者注:中国の先端技術プロ...
大根は栄養価が高く、私たちの生活にとても身近な食べ物です。毎日の3食のお粥として食べることができます...
最近、チベット自治区ニンティ市メドック県林業草原局は、いくつかの科学研究機関と協力し、徹底的な現地調...
最近、太陽の暈が国内の多くの地域で出現しています。ネットユーザーは空の珍しい美しさに衝撃を受けた多く...