「AI画像生成」というホットな分野で、任意の解像度のシームレスな拡散モデルが登場しました。 最近、清華大学とZhipu AIの研究チームが共同で、新しいカスケードモデルであるリレー拡散(RDM)を提案しました。このモデルを使用すると、純粋なノイズから再生成することなく、任意の新しい解像度またはモデルで拡散プロセスをシームレスに実行できることが報告されています。 関連研究論文「リレー拡散:画像合成のための解像度を超えた拡散プロセスの統合」がプレプリントサイトarXivで公開され、関連コードがGitHubで公開されています。 近年、拡散モデルは画像合成において大きな成功を収め、画像合成の品質を大幅に向上させました。しかし、拡散モデルは、高解像度の画像を合成する際に依然として大きな課題に直面しています。まず、低解像度のノイズスケジューリングを高解像度に直接使用することは困難です。研究者は高解像度のシーンのノイズスケジューリングテーブルを慎重に調整する必要があり、良好な結果を得るのは依然として困難です。第二に、高解像度のトレーニング プロセスには多くのリソースが必要であり、計算コストが高くなります。 現在、一般的に使用されているソリューションは、潜在的(安定)拡散によって提案されているように、潜在空間でトレーニングしてからピクセル空間にマッピングし直すことです。ただし、この方法は必然的に低レベルのアーティファクトの影響を受けます。もう 1 つの解決策は、さまざまな解像度の一連の超解像度拡散モデルをトレーニングしてカスケードを形成することです。既存のカスケード法は効果的ですが、各段階でノイズからの完全なサンプリングが必要であり、非効率的であり、効果は条件付き強化などのトレーニング手法に大きく依存します。 上記の問題をより適切に解決するために、研究チームはカスケードモデル「リレー拡散」を提案しました。オリジナルのカスケード方式の利点を持ちながら、ぼかし拡散とブロックノイズの助けを借りて、まるで「リレー競争」のように、あらゆる異なる解像度間をシームレスに接続できるため、トレーニングとサンプリングのコストが大幅に削減されます。 論文によると、離散コサイン変換スペクトル解析により、周波数空間におけるより高い解像度での同じノイズ強度に対応する信号対雑音比(SNR)は低周波部分の方が高いことがわかり、これは自然画像の低周波情報が十分に破壊されていないことを意味するという。 この目的のために、この研究では、ピクセル間の相関関係を持つブロックノイズを提案しました。このブロックノイズの高解像度での対応するSNRは、低周波部分における低解像度のガウスノイズのSNRと同等です。 64×64 と 256×256 を例にとると、リレー拡散の全体的なプロセスは、まず標準拡散プロセスによって低解像度の画像を生成し、次にそれを各 4×4 グリッドで同じピクセル値を持つぼやけた高解像度の画像にアップサンプリングし、最後に各 4×4 グリッドで個別にぼかし拡散プロセス (ぼかし拡散) を実行します。 これにより、フォワード プロセスの最終状態がアップサンプリングされたぼやけた画像と揃うため、リレー拡散の第 2 段階は、既存のカスケード方式の純粋なガウス ノイズではなく、ぼやけた画像から直接開始できます。 実験結果によると、従来のカスケード拡散モデルと比較して、リレー拡散は高解像度画像を生成する際に低周波情報を生成する部分を省略し、計算コストを大幅に節約します。また、よりシンプルで、条件として低解像度の画像やさまざまな条件付き強調技術を必要とせず、ノイズスケジュールの再設計や調整も必要ありません。 さらに、コストを節約しながら、リレー拡散により、より速く優れた発電性能を実現できます。無条件データセット CelebA-HQ-256 で SoTA の FID を達成し、条件付きデータセット ImageNet-256 で SoTA の sFID と競合 FID を達成し、ADM、LDM、DiT などのモデルを大幅に上回りました。リレー拡散は、分類ガイダンス (CFG) を使用しない場合にも、大きなパフォーマンス上の利点を示します。 研究チームは、今回の研究で提案されたカスケードモデルは、より高度なテキストから画像へのモデルの作成に役立つだろうと述べた。 今後は、リレー拡散の関連技術を文学グラフモデル全般に応用し、この分野の研究をさらに推進していく予定です。 論文リンク: https://arxiv.org/abs/2309.03350 GitHub アドレス: https://github.com/THUDM/RelayDiffusion |
<<: 地球は丸いと言いますが、その証拠はどこにあるのですか?
>>: 錬金術を再発明!微生物に頼るだけでお金持ちになれる?
最近、中国自動車工業協会は今年3月の新エネルギー車の生産と販売を発表した。推奨カタログの発表や地方の...
人々の食生活は、食べ物の味を満足させることに加えて、健康を維持するために食べ物がもたらす栄養をより重...
パンケーキは多くの人に愛されています。この種の食べ物は独特の味があり、パンケーキを食べても人間の健康...
地中海のメノルカ島発祥で、卵と油をたっぷり使って作られるサラダドレッシングは、食生活において長い歴史...
牛肉は豚肉よりも噛みごたえがあり、栄養価も高いため、多くの友人が生活の中で牛肉を食べることを好むと信...
誰もが人生でサクサクの揚げパンを食べるのが好きだと思いますが、揚げパンを作るときに店主がどんなベーキ...
補遺1:毒蛇を見分ける方法として、頭が三角形かどうかを見るという方法を聞いたことがある人も多いでしょ...
毎年4月15日から21日は全国がん予防・管理週間です。 2022年のテーマは「がん予防と管理のための...
前書き: Apple A9 と HiSilicon 950 は議論の範囲外です。前者はApple独自...
多くの人は、ネギ油ソースを料理の材料として使い、調理中にネギ油ソースを加えるのが好きです。実際、ネギ...
《綿棒の科学》北京友誼病院救急科 王亜新:胆嚢炎の予防...
中国人にとって、漢方薬は人々の生活の中で非常に一般的なものです。それは彼らの祖先が何世代にもわたって...
食生活における「相性の悪い食べ物」とは、2つの食べ物を一緒に食べるときに、その組み合わせが適切でない...