AI画像で遊ぶ新しい方法!清華大学チームが「高解像度」画像生成法を提案

AI画像で遊ぶ新しい方法!清華大学チームが「高解像度」画像生成法を提案

「AI画像生成」というホットな分野で、任意の解像度のシームレスな拡散モデルが登場しました

最近、清華大学とZhipu AIの研究チームが共同で、新しいカスケードモデルであるリレー拡散(RDM)を提案しました。このモデルを使用すると、純粋なノイズから再生成することなく、任意の新しい解像度またはモデルで拡散プロセスをシームレスに実行できることが報告されています。

関連研究論文「リレー拡散:画像合成のための解像度を超えた拡散プロセスの統合」がプレプリントサイトarXivで公開され、関連コードがGitHubで公開されています。

近年、拡散モデルは画像合成において大きな成功を収め、画像合成の品質を大幅に向上させました。しかし、拡散モデルは、高解像度の画像を合成する際に依然として大きな課題に直面しています。まず、低解像度のノイズスケジューリングを高解像度に直接使用することは困難です。研究者は高解像度のシーンのノイズスケジューリングテーブルを慎重に調整する必要があり、良好な結果を得るのは依然として困難です。第二に、高解像度のトレーニング プロセスには多くのリソースが必要であり、計算コストが高くなります。

現在、一般的に使用されているソリューションは、潜在的(安定)拡散によって提案されているように、潜在空間でトレーニングしてからピクセル空間にマッピングし直すことです。ただし、この方法は必然的に低レベルのアーティファクトの影響を受けます。もう 1 つの解決策は、さまざまな解像度の一連の超解像度拡散モデルをトレーニングしてカスケードを形成することです。既存のカスケード法は効果的ですが、各段階でノイズからの完全なサンプリングが必要であり、非効率的であり、効果は条件付き強化などのトレーニング手法に大きく依存します。

上記の問題をより適切に解決するために、研究チームはカスケードモデル「リレー拡散」を提案しました。オリジナルのカスケード方式の利点を持ちながら、ぼかし拡散とブロックノイズの助けを借りて、まるで「リレー競争」のように、あらゆる異なる解像度間をシームレスに接続できるため、トレーニングとサンプリングのコストが大幅に削減されます

論文によると、離散コサイン変換スペクトル解析により、周波数空間におけるより高い解像度での同じノイズ強度に対応する信号対雑音比(SNR)は低周波部分の方が高いことがわかり、これは自然画像の低周波情報が十分に破壊されていないことを意味するという。

この目的のために、この研究では、ピクセル間の相関関係を持つブロックノイズを提案しました。このブロックノイズの高解像度での対応するSNRは、低周波部分における低解像度のガウスノイズのSNRと同等です

64×64 と 256×256 を例にとると、リレー拡散の全体的なプロセスは、まず標準拡散プロセスによって低解像度の画像を生成し、次にそれを各 4×4 グリッドで同じピクセル値を持つぼやけた高解像度の画像にアップサンプリングし、最後に各 4×4 グリッドで個別にぼかし拡散プロセス (ぼかし拡散) を実行します。

これにより、フォワード プロセスの最終状態がアップサンプリングされたぼやけた画像と揃うため、リレー拡散の第 2 段階は、既存のカスケード方式の純粋なガウス ノイズではなく、ぼやけた画像から直接開始できます

実験結果によると、従来のカスケード拡散モデルと比較して、リレー拡散は高解像度画像を生成する際に低周波情報を生成する部分を省略し、計算コストを大幅に節約します。また、よりシンプルで、条件として低解像度の画像やさまざまな条件付き強調技術を必要とせず、ノイズスケジュールの再設計や調整も必要ありません。

さらに、コストを節約しながら、リレー拡散により、より速く優れた発電性能を実現できます。無条件データセット CelebA-HQ-256 で SoTA の FID を達成し、条件付きデータセット ImageNet-256 で SoTA の sFID と競合 FID を達成し、ADM、LDM、DiT などのモデルを大幅に上回りました。リレー拡散は、分類ガイダンス (CFG) を使用しない場合にも、大きなパフォーマンス上の利点を示します。

研究チームは、今回の研究で提案されたカスケードモデルは、より高度なテキストから画像へのモデルの作成に役立つだろうと述べた。

今後は、リレー拡散の関連技術を文学グラフモデル全般に応用し、この分野の研究をさらに推進していく予定です。

論文リンク:

https://arxiv.org/abs/2309.03350

GitHub アドレス:

https://github.com/THUDM/RelayDiffusion

<<:  地球は丸いと言いますが、その証拠はどこにあるのですか?

>>:  錬金術を再発明!微生物に頼るだけでお金持ちになれる?

推薦する

黒魚スープの効能

黒魚の調理方法はたくさんあります。最も一般的なのは、煮込みと煮込みです。ほとんどの人は後者を選びます...

独身の日にお金を節約するためのヒント:これら4種類のおやつはすべて「疑似健康」食品なので、子供に買わないでください

ダブルイレブンの前兆は盛大なファンファーレとともに過ぎ去ったが、本当の日はまだ到来していない。多くの...

テクノロジーはますます活用されるようになっています。これがカラーテレビ業界の悲劇なのでしょうか?

製造会社を名乗る会社は数多くありますが、本当に製造技術に長けているカラーテレビ会社は多くありません。...

何?衛星はなぜ午前と午後のシフトでスケジュールされているのですか?

8月3日、当社の風雲3号6号衛星が宇宙に打ち上げられました。多くの関連ニュースでは「太陽同期早朝軌...

水飲み場の消毒

ウォーターディスペンサーは、私たちがよく使用する家庭用電化製品の一種です。飲料水として使用できます。...

大豆豚足スープの作り方

大豆は最も栄養価の高い豆類として知られています。不飽和脂肪酸、大豆エストロゲン、ミネラル、さまざまな...

キャッサバ粉の食べ方

キャッサバは日常生活でよく見かける植物です。キャッサバは世界三大塊茎の一つであることは誰もが知ってい...

断片から完全なものまで、それを通して何千年も前の光景を実際に見ることができるのでしょうか?

人類の文明の過程において、金属の出現と利用は重要な役割を果たし、影響を及ぼし、自然界における人類の生...

「低温調理」は本当に健康に良いのか?これら3種類の食べ物をこのように調理しないでください

伝統的な調理法と比較して、食品の調理温度を 50 ~ 80 ℃ に保つ「低温スロー調理」という言葉を...

乾燥豆腐と唐辛子の炒め物

干し豆腐と唐辛子の炒め物は干し豆腐の調理法の一つで、主な材料は唐辛子と干し豆腐です。大豆製品を使用す...

なぜこの美しい星雲は「カラーパレット」を覆したのでしょうか?謎の「ハッブルカラー」を解明!

著者 |周一浩監査 |黄建編集者 |王 啓源カリーナ星雲、ハッブル宇宙望遠鏡とブランコ望遠鏡で撮影さ...

本当に難しいことは何ですか?

出典: ドクターキュリアス原題: 眠り方をお教えします (今夜だけ)...

タチウオの煮込み - あらゆる年齢層に理想的な栄養たっぷりの料理

タチウオは魚の中で一番好きです。焼いても、揚げても、蒸しても美味しいです。タチウオは栄養価が高く、タ...

横になるか、立つか?ロケットを輸送する方法はたくさんある

少し前に、長征7号ロケットが天舟6号貨物宇宙船を積んで文昌宇宙発射センターに移送される映像が再び注目...

莱陽梨を食べるとどんな効果があるのか

莱陽梨は比較的有名な果物であり、私たちの日常生活でもよく見られる果物です。この果物は私たちの体に多く...