最も強力な文勝図モデル！ Stable Diffusion 3 のビジュアルの美しさはどれほど素晴らしいのでしょうか?

先月、Stability AIはWenshengtuメガモデルの第3世代となるStable Diffusion 3をリリースしました。このモデルは、既存のテキストから画像への生成システムを上回る強力なパフォーマンスを示し、テキストから画像への生成技術に大きな進歩をもたらします。

最近、Stability AI はついに Stable Diffusion 3 の技術レポートをリリースし、Stable Diffusion 3 の背後にある技術的な詳細を垣間見ることができました。レポートの主なポイントは次のとおりです。

Stable Diffusion 3 は、タイポグラフィやキュー追従などの面で優れており、DALL·E 3、Midjourney v6、Ideogram v1 などの最先端のテキストから画像への生成システムを上回っていることが知られています。で：

他のオープンモデルやクローズドソースシステムと比較すると、Stable Diffusion 3 は、視覚的な美しさ、キューの追従、タイポグラフィなどの分野で優れています。

Stable Diffusion 3 は、再重み付けされた長方形フロー形式を使用してモデルのパフォーマンスを向上させます。他の長方形フローフォームと比較して、より安定したパフォーマンスを発揮します。

新しいマルチモーダル拡散トランスフォーマー (MMDiT) アーキテクチャは、独立した重みセットを使用して画像と言語の表現を処理し、以前のバージョンと比較してテキストの理解とスペル機能が向上しています。

MMDiT アーキテクチャは、DiT と矩形フロー (RF) 形式を組み合わせたものです。 2 つの独立したトランスフォーマーを使用してテキストと画像の埋め込みを処理し、2 つのモダリティのシーケンスをアテンション操作で組み合わせます。

MMDiT アーキテクチャは、テキストから画像への生成に適しているだけでなく、ビデオなどのマルチモーダルデータにも拡張できます。

メモリを大量に消費する T5 テキストエンコーダーを削除すると、パフォーマンスの低下はわずかですが、SD3 のメモリ要件が大幅に削減されます。

図 | 8B 修正モデルの高解像度サンプル。タイポグラフィ、正確なキューの追跡と空間推論、細部への配慮、さまざまなスタイルでの高画質などの機能を示します。

完全な技術レポートのリンク:

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

次に、レポートに基づいて、Stable Diffusion 3 の技術的な詳細を見てみましょう。

MMDiTアーキテクチャ: Stable Diffusion 3を支える主要技術

MMDiT アーキテクチャは、Stable Diffusion 3 を支える重要な技術の 1 つです。従来の単一モダリティ処理方法と比較して、MMDiT アーキテクチャはテキストと画像の関係をより適切に処理できるため、より正確で高品質な画像生成を実現します。

図｜モデル建築。

このアーキテクチャは、独立した重みセットを使用して画像と言語の表現を処理します。つまり、テキストと画像という 2 つの異なる入力モダリティに対して、MMDiT はエンコードと処理に異なる重みパラメータを使用して、各モダリティの特性と情報をより適切にキャプチャします。

MMDiT アーキテクチャでは、テキストと画像の表現は、事前トレーニング済みのモデルを通じて個別にエンコードされます。具体的には、MMDiT は 3 つの異なるテキストエンベッダー (2 つの CLIP モデルと 1 つの T5 モデル) と、改良されたオートエンコーダーモデルを使用して画像トークンをエンコードします。これらのエンコーダーは、テキストと画像の入力をモデルが理解して処理できる形式に変換し、後続の画像生成プロセスの基礎を提供します。

図 | T5 は、高度な詳細や長い綴りのテキスト (行 2 と 3) など、複雑な手がかりにとって重要です。ただし、ほとんどのヒントでは、推論時に T5 を削除しても競争力のあるパフォーマンスが達成されます。

モデル構造の点では、MMDiT アーキテクチャは Diffusion Transformer (DiT) に基づいています。テキストと画像の表現は概念的に異なるため、MMDiT はこれら 2 つのモダリティを処理するために 2 つの独立した重みパラメータセットを使用します。このようにして、モデルはテキストと画像の相関関係を考慮しながら、テキストと画像の表現空間で個別に動作できるため、より優れた情報伝達と統合が実現します。

パフォーマンスは他のWenshengグラフモデルを圧倒する

他のテキストから画像への生成モデルとパフォーマンスを比較すると、Stable Diffusion 3 が明らかに優れていることがわかります。視覚的な美しさ、テキストの準拠性、タイポグラフィの点では、Stable Diffusion 3 は、DALL·E 3、Midjourney v6、Ideogram v1 などの最先端のシステムを上回っています。

この利点は主に、MMDiT アーキテクチャによる画像とテキスト表現の独立した処理によるもので、これによりモデルはテキストの手がかりをより適切に理解して表現し、それに一致する高品質の画像を生成できるようになります。人間の評価者によって提供されたサンプル出力と比較すると、Stable Diffusion 3 は視覚的な美しさの点で他のモデルよりも優れたパフォーマンスを発揮します。評価者は、画像の美しさに基づいて最良の結果を選択するように求められました。結果は、生成された画像の美しさの点で、Stable Diffusion 3 が他のモデルよりも優れていることを示しています。

画像: この気まぐれで創造的な画像は、ワッフルとカバが混ざった生き物を描いています。この想像力豊かな生き物は、カバの特徴的なずんぐりとした体を持っていますが、その外見はサクサクした黄金色のワッフルに似ています。その生き物の皮膚はワッフル状で、シロップのような光沢がありました。これは、カバの自然な水生生息地と、特大のカトラリーや皿を背景にした朝食テーブルを興味深く組み合わせた、シュールな環境を舞台にしています。これらの画像は、遊び心のある不条理感と料理のファンタジーを呼び起こします。

評価者は、モデル出力と与えられたプロンプトの一貫性に基づいて、モデルのテキスト追跡能力を評価しました。テスト結果から判断すると、Stable Diffusion 3 はテキスト準拠のパフォーマンスが優れており、プロンプトに基づいて対応する画像コンテンツをより正確に生成できます。

タイポグラフィとは、モデルによって生成された画像内のテキストのレイアウト、書式設定、外観を指します。評価者の選択によると、Stable Diffusion 3 はタイポグラフィでも優れたパフォーマンスを発揮し、与えられたプロンプト内のテキスト情報をより適切に提示し、生成された画像をより読みやすく魅力的なものにしています。

さらに、 Stable Diffusion 3 は、さまざまなハードウェアデバイスでのパフォーマンスに関しても優れた柔軟性を発揮します。

たとえば、RTX 4090 などのデバイスでは、最大モデル (8B パラメータ) で画像生成中に 34 秒以内に 1024 x 1024 解像度の画像を生成できるほか、初期プレビュー段階で 800m から 8B パラメータモデルスケールまでさまざまなパラメータモデルオプションを提供して、ハードウェアの制限をさらに排除することもできます。

コンシューマーレベルのハードウェアでは、Stable Diffusion 3 は依然として推論速度が速く、リソース使用率も高いです。

さらに、このテクノロジーは、さまざまなユーザーやアプリケーションシナリオのニーズを満たすためにさまざまなモデルスケールオプションを提供し、スケーラビリティと適用性を高めます。

Stable Diffusion 3 は、画像生成の品質だけでなく、テキストとの配置と一貫性にも重点を置いています。改良されたプロンプトフォロー機能により、モデルは単に画像を生成するのではなく、入力テキストをよりよく理解し、それに基づいて画像を作成できるようになりました。この柔軟性により、Stable Diffusion 3 はさまざまなテーマやニーズに合わせて、さまざまな入力テキストに基づいて多様な画像を生成できます。

Stable Diffusion 3 は、データとノイズを線形軌道で接続する改良された Rectified Flow (RF) 方式を使用して、推論パスをより直線的にし、少ないステップでサンプリングできるようにします。同時に、Stable Diffusion 3 では、軌道の中央部分にさらに重みを割り当てる新しい軌道サンプリングスケジュールも導入され、予測タスクの難易度が向上します。この革新的なアプローチにより、モデルのパフォーマンスが向上し、テキストから画像への生成タスクでより良い結果が得られます。

テキストから画像への生成の分野において、Stable Diffusion 3 の登場は技術の大きな進歩を意味します。 MMDiT アーキテクチャの革新、Rectified Flow の最適化、ハードウェアデバイスとモデルスケールの柔軟な調整により、Stable Diffusion 3 は視覚的な美しさ、テキストのコンプライアンス、タイポグラフィに優れ、現在のテキストから画像への生成システムを上回っています。

Stable Diffusion 3 の誕生により、生成される画像の品質と精度が向上するだけでなく、将来のクリエイティブ産業、パーソナライズされたコンテンツの生成、補助的な作成ツール、拡張現実や仮想現実のアプリケーションに新たな可能性がもたらされます。

将来、この技術がさらに発展し、普及するにつれて、より革新的なアプリケーションシナリオとソリューションが登場することが期待できます。

参考リンク:

https://stability.ai/news/stable-diffusion-3-research-paper

<<: 運動を続ければ、70歳になっても髪の毛は太く黒く保たれるでしょうか？

>>: 外出時に車酔いしやすい人がいるのはなぜでしょうか?