最も強力な文勝図モデル! Stable Diffusion 3 のビジュアルの美しさはどれほど素晴らしいのでしょうか?

最も強力な文勝図モデル! Stable Diffusion 3 のビジュアルの美しさはどれほど素晴らしいのでしょうか?

先月、Stability AIはWenshengtuメガモデルの第3世代となるStable Diffusion 3をリリースしました。このモデルは、既存のテキストから画像への生成システムを上回る強力なパフォーマンスを示し、テキストから画像への生成技術に大きな進歩をもたらします。

最近、Stability AI はついに Stable Diffusion 3 の技術レポートをリリースし、Stable Diffusion 3 の背後にある技術的な詳細を垣間見ることができました。レポートの主なポイントは次のとおりです。

Stable Diffusion 3 は、タイポグラフィやキュー追従などの面で優れており、DALL·E 3、Midjourney v6、Ideogram v1 などの最先端のテキストから画像への生成システムを上回っていることが知られています。で:

他のオープン モデルやクローズド ソース システムと比較すると、Stable Diffusion 3 は、視覚的な美しさ、キューの追従、タイポグラフィなどの分野で優れています。

Stable Diffusion 3 は、再重み付けされた長方形フロー形式を使用してモデルのパフォーマンスを向上させます。他の長方形フローフォームと比較して、より安定したパフォーマンスを発揮します。

新しいマルチモーダル拡散トランスフォーマー (MMDiT) アーキテクチャは、独立した重みセットを使用して画像と言語の表現を処理し、以前のバージョンと比較してテキストの理解とスペル機能が向上しています。

MMDiT アーキテクチャは、DiT と矩形フロー (RF) 形式を組み合わせたものです。 2 つの独立したトランスフォーマーを使用してテキストと画像の埋め込みを処理し、2 つのモダリティのシーケンスをアテンション操作で組み合わせます。

MMDiT アーキテクチャは、テキストから画像への生成に適しているだけでなく、ビデオなどのマルチモーダル データにも拡張できます。

メモリを大量に消費する T5 テキスト エンコーダーを削除すると、パフォーマンスの低下はわずかですが、SD3 のメモリ要件が大幅に削減されます。

図 | 8B 修正モデルの高解像度サンプル。タイポグラフィ、正確なキューの追跡と空間推論、細部への配慮、さまざまなスタイルでの高画質などの機能を示します。

完全な技術レポートのリンク:

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

次に、レポートに基づいて、Stable Diffusion 3 の技術的な詳細を見てみましょう。

MMDiTアーキテクチャ: Stable Diffusion 3を支える主要技術

MMDiT アーキテクチャは、Stable Diffusion 3 を支える重要な技術の 1 つです。従来の単一モダリティ処理方法と比較して、MMDiT アーキテクチャはテキストと画像の関係をより適切に処理できるため、より正確で高品質な画像生成を実現します。

図|モデル建築。

このアーキテクチャは、独立した重みセットを使用して画像と言語の表現を処理します。つまり、テキストと画像という 2 つの異なる入力モダリティに対して、MMDiT はエンコードと処理に異なる重みパラメータを使用して、各モダリティの特性と情報をより適切にキャプチャします。

MMDiT アーキテクチャでは、テキストと画像の表現は、事前トレーニング済みのモデルを通じて個別にエンコードされます。具体的には、MMDiT は 3 つの異なるテキスト エンベッダー (2 つの CLIP モデルと 1 つの T5 モデル) と、改良されたオートエンコーダー モデルを使用して画像トークンをエンコードします。これらのエンコーダーは、テキストと画像の入力をモデルが理解して処理できる形式に変換し、後続の画像生成プロセスの基礎を提供します。

図 | T5 は、高度な詳細や長い綴りのテキスト (行 2 と 3) など、複雑な手がかりにとって重要です。ただし、ほとんどのヒントでは、推論時に T5 を削除しても競争力のあるパフォーマンスが達成されます。

モデル構造の点では、MMDiT アーキテクチャは Diffusion Transformer (DiT) に基づいています。テキストと画像の表現は概念的に異なるため、MMDiT はこれら 2 つのモダリティを処理するために 2 つの独立した重みパラメータ セットを使用します。このようにして、モデルはテキストと画像の相関関係を考慮しながら、テキストと画像の表現空間で個別に動作できるため、より優れた情報伝達と統合が実現します。

パフォーマンスは他のWenshengグラフモデルを圧倒する

他のテキストから画像への生成モデルとパフォーマンスを比較すると、Stable Diffusion 3 が明らかに優れていることがわかります。視覚的な美しさ、テキストの準拠性、タイポグラフィの点では、Stable Diffusion 3 は、DALL·E 3、Midjourney v6、Ideogram v1 などの最先端のシステムを上回っています。

この利点は主に、MMDiT アーキテクチャによる画像とテキスト表現の独立した処理によるもので、これによりモデルはテキストの手がかりをより適切に理解して表現し、それに一致する高品質の画像を生成できるようになります。人間の評価者によって提供されたサンプル出力と比較すると、Stable Diffusion 3 は視覚的な美しさの点で他のモデルよりも優れたパフォーマンスを発揮します。評価者は、画像の美しさに基づいて最良の結果を選択するように求められました。結果は、生成された画像の美しさの点で、Stable Diffusion 3 が他のモデルよりも優れていることを示しています。

画像: この気まぐれで創造的な画像は、ワッフルとカバが混ざった生き物を描いています。この想像力豊かな生き物は、カバの特徴的なずんぐりとした体を持っていますが、その外見はサクサクした黄金色のワッフルに似ています。その生き物の皮膚はワッフル状で、シロップのような光沢がありました。これは、カバの自然な水生生息地と、特大のカトラリーや皿を背景にした朝食テーブルを興味深く組み合わせた、シュールな環境を舞台にしています。これらの画像は、遊び心のある不条理感と料理のファンタジーを呼び起こします。

評価者は、モデル出力と与えられたプロンプトの一貫性に基づいて、モデルのテキスト追跡能力を評価しました。テスト結果から判断すると、Stable Diffusion 3 はテキスト準拠のパフォーマンスが優れており、プロンプトに基づいて対応する画像コンテンツをより正確に生成できます。

タイポグラフィとは、モデルによって生成された画像内のテキストのレイアウト、書式設定、外観を指します。評価者の選択によると、Stable Diffusion 3 はタイポグラフィでも優れたパフォーマンスを発揮し、与えられたプロンプト内のテキスト情報をより適切に提示し、生成された画像をより読みやすく魅力的なものにしています。

さらに、 Stable Diffusion 3 は、さまざまなハードウェア デバイスでのパフォーマンスに関しても優れた柔軟性を発揮します

たとえば、RTX 4090 などのデバイスでは、最大モデル (8B パラメータ) で画像生成中に 34 秒以内に 1024 x 1024 解像度の画像を生成できるほか、初期プレビュー段階で 800m から 8B パラメータ モデル スケールまでさまざまなパラメータ モデル オプションを提供して、ハードウェアの制限をさらに排除することもできます。

コンシューマーレベルのハードウェアでは、Stable Diffusion 3 は依然として推論速度が速く、リソース使用率も高いです。

さらに、このテクノロジーは、さまざまなユーザーやアプリケーション シナリオのニーズを満たすためにさまざまなモデル スケール オプションを提供し、スケーラビリティと適用性を高めます

Stable Diffusion 3 は、画像生成の品質だけでなく、テキストとの配置と一貫性にも重点を置いています。改良されたプロンプトフォロー機能により、モデルは単に画像を生成するのではなく、入力テキストをよりよく理解し、それに基づいて画像を作成できるようになりました。この柔軟性により、Stable Diffusion 3 はさまざまなテーマやニーズに合わせて、さまざまな入力テキストに基づいて多様な画像を生成できます。

Stable Diffusion 3 は、データとノイズを線形軌道で接続する改良された Rectified Flow (RF) 方式を使用して、推論パスをより直線的にし、少ないステップでサンプリングできるようにします。同時に、Stable Diffusion 3 では、軌道の中央部分にさらに重みを割り当てる新しい軌道サンプリング スケジュールも導入され、予測タスクの難易度が向上します。この革新的なアプローチにより、モデルのパフォーマンスが向上し、テキストから画像への生成タスクでより良い結果が得られます。

テキストから画像への生成の分野において、Stable Diffusion 3 の登場は技術の大きな進歩を意味します。 MMDiT アーキテクチャの革新、Rectified Flow の最適化、ハードウェア デバイスとモデル スケールの柔軟な調整により、Stable Diffusion 3 は視覚的な美しさ、テキストのコンプライアンス、タイポグラフィに優れ、現在のテキストから画像への生成システムを上回っています。

Stable Diffusion 3 の誕生により、生成される画像の品質と精度が向上するだけでなく、将来のクリエイティブ産業、パーソナライズされたコンテンツの生成、補助的な作成ツール、拡張現実や仮想現実のアプリケーションに新たな可能性がもたらされます。

将来、この技術がさらに発展し、普及するにつれて、より革新的なアプリケーション シナリオとソリューションが登場することが期待できます。

参考リンク:

https://stability.ai/news/stable-diffusion-3-research-paper

<<:  運動を続ければ、70歳になっても髪の毛は太く黒く保たれるでしょうか?

>>:  外出時に車酔いしやすい人がいるのはなぜでしょうか?

推薦する

復讐のあと「復讐心」が湧いた、耐え難い「生魚介類を食べる重さ」

最近娘がカニに噛まれた復讐をする男小さなカニを拾い上げて生で飲み込む病院の救急室へトレンド検索生の魚...

コーヒーはいかがですか?

もちろん、コーヒーは現代人にとって非常に一般的な飲み物です。現代人にとって、仕事や生活はストレスがた...

いくら計算しても、この1兆ドルのチャンスを逃さないでください!

混合知識混乱を治すために特別に設計されています!...

中核技術の欠如による国産携帯電話の繁栄の裏にある恥ずかしさ

近年、中国の携帯電話メーカーが次々と台頭している。超高コストパフォーマンスで国内市場での海外ブランド...

咳をしているときにニンニクを食べても大丈夫ですか?

咳は多くの要因によって引き起こされる現象です。咳は私たちにとって良いこともありますが、咳が長く続くと...

Ctrip: 2022年「Her Travel」消費レポート

報告書によると、2021年に女性が旅行に支払った平均一人当たり支出額は男性より33%高く、ライブ放送...

奇妙なタイヤとグライダー、火星探査のための新しいツール!

近年、航空宇宙技術の活発な発展と「宇宙移民」という概念の台頭により、火星は大きな注目を集めており、人...

半熟卵

目玉焼きは誰にとってもとても馴染み深い食べ物であり、毎日目玉焼きを食べている人もいるかもしれません。...

中国乗用車協会:中国の自動車ディーラー在庫警告指数は2022年12月に58.2%

中国自動車ディーラー協会が2022年12月31日に発表した「中国自動車ディーラー在庫警戒指数調査」の...

快手はなぜステーションAを買収したかったのでしょうか?

6月5日朝、快手はAcfunの全面買収を完了したことを確認した。今後、A站は独立したブランドを維持...

あまりにも明白:iOS 8 が Android からコピーした 5 つの機能

iOS と Android が互いに学び合ったり、さらには「コピー」し合ったりすることについての議論...

ダイバーが水中でウツボに噛まれ、血が緑色に変色しました...

ティム・パウエルはダイビング愛好家です。 2010年、彼は海から約20メートルのところで、誤って小さ...

カボチャの皮は食べられますか?

多くの野菜や果物には栄養が豊富に含まれていることはわかっていますが、野菜や果物の最も栄養価の高い部分...

ネットで大人気の青竹ご飯は、栄養たっぷりで健康にいい食材なのか、それとも「技術と努力」なのか?

今年は秋の収穫の季節です。今は新米が出回る時期ですが、皆さんは緑色の米を見たことがありますか?最近、...