首頁 > AI資訊 > 最新資訊 > StableDiffusion3突然發布!與Sora同架構,一切都更逼真了

StableDiffusion3突然發布!與Sora同架構,一切都更逼真了

新火種    2024-02-23

Stable Diffusion 3,它終于來了!

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

足足醞釀一年之多,相比上一代一共進化了三大能力。

來,直接上效果!

首先,是開掛的文字渲染能力。

且看這黑板上的粉筆字:

Go Big or Go Home (不成功便成仁),這個倒是殺氣騰騰啊~

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

路牌、公交燈牌的霓虹效果:

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

還有刺繡上“勾”得快要看到針腳的“晚安”:

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

作品一擺出,網友就大呼:太精確了。

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

以至于有人表示:趕緊把中文也安排上啊。

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

其次,多主題提示能力直接拉滿。

什么意思?你盡管一次性往提示詞中塞入n多“元素”,Stable Diffusion 3:漏一個算我輸。

吶,仔細瞅下圖,這里面就有“宇航員”、“穿著芭蕾舞裙的小豬”、“粉色雨傘”、“戴著禮帽的知更鳥”,角落里還有“Stable Diffusion”幾個大字(可不是什么水印)。

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

有了這個能力,一幅作品你想多豐富就有多豐富。

最后,當屬圖像質量,再次進化了一個度。

光看前面這些圖,就被沖擊到有沒有?!

而各種超清特寫,那是再信手拈來不過的了。

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

心動嗎?目前官方已開放排隊名單,大伙可以前往官網申請。

咳咳,也不得不說,最近這AI圈可真是相當熱鬧啊。

有網友直呼,我的電腦已經Hold不住了……

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

Stable Diffusion 3來了!

全新的Stable Diffusion效果有多好,再給大伙奉送一些。

當然,所有出圖均來自官方,比如StabilityAI媒體負責人:

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

不得不說,文字效果實在最為吸人眼球,各種形式都能呈現得相當清楚和“應景”。

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

而看到上面這幅圖,不得不想到“Midjourney尷尬亮相學術界:為生物學論文亂配圖”一事——有了SD3之后,我們是不是可以制作非常專業的學術配圖了?

除了這些,SD3的“酒精水墨畫”也相當別出心裁:

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

動漫風格:

again,你可以在上面加清晰的文字了。

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

由于目前需要排隊申請,大伙還不好實際測試摸底。

不過有機智的網友已經用相同的提示詞喂給了Midjourney(v 6.0)。

比如開頭的那張“紅蘋果與黑板字”(prompt:cinematic photo of a red apple on a table in a classroom, on the blackboard are the words “go big or go home” written in chalk)

最終Midjourney給出的結果如下:

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

從這組對比來看,可以說是高下立判——SD3無論是文字拼寫還是質量、色彩協調性等方面都更勝一籌。

技術方面,目前,模型可選擇的參數范圍在800M到8B。

詳細的技術報告還未公布,官方目前只透露主要結合了擴散型transformer架構以及flow matching。

前者實際上同Sora一樣,附上的技術論文正是22年William Peebles同謝賽寧合寫的DiT。

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

DiT首次將Transformer與擴散模型結合到了一起,相關論文被ICCV 2023錄用為Oral論文。

在該研究中,研究者訓練了潛在擴散模型,用對潛在 patch進行操作的 Transformer 替換常用的 U-Net 主干網絡。他們通過以Gflops衡量的前向傳遞復雜度來分析擴散 Transformer (DiT) 的可擴展性。

而后者flow matching同樣也是來自22年,由Meta AI以及魏茨曼科學研究所的科學家完成。

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

他們提出了基于連續歸一化流(CNFs)的生成模型新范式,以及flow matching的概念,這是一種基于回歸固定條件概率路徑的矢量場的免模擬CNFs的方法。結果發現使用帶有擴散路徑的flow matching,可以訓練出來的模型更穩健和穩定。

不過最近看了這么多視頻生成進展,也有網友表示:

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

你覺得呢?

One More Thing

除此之外,也就在前一天,他們的視頻產品Stable Video正式開放公測。

基于SVD1.1(Stable Video Diffusion 1.1),人人可用。

主要支持文生視頻和圖生視頻兩個功能。

Stable Diffusion 3突然發布!與Sora同架構,一切都更逼真了

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章