擴散模型家族再添一員,最新ColdDiffusion不再依賴高斯噪聲
最近,Stability.Ai 公開發(fā)布了其文本生成圖像模型 Stable Diffusion 的最新版本,網(wǎng)友們的新一波圖像創(chuàng)作熱潮又開始了~

前特斯拉 AI 總監(jiān) Andrej Karpathy 評論說:這是人類創(chuàng)造力具有歷史意義的一天,如此豐富的人類視覺創(chuàng)造力集中體現(xiàn)到了一個人人可觸及的產(chǎn)品中。
從生成圖像的效果來看,Stable Diffusion 已經(jīng)是當(dāng)前最好的模型之一,而它背后的擴散模型(Diffusion Model)最近也備受關(guān)注,顯示出要取代 GAN 模型的勢頭。
其實,自從 2015 年擴散模型首次被提出以來,該領(lǐng)域本身已經(jīng)有非常多的研究,研究人員也提出不少變體。而日前,來自馬里蘭大學(xué)和紐約大學(xué)的團隊提出了近來最新的一種擴散模型:Cold Diffusion。
Diffusion model 再升華
目前業(yè)界出現(xiàn)的擴散模型變體層出不窮,但它們都有一個不變的核心:都是圍繞隨機噪聲去除這個概念建立的。
擴散模型的本質(zhì),以及目前我們對擴散模型的理解,都與高斯噪聲在訓(xùn)練和生成過程中所起的作用高度相關(guān)。我們可以將「擴散」理解為使用 Langevin 動力學(xué)圍繞圖像密度函數(shù)的隨機移動,擴散的每一步都需要高斯噪聲。擴散始于「高溫」?fàn)顟B(tài)(即噪音很大的狀態(tài)),然后逐漸降溫到幾乎沒有噪音的「冷」?fàn)顟B(tài)。
而在這篇叫做“Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise”的最新論文中,作者提出了一個疑問:制作擴散模型的變體,是不是非得使用高斯噪聲不可?

論文地址:https://arxiv.org/pdf/2208.09392.pdf
通過多次嘗試,該研究團隊得出了答案:并不一定需要。
在這篇論文中,作者不再將擴散模型局限于「依賴高斯噪聲而建立」,而是提出了圍繞模糊(blurring)、下采樣(downsampling)等任意圖像變換方式建立的廣義擴散模型。由于不再有原先的「高溫」?fàn)顟B(tài),這種全新廣義擴散模型也就被稱作為 Cold Diffusion。
過去標(biāo)準(zhǔn)的擴散模型有兩步工作流程:首先,用圖像退化算子(image degradation operator)使得圖像受到高斯噪聲的污染,其次用一個訓(xùn)練好的恢復(fù)算子(restoration operator)對圖像進行去噪,逆轉(zhuǎn)退化,從而得到一張新圖像。

圖注:傳統(tǒng)擴散模型的兩步工作流程
Cold Diffusion 繼承了這兩步工作流程,但又對之進行了升華式的修改。如下圖所示,在圖像退化再到逆轉(zhuǎn)退化的過程中,Cold Diffusion 研究團隊嘗試了使用噪聲、模糊、變形(Animorph)、遮罩(mask)、像素化(pixelate)、雪花等變換方式,且都得到了不錯的效果。

圖注:Cold Diffusion 使用不同圖像變換方式得到新圖像的工作流程
工作原理對于已知圖像 x0,設(shè)圖像退化算子為D,執(zhí)行算子的次數(shù)為t。
對以往標(biāo)準(zhǔn)的擴散模型來說,其執(zhí)行圖像變換的前向過程,是由圖像退化算子 D 來對圖像添加高斯噪聲。添加0次時,D 應(yīng)滿足:
添加t次時,則應(yīng)有:
而在 Cold Diffusion 的模型設(shè)計中,D 可以用來執(zhí)行其他各種圖像變換方式,如模糊、變形、像素化、雪花等,其退化程度取決于t ——Cold Diffusion 的「升級」正體現(xiàn)在可以進行包括噪音在內(nèi)的多種圖像變換。
同時我們還需要一個能把xt“變回”圖像的恢復(fù)算子 R ,應(yīng)有:
在有了圖像退化算子 D 和 恢復(fù)算子 R 后,就可以借用擴散模型的標(biāo)準(zhǔn)方法對算子進行串聯(lián)使用,從而實現(xiàn)退化運算-逆轉(zhuǎn)退化的工作流程。如果退化運算的次數(shù) t 比較小(t ≈ 0),對 R 進行一次應(yīng)用就可以得到一幅恢復(fù)后的新圖像。
由于R通常只經(jīng)過了一個簡單的凸損失訓(xùn)練,當(dāng)執(zhí)行退化運算的次數(shù) t 很大時,生成的結(jié)果會很模糊。對此,作者團隊提出一個改進的 Cold Diffusion 采樣算法來生成高質(zhì)量圖像。
變化無窮
這篇研究的重點就在于,作者觀察到,擴散模型的圖像生成并不完全依賴于高斯噪聲,我們也可以選擇其他圖像變換方式來生成新圖像。通過改變圖像變換方式,甚至可以構(gòu)建出整個生成模型家族。
以模糊為退化運算方式
基于噪聲的擴散模型中的前向擴散過程(即退化運算這一步)的優(yōu)點是,在最后一步 T 處的退化圖像分布只是一個各向同性的高斯分布。因此,我們可以首先從各向同性高斯分布中抽取樣本,然后通過反向擴散順序?qū)ζ溥M行去噪來執(zhí)行(無條件)生成。而選擇模糊這種退化運算時,完全退化的圖像不能形成我們可以抽樣的良好封閉式分布,但是可以形成一個足夠簡單的分布,可以用簡單的方法進行建模。
對于次數(shù)足夠大的 T,每個圖像 x0 都會降級為一個常數(shù) xT(即每個像素都是相同的顏色)。該常數(shù)值恰好是 RGB 圖像 x0 的通道平均值,可以表示為三維向量,并使用高斯混合模型 (Gaussian mixture model, GMM) 表示。通過對該 GMM 進行采樣,可以產(chǎn)生高度模糊圖像的隨機像素值,然后使用 cold diffusion 就可以進行去模糊化,從而創(chuàng)建新圖像。
另外,像素之間的對稱性會導(dǎo)致生成的圖像缺乏多樣性,為了打破同一管道像素的對稱性,作者向每個采樣的 xT 添加少量高斯噪聲,這個簡單的技巧極大地提高了生成圖像的豐富性。

圖注:對128 × 128 CelebA and AFHQ 數(shù)據(jù)集使用 cold diffusion 的模糊方式變換生成樣本示例
以其他圖像變換為退化運算方式
最后團隊進一步證明,除了模糊方式以外,cold diffusion 還可以擴展到其他變換,如修復(fù)、超分辨率和變形(animorphosis)方式上,且生成的圖像效果也都很好:

圖注:cold diffusion 的生成圖像。第一行使用變形方式變換,第二行使用修復(fù)方式變換,第三行使用超分辨率變換方式。
研究團隊給出了 CelebA 數(shù)據(jù)集上的結(jié)果,cold diffusion 在修復(fù)、超分辨率和變形方面的 FID 得分分別為90.14、92.91和48.51。( FID,即 Rechet Inception Distance score,是用來計算真實圖像和生成圖像計算的特征向量之間距離的指標(biāo)。)
在訓(xùn)練和測試期間不需要高斯噪聲的 cold diffusion,突破了人們對擴散模型的原有理解,為新型生成模型打開了未來的大門。
Diffusion Model 時代來臨
這項研究因為提出了一種不同于傳統(tǒng)形式的擴散模型,而在近日登上了許多論文排行榜的熱門,同樣引起了熱議的,還有論文其中一位作者在推特上發(fā)起的討論:為什么擴散模型如此迅速地取代了 GAN?
馬里蘭大學(xué)副教授 Tom Goldstein 解釋,擴散模型的優(yōu)點是它可以最小化凸回歸損失,所以 OpenAI 在開發(fā) DALLE 時直接拋棄了 GAN,而使用擴散模型來解決不穩(wěn)定的鞍點問題(saddle point problem)。
而且,他認(rèn)為,擴散模型的成功是新數(shù)學(xué)范式發(fā)揮其作用的一個例子,世界上所有的超參數(shù)調(diào)整都比不過幾行深思熟慮的數(shù)學(xué)公式。
要說今天的文本生成圖像領(lǐng)域已經(jīng)由擴散模型統(tǒng)治或許還不夠嚴(yán)謹(jǐn),但 GAN 的一家獨大的確已經(jīng)成為歷史。歸根結(jié)底,誰的圖像生成質(zhì)量和穩(wěn)定性更好,誰才在越來越卷的生成模型界成為寵兒。這項工作提出的 Cold Diffusion,或許就會在不久之后為我們帶來一個新的、強大的文本生成圖像模型。
參考鏈接:
https://arxiv.org/pdf/2208.09392.pdf
更多內(nèi)容,點擊下方關(guān)注:掃碼添加 AI 科技評論 微信號,投稿&進群:
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。