久久久久免费视频,国产乱子伦视频大全,奇米四色7777

首頁 > AI資訊 > 最新資訊 > 擴散模型家族再添一員，最新ColdDiffusion不再依賴高斯噪聲

擴散模型家族再添一員，最新ColdDiffusion不再依賴高斯噪聲

新火種 2023-10-31

任意圖像變換方式都可生成。擴散模型或取代GAN？作者 | 王玥、李梅編輯 | 陳彩嫻

最近，Stability.Ai 公開發(fā)布了其文本生成圖像模型 Stable Diffusion 的最新版本，網(wǎng)友們的新一波圖像創(chuàng)作熱潮又開始了~

圖注：Stable Diffusion 生成圖像

前特斯拉 AI 總監(jiān) Andrej Karpathy 評論說：這是人類創(chuàng)造力具有歷史意義的一天，如此豐富的人類視覺創(chuàng)造力集中體現(xiàn)到了一個人人可觸及的產(chǎn)品中。

擴散模型家族再添一員，最新 Cold Diffusion 不再依賴高斯噪聲

從生成圖像的效果來看，Stable Diffusion 已經(jīng)是當(dāng)前最好的模型之一，而它背后的擴散模型（Diffusion Model）最近也備受關(guān)注，顯示出要取代 GAN 模型的勢頭。

其實，自從 2015 年擴散模型首次被提出以來，該領(lǐng)域本身已經(jīng)有非常多的研究，研究人員也提出不少變體。而日前，來自馬里蘭大學(xué)和紐約大學(xué)的團隊提出了近來最新的一種擴散模型：Cold Diffusion。

1
Diffusion model 再升華

目前業(yè)界出現(xiàn)的擴散模型變體層出不窮，但它們都有一個不變的核心：都是圍繞隨機噪聲去除這個概念建立的。

擴散模型的本質(zhì)，以及目前我們對擴散模型的理解，都與高斯噪聲在訓(xùn)練和生成過程中所起的作用高度相關(guān)。我們可以將「擴散」理解為使用 Langevin 動力學(xué)圍繞圖像密度函數(shù)的隨機移動，擴散的每一步都需要高斯噪聲。擴散始于「高溫」?fàn)顟B(tài)（即噪音很大的狀態(tài)），然后逐漸降溫到幾乎沒有噪音的「冷」?fàn)顟B(tài)。

而在這篇叫做“Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise”的最新論文中，作者提出了一個疑問：制作擴散模型的變體，是不是非得使用高斯噪聲不可？

論文地址：https://arxiv.org/pdf/2208.09392.pdf

通過多次嘗試，該研究團隊得出了答案：并不一定需要。

在這篇論文中，作者不再將擴散模型局限于「依賴高斯噪聲而建立」，而是提出了圍繞模糊（blurring）、下采樣（downsampling）等任意圖像變換方式建立的廣義擴散模型。由于不再有原先的「高溫」?fàn)顟B(tài)，這種全新廣義擴散模型也就被稱作為 Cold Diffusion。

過去標(biāo)準(zhǔn)的擴散模型有兩步工作流程：首先，用圖像退化算子（image degradation operator）使得圖像受到高斯噪聲的污染，其次用一個訓(xùn)練好的恢復(fù)算子（restoration operator）對圖像進行去噪，逆轉(zhuǎn)退化，從而得到一張新圖像。

圖注：傳統(tǒng)擴散模型的兩步工作流程

Cold Diffusion 繼承了這兩步工作流程，但又對之進行了升華式的修改。如下圖所示，在圖像退化再到逆轉(zhuǎn)退化的過程中，Cold Diffusion 研究團隊嘗試了使用噪聲、模糊、變形（Animorph）、遮罩（mask）、像素化（pixelate）、雪花等變換方式，且都得到了不錯的效果。

圖注：Cold Diffusion 使用不同圖像變換方式得到新圖像的工作流程

工作原理

對于已知圖像 x0，設(shè)圖像退化算子為D，執(zhí)行算子的次數(shù)為t。

對以往標(biāo)準(zhǔn)的擴散模型來說，其執(zhí)行圖像變換的前向過程，是由圖像退化算子 D 來對圖像添加高斯噪聲。添加0次時，D 應(yīng)滿足：

擴散模型家族再添一員，最新 Cold Diffusion 不再依賴高斯噪聲

添加t次時，則應(yīng)有：

擴散模型家族再添一員，最新 Cold Diffusion 不再依賴高斯噪聲

而在 Cold Diffusion 的模型設(shè)計中，D 可以用來執(zhí)行其他各種圖像變換方式，如模糊、變形、像素化、雪花等，其退化程度取決于t ——Cold Diffusion 的「升級」正體現(xiàn)在可以進行包括噪音在內(nèi)的多種圖像變換。

同時我們還需要一個能把xt“變回”圖像的恢復(fù)算子 R ，應(yīng)有：

擴散模型家族再添一員，最新 Cold Diffusion 不再依賴高斯噪聲

在有了圖像退化算子 D 和恢復(fù)算子 R 后，就可以借用擴散模型的標(biāo)準(zhǔn)方法對算子進行串聯(lián)使用，從而實現(xiàn)退化運算-逆轉(zhuǎn)退化的工作流程。如果退化運算的次數(shù) t 比較小（t ≈ 0），對 R 進行一次應(yīng)用就可以得到一幅恢復(fù)后的新圖像。

由于R通常只經(jīng)過了一個簡單的凸損失訓(xùn)練，當(dāng)執(zhí)行退化運算的次數(shù) t 很大時，生成的結(jié)果會很模糊。對此，作者團隊提出一個改進的 Cold Diffusion 采樣算法來生成高質(zhì)量圖像。

擴散模型家族再添一員，最新 Cold Diffusion 不再依賴高斯噪聲

變化無窮

這篇研究的重點就在于，作者觀察到，擴散模型的圖像生成并不完全依賴于高斯噪聲，我們也可以選擇其他圖像變換方式來生成新圖像。通過改變圖像變換方式，甚至可以構(gòu)建出整個生成模型家族。

以模糊為退化運算方式

基于噪聲的擴散模型中的前向擴散過程（即退化運算這一步）的優(yōu)點是，在最后一步 T 處的退化圖像分布只是一個各向同性的高斯分布。因此，我們可以首先從各向同性高斯分布中抽取樣本，然后通過反向擴散順序?qū)ζ溥M行去噪來執(zhí)行（無條件）生成。而選擇模糊這種退化運算時，完全退化的圖像不能形成我們可以抽樣的良好封閉式分布，但是可以形成一個足夠簡單的分布，可以用簡單的方法進行建模。

對于次數(shù)足夠大的 T，每個圖像 x0 都會降級為一個常數(shù) xT（即每個像素都是相同的顏色）。該常數(shù)值恰好是 RGB 圖像 x0 的通道平均值，可以表示為三維向量，并使用高斯混合模型 (Gaussian mixture model， GMM) 表示。通過對該 GMM 進行采樣，可以產(chǎn)生高度模糊圖像的隨機像素值，然后使用 cold diffusion 就可以進行去模糊化，從而創(chuàng)建新圖像。

另外，像素之間的對稱性會導(dǎo)致生成的圖像缺乏多樣性，為了打破同一管道像素的對稱性，作者向每個采樣的 xT 添加少量高斯噪聲，這個簡單的技巧極大地提高了生成圖像的豐富性。

圖注：對128 × 128 CelebA and AFHQ 數(shù)據(jù)集使用 cold diffusion 的模糊方式變換生成樣本示例

以其他圖像變換為退化運算方式

最后團隊進一步證明，除了模糊方式以外，cold diffusion 還可以擴展到其他變換，如修復(fù)、超分辨率和變形（animorphosis）方式上，且生成的圖像效果也都很好：

圖注：cold diffusion 的生成圖像。第一行使用變形方式變換，第二行使用修復(fù)方式變換，第三行使用超分辨率變換方式。

研究團隊給出了 CelebA 數(shù)據(jù)集上的結(jié)果，cold diffusion 在修復(fù)、超分辨率和變形方面的 FID 得分分別為90.14、92.91和48.51。（ FID，即 Rechet Inception Distance score，是用來計算真實圖像和生成圖像計算的特征向量之間距離的指標(biāo)。）

在訓(xùn)練和測試期間不需要高斯噪聲的 cold diffusion，突破了人們對擴散模型的原有理解，為新型生成模型打開了未來的大門。

2
Diffusion Model 時代來臨

這項研究因為提出了一種不同于傳統(tǒng)形式的擴散模型，而在近日登上了許多論文排行榜的熱門，同樣引起了熱議的，還有論文其中一位作者在推特上發(fā)起的討論：為什么擴散模型如此迅速地取代了 GAN？

擴散模型家族再添一員，最新 Cold Diffusion 不再依賴高斯噪聲

馬里蘭大學(xué)副教授 Tom Goldstein 解釋，擴散模型的優(yōu)點是它可以最小化凸回歸損失，所以 OpenAI 在開發(fā) DALLE 時直接拋棄了 GAN，而使用擴散模型來解決不穩(wěn)定的鞍點問題（saddle point problem）。

而且，他認(rèn)為，擴散模型的成功是新數(shù)學(xué)范式發(fā)揮其作用的一個例子，世界上所有的超參數(shù)調(diào)整都比不過幾行深思熟慮的數(shù)學(xué)公式。

要說今天的文本生成圖像領(lǐng)域已經(jīng)由擴散模型統(tǒng)治或許還不夠嚴(yán)謹(jǐn)，但 GAN 的一家獨大的確已經(jīng)成為歷史。歸根結(jié)底，誰的圖像生成質(zhì)量和穩(wěn)定性更好，誰才在越來越卷的生成模型界成為寵兒。這項工作提出的 Cold Diffusion，或許就會在不久之后為我們帶來一個新的、強大的文本生成圖像模型。

參考鏈接：

https://arxiv.org/pdf/2208.09392.pdf

更多內(nèi)容，點擊下方關(guān)注：掃碼添加 AI 科技評論微信號，投稿&進群： 擴散模型家族再添一員，最新 Cold Diffusion 不再依賴高斯噪聲

擴散模型家族再添一員，最新 Cold Diffusion 不再依賴高斯噪聲

Tags:

噪聲模型

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。交易和投資涉及高風(fēng)險，讀者在采取與本文內(nèi)容相關(guān)的任何行動之前，請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

擴散模型家族再添一員，最新ColdDiffusion不再依賴高斯噪聲

AI大模型加速落地，阿里云持續(xù)「滋養(yǎng)」

李彥宏數(shù)千萬元投資大模型創(chuàng)業(yè)公司鼓勵創(chuàng)業(yè)者堅持長期主義

英偉達JimFan：復(fù)刻NLP的成功路，用通用模型開啟具身智能的GPT-3時刻

百度千帆大模型平臺日均調(diào)用量超7億次

百度智能云：千帆大模型平臺日均調(diào)用量超7億次

熱門文章