色图视频,亚洲国产精品网站,成人免费视频大全

首頁 > AI資訊 > 行業動態 > OpenAI開源全新解碼器，極大提升StableDiffusion性能

OpenAI開源全新解碼器，極大提升StableDiffusion性能

新火種 2023-11-09

原文來源：AIGC開放社區

圖片來源：由無界 AI生成

在11月7日OpenAI的首屆開發者大會上，除了推出一系列重磅產品之外，還開源了兩款產品，全新解碼器Consistency Decoder（一致性解碼器）和最新語音識別模型Whisper v3。

據悉，Consistency Decoder可以替代Stable Diffusion VAE解碼器。該解碼器可以改善所有與Stable Diffusion 1.0+ VAE兼容的圖像，尤其是在文本、面部和直線方面有大幅度提升。僅上線一天的時間，在Github就收到1100顆星。

Whisper large-v3是OpenAI之前開源的whisper模型的最新版本，在各種語言上的性能都有顯著提升。OpenAI會在未來的API計劃中提供Whisper v3。

解碼器地址：https://github.com/openai/consistencydecoder

Whisper v3地址：https://github.com/openai/whisper

Consistency Decoder效果展示

Consistency Decoder算是OpenAI“一致性”家族里的新成員，所以，「AIGC開放社區」想為大家介紹一下OpenAI之前開源的另一個創新模型——Consistency Models。

擴散模型的出現極大推動了文生圖片、視頻、音頻等領域的發展，涌現了GAN、VAE等知名模型。但是這些模型在推理的過程中，過于依賴迭代采樣過程，導致生成效率非常緩慢或生成圖片質量太差。

OpenAI為了突破這個技術瓶頸，提出了Consistency Models（一致性模型）框架并將其開源。該技術的最大優勢是支持單步高質量生成,同時保留迭代生成的優點。簡單來說，可以使文生圖模型在推理的過程中又快又準攻守兼備。

此外，Consistency Models可以通過提取預先訓練的擴散模型來使用，也可以作為獨立的生成模型來訓練，兼容性強且靈活。

開源地址：https://github.com/openai/consistency_models

論文：https://arxiv.org/abs/2303.01469

為了讓大家更好的理解Consistency Models技術特點，「AIGC開放社區」先簡單的介紹一下擴散模型的原理。

什么是擴散模型

擴散模型主要通過模擬擴散過程來生成數據，核心技術是將數據看作是由一個簡單的隨機過程（例如，高斯白噪聲）經過一系列平滑變換得到的結果。

擴散模型主要由正向過程和反向過程兩大塊組成。正向過程（擴散過程）：首先將原始數據通過添加噪聲逐漸擴散，直到變成無法識別的噪聲。

具體來說，每一步都會添加一點噪聲，噪聲的強度通常會隨著步驟的進行而增大。這個過程可以用一個隨機微分方程來描述。

反向過程（去噪聲過程）：然后使用一個學習到的模型從噪聲數據中重建原始數據。

這個過程通常通過優化一個目標函數來進行，目標是讓重建的數據與原始數據盡可能相似。

Consistency Models簡單介紹

Consistency Models受擴散模型技術思路啟發，直接將噪聲映射到數據分布,無需迭代過程直接生成高質量圖像。實驗證明，如果模型輸出在同一軌跡上的點保持一致,可以有效學習此映射。

簡單來說，Consistency Models直接放棄了逐步去噪過程,而是直接學習把隨機的噪聲映射到復雜的圖像上，同時加上了一致性的規則約束，避免生成的圖像出現“驢唇不對馬嘴”的情況。

說的更直白一點，我們如果要做一道麻婆豆腐，需要先切豆腐、配菜，然后放在馬勺里進行大火翻炒，再放上調料最后出鍋。

而Consistency Models的方法是直接就變出一盤麻婆豆腐，省去了所有制作流程，并且口味、菜品都是按照用戶標準來的，這就是該技術的神奇之處。

基于上述技術概念，OpenAI的研究人員使用了知識蒸餾和直接訓練兩種方法來訓練Consistency Models。

知識蒸餾：使用一個預先訓練好的擴散模型（如Diffusion）,生成一些數據對,然后訓練Consistency Models時讓這些數據對的輸出盡可能接近,來跟擴散模型進行知識蒸餾。

直接訓練法:直接從訓練集樣本中學習數據到噪聲的映射,不需要依賴預訓練模型。主要是加入噪聲進行數據增強,然后優化增強前后的輸出一致性。

實驗數據

研究人員在多個圖像數據集上測試了Consistency Models,包括CIFAR-10、ImageNet 64x64和LSUN 256x256。

結果表明,知識蒸餾訓練的Consistency Models效果最好,在所有數據集和步數下均優于現有最好的蒸餾技術Progressive Distillation。

例如,在CIFAR-10上,單步生成達到新記錄的FID 3.55,兩步生成達到2.93;在ImageNet 64x64上,單步生成FID為6.20,兩步生成為4.70,均刷新記錄。

直接訓練方式下,Consistency Models也顯示出強大的能力，在CIFAR-10上打敗了大多數單步生成模型,質量接近Progressive Distillation。

此外,該模型支持進行零樣本圖像編輯,可實現圖像去噪、插值、上色、超分辨率生成、筆觸生成等多種任務,而無需專門訓練。

Tags:

OpenAI 解碼器

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

OpenAI開源全新解碼器，極大提升StableDiffusion性能

什么是擴散模型

Consistency Models簡單介紹

實驗數據

估值飆升到千億美元！OpenAI拿什么去支撐這驚人身價？

ChatGPT架構師突然離職！OpenAI為什么總留不住大佬和高手？

GPT-4o mini突然上線！該換小模型賽道的OpenAI意欲何為？

微軟和蘋果放棄OpenAI董事會觀察員席位

OpenAI的CEO又有新動作？這次他成立了AI健康公司

熱門文章