「開源版GPT-4o」來了!這個17B國產(chǎn)模型生圖效果比肩4o,還可商用
前段時間,GPT-4o 火出了圈,其斷崖式提升的生圖、改圖能力讓每個人都想嘗試一下。雖然 OpenAI 后來宣布免費用戶也可以用,但出圖慢、次數(shù)受限仍然困擾著沒有訂閱 ChatGPT 的普通人。
那除了 GPT-4o,我們還有沒有其他選擇呢?去 Artificial Analysis 的文生圖大模型競技場找一下就知道了。
在這個競技場上,我們發(fā)現(xiàn)前段時間排到第二名的模型 —— 擁有 17B 參數(shù)的 HiDream-I1 和 GPT-4o 得分很接近。

AI 基準(zhǔn)測試和分析平臺 Artificial Analysis 發(fā)推宣布 HiDream-I1 成為文生圖開源模型新 SOTA。這個平臺采用競技場模式來評估模型,即同時給兩張不同模型生成的圖像,讓人類從中選出和 prompt 最貼合的。
值得一提的是,這個模型在上線的 24 小時之內(nèi)就登頂了 Artificial Analysis 競技場榜首,也是首個登頂該榜單的中國自研生成式 AI 模型。
通過一些對比圖可以看到,HiDream-I1 的生成效果似乎不輸 GPT-4o,比之前「把 Midjourney 打下神壇」的 FLUX1.1 [pro] 效果還要好。重點是,這三個模型里,只有 HiDream-I1 是開源的,而且是允許商用的那種開源(MIT 協(xié)議)。


HiDream-I1 模型:https://huggingface.co/HiDream-ai/HiDream-I1-Full
HiDream-I1 代碼:https://github.com/HiDream-ai/HiDream-I1
而且,開源這個模型的國內(nèi)公司 —— 智象未來剛剛宣布,他們即將開源的另一個模型 ——HiDream-E1 還支持交互式圖像編輯,可以像 GPT-4o 那樣把你提供的圖修改為任意風(fēng)格、任意內(nèi)容。二者合在一起,實現(xiàn)了類似于 GPT-4o 圖像生成和編輯的「言出法隨」效果,填補了「開源版 GPT-4o」的空白。

HiDream-E1 的圖像編輯效果,模型將于近期開源。
那么,HiDream-I1 的效果究竟好在哪兒?我們可以多看一些案例詳細分析。
HiDream-I1 生圖效果如何?
GPT-4o、FLux 之所以能夠走紅,其生成畫面的真實感、細膩度和遵循指令的能力起到了重要作用。
為了測試 HiDream-I1 能不能擔(dān)得起「開源版 GPT-4o」這個稱號,我們參考前段時間 OpenAI 官宣 GPT-4o 新能力時發(fā)布的一些 prompt 測試了一下。

GPT-4o 博客中給到的生成案例與 prompt。
HiDream-I1 生成的結(jié)果如下:

提示詞:寫實的照片,一匹馬從右到左奔馳在一個巨大的,平靜的海面上,準(zhǔn)確地描繪了濺起的水花,反射,和馬蹄下微妙的漣漪圖案??鋸堮R的動作,但其他一切都應(yīng)該是靜止的,安靜的,以顯示與馬的力量形成對比。干凈的構(gòu)圖,電影般的。廣闊的全景構(gòu)圖,展示遠處的地平線。大氣透視創(chuàng)造深度。放大后的馬與浩瀚的海洋相比顯得微不足道。
提示詞:真實水果與微型行星(木星、土星、、地球)混合而成的果盤照片,保持真實的反射、光照、陰影與原圖一致,構(gòu)圖干凈,紋理真實,細節(jié)渲染清晰
提示詞:一個真實的水下場景,海豚從一輛廢棄的地鐵車廂的窗戶游進來,氣泡和水流的細節(jié)被精確地模擬出來。

提示詞:這是一張狗仔隊風(fēng)格的偷拍照片,卡爾?馬克思匆忙穿過美國購物中心的停車場,他帶著驚訝的表情瞥了一眼,試圖避免被拍到。他手里拿著幾個锃亮的購物袋,里面裝滿了奢侈品。他的外套在風(fēng)中飄動,其中一個包在搖擺,好像他正在大步前進。模糊的背景與汽車和發(fā)光的商場入口,以強調(diào)運動。相機發(fā)出的閃光部分過度曝光了圖像,給人一種混亂的小報感。
整體上看,HiDream-I1 生成的圖在真實感、細膩度上和 GPT-4o 是非常接近的,有時還能更勝一籌。在和 Flux 相比時,這個特點更加明顯。
比如在下面這個例子中,HiDream-I1 生成的圖像具有更多精細的元素,包括紋理、背景細節(jié)以及物體之間的層次感(貓毛在光的照耀下根根分明,給人一種強烈的生機感;咖啡壺的不銹鋼材質(zhì)恰到好處地反射光線,呈現(xiàn)出真實的質(zhì)感)。相比之下,F(xiàn)lux 雖然也能生成具有良好細節(jié)的圖像,但在細節(jié)材質(zhì)上不如 HiDream-I1 細膩豐富。

提示詞:一只可愛的橙色貓咪坐在咖啡研磨機旁,用爪子慢吞吞地轉(zhuǎn)動著研磨機的把手。貓咪專注的表情和溫柔的咕嚕聲在舒適寧靜的廚房里被捕捉到。柔和、溫暖的光線透過窗戶,在貓和磨床上投射出柔和的光芒,增強了寧靜的氛圍。這一場景以寫實的風(fēng)格呈現(xiàn),強調(diào)平靜和親密。
在色彩的呈現(xiàn)上,HiDream-I1 的表現(xiàn)也更出色,能夠生成層次分明、色調(diào)多樣的圖像(仔細看下圖中狼的臉部毛發(fā),HiDream-I1、GPT-4o 的顏色層次都更豐富)。Flux 的色彩使用雖然也相當(dāng)豐富,但在某些場景下,色彩的搭配和過渡顯得較為單一,缺乏一定的飽和度和層次感。

提示詞:一只穿著音樂家燕尾服的 3D 狼。像人一樣兩條腿直立站著,拿著吉他,周圍是放大器和舞臺,這里散發(fā)著藝術(shù)和優(yōu)雅的氣息。
此外,這種真實感、細膩感還來自模型對客觀規(guī)律的理解。從下圖可以看出,HiDream-I1 對客觀規(guī)律的理解較為精確。無論是物體的擺放、人物的動作姿勢,還是環(huán)境中的光影效果,HiDream-I1 都能展現(xiàn)出符合現(xiàn)實世界的自然規(guī)律。而 Flux 則在這方面存在一定局限,特別是在處理動態(tài)場景和復(fù)雜物理互動時,模型的表現(xiàn)不夠真實,常常出現(xiàn)不符合物理定律的情況。

提示詞:一只穿著音樂家燕尾服的 3D 貓,兩條腿直立,拿著小提琴,周圍是旋轉(zhuǎn)的音符和大鋼琴,散發(fā)著藝術(shù)和優(yōu)雅的氛圍,聚光燈照亮了現(xiàn)場,創(chuàng)造了一個戲劇性和精致的環(huán)境。
即使是遇到復(fù)雜的提示詞,這些特點依然能夠在 HiDream-I1 生成的圖中得到保留。這是模型復(fù)雜文本理解、遵循能力的體現(xiàn)。

HiDream-I1 生成的圖像。提示詞:中世紀(jì)城堡的石砌城墻,身披鎧甲的戰(zhàn)士面向鏡頭,躍動的火焰在他身后勾勒出粗獷的面部輪廓。隨風(fēng)濺落在生銹的鎖子甲上,右手不自覺地握緊腰間劍柄,深褐色的斗篷在熱浪中劇烈翻卷。燃燒的箭矢在遠處塔樓持續(xù)墜落,橙紅火光與靛藍夜空形成強烈對比,照亮了城墻垛口剝落的青苔和戰(zhàn)士眉骨處的陳舊傷疤。
在各項基準(zhǔn)測試數(shù)據(jù)中,以上視覺效果得到了印證:
首先是 HPSv2.1,這是一個基于人類偏好選擇數(shù)據(jù)集訓(xùn)練的偏好預(yù)測模型,能夠?qū)ν惶崾鞠庐a(chǎn)生的不同圖像進行評分比較。在這個基準(zhǔn)上,HiDream-I1 在多種風(fēng)格(如動漫、概念藝術(shù)、繪畫和真實攝影)上達到最優(yōu)。這說明,HiDream-I1 生成的各種風(fēng)格圖像都更符合人類審美。
其次是 GenEval 和 DPG-Bench,前者通過檢測對象和顏色分類來驗證生成圖像與文本提示之間的匹配程度,后者專注于檢測生成圖像中的多個對象、詳細屬性和復(fù)雜關(guān)系(當(dāng)提示又長又復(fù)雜的時候適合用這個基準(zhǔn)評測)。在這兩個基準(zhǔn)上,HiDream-I1 都達到了最優(yōu)。這說明,HiDream-I1 的指令遵循能力很強。

HiDream-I1 在 HPSv2.1 上的得分?jǐn)?shù)據(jù)。

HiDream-I1 在 GenEval 上的得分?jǐn)?shù)據(jù)。

HiDream-I1 在 DPG-Bench 上的得分?jǐn)?shù)據(jù)。
為了提升生圖效果 智象未來做了哪些技術(shù)改進?
強大的指令遵循能力和逼真、細膩的生成效果本質(zhì)上都要歸功于技術(shù)改進。
為了提高模型理解文本的能力,HiDream-I1 采用了新的被稱為「Sparse Diffusion Transformer(Sparse DiT)」的架構(gòu)設(shè)計。這個架構(gòu)在 DiT 框架下融合了 Sparse Mixture-of-Expert (MoE)技術(shù),讓不同的專家模型處理不同類型的文本輸入,各有專精。
同時,這個架構(gòu)設(shè)計還帶來了一個額外的好處 —— 在提高模型性能的同時控制運算開銷,使得 HiDream-I1 用起來性價比很高。對于關(guān)注開源模型算力消耗的個人開發(fā)者、創(chuàng)業(yè)公司來說,這是一個很有用的優(yōu)化。

HiDream-I1 模型架構(gòu)圖。
圖像質(zhì)量的提升則要歸功于研究者在擴散模型蒸餾中融入生成對抗學(xué)習(xí),借助 GAN 捕捉細節(jié)、銳化邊緣的能力,在蒸餾擴散模型的同時進一步提升了生成圖像的真實感和清晰度,實現(xiàn)速度與質(zhì)量的雙重優(yōu)化。
值得一提的是,這樣訓(xùn)練出來的 HiDream-I1 具有很強的可擴展性。所以在模型訓(xùn)練出來后不久,智象未來就將其擴展到了交互式圖像編輯大模型 HiDream-E1,讓圖像編輯場景也有了「開源版 GPT-4o」可用。
HiDream 系列模型開源 影響力已初步彰顯
無論從實測效果還是基準(zhǔn)測試結(jié)果來看,智象未來的 HiDream-I1 都已經(jīng)非常接近 GPT-4o,站穩(wěn)了國內(nèi)圖像生成第一梯隊。
而且,由于模型是開源的,其國際影響力也在逐步顯現(xiàn)。在開源后兩天,文生圖大模型競技場上的另一家模型公司 ——Recraft AI 就宣布,他們已經(jīng)集成了 HiDream-I1,還手把手教網(wǎng)友怎么選用這個模型。


在 HuggingFace Trending 榜單上,HiDream-I1 飆升到了第二名。這說明 HiDream-I1 的下載量、點贊數(shù)都很可觀,在社區(qū)中非常受歡迎。

當(dāng)然,沒有本地部署需求的朋友也可以在智象未來的官方平臺 Vivago 上體驗 HiDream-I1。該平臺上有更完整的工作流,支持在生成圖像的基礎(chǔ)上進行視頻制作等二次創(chuàng)作。
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。