首頁 > AI資訊 > 行業(yè)動態(tài) > 效果媲美GPT4o!騰訊混元開源角色定制化圖像生成插件

效果媲美GPT4o!騰訊混元開源角色定制化圖像生成插件

新火種    2025-04-18

4月18日消息,今日,騰訊混元宣布開源定制化圖像生成件InstantCharacter,并實現(xiàn)了對開源文生圖模型Flux的兼容。

通過該插件,在大模型中,只需要一張圖加一句話,就能讓任何角色以你想要的姿勢出現(xiàn)在任何地方。

據(jù)介紹,InstantCharacter的優(yōu)勢在于可以確保角色在不同場景中的一致性和真實性、畫質(zhì)和精度高,同時具有靈活的文本編輯性,用戶可以根據(jù)需要靈活切換任意場景,讓人物生成任意動作。

因此,內(nèi)容創(chuàng)作者能通過這一插件讓生成的角色保持高度一致,能夠更高效地創(chuàng)作出符合其需求的視覺作品,可以用于連環(huán)畫、影片創(chuàng)作等場景。

輸入以下原始圖片:

效果媲美GPT 4o!騰訊混元開源角色定制化圖像生成插件

+ prompt :a rabbit is in the kitchen holding a spoon and drinking soup,就能得到下面的圖:

效果媲美GPT 4o!騰訊混元開源角色定制化圖像生成插件

+prompt:a rabbit in the city,cyberpunk,就可以得到:

效果媲美GPT 4o!騰訊混元開源角色定制化圖像生成插件

實際的測評中,開源的InstantCharacter實現(xiàn)的效果媲美GPT 4o等業(yè)界領(lǐng)先模型。

效果媲美GPT 4o!騰訊混元開源角色定制化圖像生成插件

效果媲美GPT 4o!騰訊混元開源角色定制化圖像生成插件

騰訊混元表示,現(xiàn)有基于學(xué)習(xí)的方法主要依賴于U-Net架構(gòu),但在泛化能力和圖像質(zhì)量上存在局限性,而基于優(yōu)化的方法則需要針對特定主體進(jìn)行微調(diào),這不可避免地降低了文本可控性。

為解決這些問題,InstantCharacter利用DiT模型構(gòu)建了一個創(chuàng)新的框架。

框架引入一個可擴展的適配器(adapter),采用多個transformer encoder,能有效處理開放域的角色特征,并與現(xiàn)代擴散變換器的潛在空間無縫交互,這種設(shè)計使得系統(tǒng)能夠靈活適應(yīng)不同的角色特征。


Tags:
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章