首頁 > AI資訊 > 行業(yè)動(dòng)態(tài) > 騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

新火種    2024-11-06

3D生成開源界首個(gè)同時(shí)支持文字、圖像轉(zhuǎn)3D的模型來了,效果還是SOTA級(jí)別。

就在剛剛,騰訊宣布推出Hunyuan3D-1.0,一口氣開源輕量版和標(biāo)準(zhǔn)版兩個(gè)模型。

最快10秒就能端到端生成。

先生成6個(gè)多視角圖像,再進(jìn)行多視角重建,“啪”的一下360度無死角的3D資產(chǎn)就造出來了。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

無論是人物形象:

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

還是像下面這樣?jì)饍旱钠咸训葟?fù)雜結(jié)構(gòu)生成,細(xì)節(jié)都蠻不錯(cuò):

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

薄薄的楓葉也能完整生成:

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

鏤空雕刻花紋生成效果Belike:

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

實(shí)驗(yàn)中,Hunyuan3D-1.0定性定量評(píng)估均超越此前SOTA開源模型,推理性能提升很大,輕量版A100 GPU上生成時(shí)間約10秒,標(biāo)準(zhǔn)版約25秒。

目前Hunyuan3D-1.0模型權(quán)重、推理代碼、模型算法等,已全部開源。

新火種童鞋在發(fā)布現(xiàn)場(chǎng),還拿到了3D生成后直接拿來3D打印的小手辦~

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放多視圖生成、重建兩步煉成

技術(shù)實(shí)現(xiàn)上,騰訊混元團(tuán)隊(duì)發(fā)布了一份技術(shù)報(bào)告。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

Hunyuan3D-1.0模型架構(gòu)如下,采用多視圖生成、多視圖重建兩階段生成方法。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

對(duì)于輸入圖像,首先使用多視角擴(kuò)散模型在固定相機(jī)視角下合成6個(gè)新視角圖像,從不同的視角捕捉了3D資產(chǎn)豐富的紋理和幾何先驗(yàn),將3D生成任務(wù)從單視角重建轉(zhuǎn)化為難度更低的多視角重建任務(wù)。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

然后將生成的多視角圖像輸入基于Transformer的稀疏視角大規(guī)模重建模型。

利用上一階段生成的多視角圖像,重建模型學(xué)習(xí)處理多視角擴(kuò)散引入的噪聲和不一致性,并利用條件圖像中的可用信息高效恢復(fù)3D結(jié)構(gòu)。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

最終,該模型可以實(shí)現(xiàn)輸入任意單視角生成3D資產(chǎn)。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

具體來說,第一階段多視圖生成采用了自適應(yīng)CFG(classifer-free guidance),為不同視角和time steps設(shè)置不同的CFG尺度值。

在輸入視角的臨近視角CFG大,保證生成控制更強(qiáng),與輸入圖更接近;較遠(yuǎn)視角CFG小,生成diversity更大,保證生成圖像的真實(shí)性。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

另外,為了保證角度魯棒性、兼容任意輸入視角,渲染訓(xùn)練數(shù)據(jù)時(shí)候,渲染不同俯仰角作為輸入,輸出0°俯仰角的多視圖。

輸入任意視角圖像,生成環(huán)繞一圈的俯仰角elevation=0的6張圖,最大化多視圖間的可見區(qū)域,并通過attention保持多視角一致,為下一步的多視圖重建模型提供高一致性、高真實(shí)性的多視圖圖像。

在第二階段多視圖重建方面,Hunyuan3D-1.0結(jié)合了已校準(zhǔn)(生成的多視角圖像)和未校準(zhǔn)(用戶輸入)的混合輸入,通過專門的視角無關(guān)分支整合條件圖像信息,由此以提升生成圖像中的不可見部分精度。

圖像信息通過cross-attention注入triplane token中。

Hunyuan3D-1.0還通過線性層將特征平面的分辨率從64上采樣到256,使得特征表征更加細(xì)膩,生成物體細(xì)節(jié)更豐富。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

值得一提的是,Hunyuan3D-1.0還采用了Signed distance function(SDF)的隱式表示,最后通過Marching cube算法在三維空間進(jìn)行采樣查詢得到signed distance來輸出3D mesh,可以直接與3D管線結(jié)合。

拿下開源新SOTA

實(shí)驗(yàn)結(jié)果顯示,Hunyuan3D-1.0具有強(qiáng)大泛化能力和可控性,可重建各類尺度物體,大到建筑,小到工具花草。

在兩個(gè)公開3D數(shù)據(jù)集GSO、OmniObject3D上定量評(píng)估3D生成質(zhì)量,包括Chamfer Distance(CD)、F-score (FS)指標(biāo),Hunyuan3D-1.0表現(xiàn)總體最優(yōu)。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

定性評(píng)估方面,Hunyuan3D-1.0在幾何細(xì)節(jié)、紋理細(xì)節(jié)、紋理-幾何一致性、3D合理性、指令遵循等評(píng)價(jià)維度上,全面超越SOTA開源模型。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

用戶喜好打分結(jié)果如下:

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

Hunyuan3D-1.0在保證高質(zhì)量、多樣化生成之外,推理性能也大幅提升,顯著減少了3D資產(chǎn)生產(chǎn)的耗時(shí)。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放“3D生成技術(shù)今年已進(jìn)入快速發(fā)展階段”

推出Hunyuan3D-1.0的同時(shí),騰訊混元3D大模型也正在落地應(yīng)用中——

據(jù)了解,騰訊地圖目前就已基于騰訊混元3D大模型,發(fā)布了自定義3D導(dǎo)航車標(biāo)功能,支持用戶創(chuàng)作個(gè)性化的3D導(dǎo)航車標(biāo)。

騰訊元寶APP也上線了“3D角色夢(mèng)工廠”,支持個(gè)性化的UGC 3D人物生成。

騰訊3D大模型全面開源,文本圖像10秒轉(zhuǎn)3D資產(chǎn),模型權(quán)重、推理代碼全開放

今年3D賽道實(shí)屬火炎焱。

國內(nèi)有VAST、AVAR AI等,初創(chuàng)公司多來自全球知名高校和科研機(jī)構(gòu);國外有AI教母李飛飛首次創(chuàng)業(yè)成立的空間智能公司W(wǎng)orld Labs,也著眼于3D生成世界,宣布長期目標(biāo)是構(gòu)建大世界模型(LWM)來感知、生成3D世界并與之交互。

鵝廠這波開源操作,無疑是把大伙兒玩3D模型的門檻又打下來了。

正如騰訊混元3D負(fù)責(zé)人郭春超所說:

官網(wǎng)地址:https://3d.hunyuan.tencent.com/

Tags:
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章