国产伦理精品一期二期三期,久久国产亚洲视频,国产手机在线亚洲精品观看

首頁 > AI資訊 > 行業(yè)動(dòng)態(tài) > 騰訊3D大模型全面開源，文本圖像10秒轉(zhuǎn)3D資產(chǎn)，模型權(quán)重、推理代碼全開放

騰訊3D大模型全面開源，文本圖像10秒轉(zhuǎn)3D資產(chǎn)，模型權(quán)重、推理代碼全開放

新火種 2024-11-06

3D生成開源界首個(gè)同時(shí)支持文字、圖像轉(zhuǎn)3D的模型來了，效果還是SOTA級(jí)別。

就在剛剛，騰訊宣布推出Hunyuan3D-1.0，一口氣開源輕量版和標(biāo)準(zhǔn)版兩個(gè)模型。

最快10秒就能端到端生成。

先生成6個(gè)多視角圖像，再進(jìn)行多視角重建，“啪”的一下360度無死角的3D資產(chǎn)就造出來了。

騰訊3D大模型全面開源，文本圖像10秒轉(zhuǎn)3D資產(chǎn)，模型權(quán)重、推理代碼全開放

無論是人物形象：

還是像下面這樣?jì)饍旱钠咸训葟?fù)雜結(jié)構(gòu)生成，細(xì)節(jié)都蠻不錯(cuò)：

薄薄的楓葉也能完整生成：

鏤空雕刻花紋生成效果Belike：

實(shí)驗(yàn)中，Hunyuan3D-1.0定性定量評(píng)估均超越此前SOTA開源模型，推理性能提升很大，輕量版A100 GPU上生成時(shí)間約10秒，標(biāo)準(zhǔn)版約25秒。

目前Hunyuan3D-1.0模型權(quán)重、推理代碼、模型算法等，已全部開源。

新火種童鞋在發(fā)布現(xiàn)場(chǎng)，還拿到了3D生成后直接拿來3D打印的小手辦～

多視圖生成、重建兩步煉成

技術(shù)實(shí)現(xiàn)上，騰訊混元團(tuán)隊(duì)發(fā)布了一份技術(shù)報(bào)告。

Hunyuan3D-1.0模型架構(gòu)如下，采用多視圖生成、多視圖重建兩階段生成方法。

對(duì)于輸入圖像，首先使用多視角擴(kuò)散模型在固定相機(jī)視角下合成6個(gè)新視角圖像，從不同的視角捕捉了3D資產(chǎn)豐富的紋理和幾何先驗(yàn)，將3D生成任務(wù)從單視角重建轉(zhuǎn)化為難度更低的多視角重建任務(wù)。

然后將生成的多視角圖像輸入基于Transformer的稀疏視角大規(guī)模重建模型。

利用上一階段生成的多視角圖像，重建模型學(xué)習(xí)處理多視角擴(kuò)散引入的噪聲和不一致性，并利用條件圖像中的可用信息高效恢復(fù)3D結(jié)構(gòu)。

最終，該模型可以實(shí)現(xiàn)輸入任意單視角生成3D資產(chǎn)。

具體來說，第一階段多視圖生成采用了自適應(yīng)CFG（classifer-free guidance），為不同視角和time steps設(shè)置不同的CFG尺度值。

在輸入視角的臨近視角CFG大，保證生成控制更強(qiáng)，與輸入圖更接近；較遠(yuǎn)視角CFG小，生成diversity更大，保證生成圖像的真實(shí)性。

另外，為了保證角度魯棒性、兼容任意輸入視角，渲染訓(xùn)練數(shù)據(jù)時(shí)候，渲染不同俯仰角作為輸入，輸出0°俯仰角的多視圖。

輸入任意視角圖像，生成環(huán)繞一圈的俯仰角elevation=0的6張圖，最大化多視圖間的可見區(qū)域，并通過attention保持多視角一致，為下一步的多視圖重建模型提供高一致性、高真實(shí)性的多視圖圖像。

在第二階段多視圖重建方面，Hunyuan3D-1.0結(jié)合了已校準(zhǔn)（生成的多視角圖像）和未校準(zhǔn)（用戶輸入）的混合輸入，通過專門的視角無關(guān)分支整合條件圖像信息，由此以提升生成圖像中的不可見部分精度。

圖像信息通過cross-attention注入triplane token中。

Hunyuan3D-1.0還通過線性層將特征平面的分辨率從64上采樣到256，使得特征表征更加細(xì)膩，生成物體細(xì)節(jié)更豐富。

值得一提的是，Hunyuan3D-1.0還采用了Signed distance function（SDF）的隱式表示，最后通過Marching cube算法在三維空間進(jìn)行采樣查詢得到signed distance來輸出3D mesh，可以直接與3D管線結(jié)合。

拿下開源新SOTA

實(shí)驗(yàn)結(jié)果顯示，Hunyuan3D-1.0具有強(qiáng)大泛化能力和可控性，可重建各類尺度物體，大到建筑，小到工具花草。

在兩個(gè)公開3D數(shù)據(jù)集GSO、OmniObject3D上定量評(píng)估3D生成質(zhì)量，包括Chamfer Distance（CD）、F-score （FS）指標(biāo)，Hunyuan3D-1.0表現(xiàn)總體最優(yōu)。

定性評(píng)估方面，Hunyuan3D-1.0在幾何細(xì)節(jié)、紋理細(xì)節(jié)、紋理-幾何一致性、3D合理性、指令遵循等評(píng)價(jià)維度上，全面超越SOTA開源模型。

用戶喜好打分結(jié)果如下：

Hunyuan3D-1.0在保證高質(zhì)量、多樣化生成之外，推理性能也大幅提升，顯著減少了3D資產(chǎn)生產(chǎn)的耗時(shí)。

“3D生成技術(shù)今年已進(jìn)入快速發(fā)展階段”

推出Hunyuan3D-1.0的同時(shí)，騰訊混元3D大模型也正在落地應(yīng)用中——

據(jù)了解，騰訊地圖目前就已基于騰訊混元3D大模型，發(fā)布了自定義3D導(dǎo)航車標(biāo)功能，支持用戶創(chuàng)作個(gè)性化的3D導(dǎo)航車標(biāo)。

騰訊元寶APP也上線了“3D角色夢(mèng)工廠”，支持個(gè)性化的UGC 3D人物生成。

今年3D賽道實(shí)屬火炎焱。

國內(nèi)有VAST、AVAR AI等，初創(chuàng)公司多來自全球知名高校和科研機(jī)構(gòu)；國外有AI教母李飛飛首次創(chuàng)業(yè)成立的空間智能公司W(wǎng)orld Labs，也著眼于3D生成世界，宣布長期目標(biāo)是構(gòu)建大世界模型（LWM）來感知、生成3D世界并與之交互。

鵝廠這波開源操作，無疑是把大伙兒玩3D模型的門檻又打下來了。

正如騰訊混元3D負(fù)責(zé)人郭春超所說：

官網(wǎng)地址：https://3d.hunyuan.tencent.com/

Tags:

模型全開

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

騰訊3D大模型全面開源，文本圖像10秒轉(zhuǎn)3D資產(chǎn)，模型權(quán)重、推理代碼全開放

騰訊3D大模型全面開源，文本圖像10秒轉(zhuǎn)3D資產(chǎn)，模型權(quán)重、推理代碼全開放

騰訊發(fā)布開源MoE大語言模型Hunyuan-large：總參數(shù)398B為業(yè)內(nèi)最大

騰訊混元宣布大語言模型和3D模型正式開源

大模型玩你畫我猜：Claude6局3勝，GPT-4o表現(xiàn)迷惑

全自主知識(shí)產(chǎn)權(quán)！華為、華西醫(yī)院共同發(fā)布“華西黌醫(yī)”醫(yī)學(xué)大模型

熱門文章