首頁(yè) > AI資訊 > 最新資訊 > 新壹科技李璋:垂直大模型為數(shù)字人帶來(lái)全新路徑

新壹科技李璋:垂直大模型為數(shù)字人帶來(lái)全新路徑

新火種    2024-12-11

近日,2024中國(guó)生成式AI大會(huì)在上海落下帷幕。作為AI視頻生成賽道前沿技術(shù)專(zhuān)家,新壹科技AI算法主任架構(gòu)師李璋受邀參會(huì),發(fā)表了以《視頻垂直大模型在智能數(shù)字人中的應(yīng)用》為主題的精彩演講,介紹了新壹科技在AI領(lǐng)域的最新研究成果,并結(jié)合典型應(yīng)用案例及場(chǎng)景,展示了公司在數(shù)字人和視頻生成方面的技術(shù)和實(shí)踐,引發(fā)了與會(huì)人士的廣泛關(guān)注與討論。

新壹科技AI算法主任架構(gòu)師李璋在活動(dòng)現(xiàn)場(chǎng)分享

自年初Sora問(wèn)世以來(lái),AI視頻生成領(lǐng)域風(fēng)起云涌。適值年末,從學(xué)術(shù)界到應(yīng)用端,都在致力于不斷分解AI視頻生成賽道尚未解決的問(wèn)題,以期為視頻生成大模型及應(yīng)用產(chǎn)品帶來(lái)更優(yōu)質(zhì)的體驗(yàn)。

作為國(guó)內(nèi)首個(gè)視頻垂直大模型“新壹視頻大模型”團(tuán)隊(duì)的核心成員,李璋亦從他的視角帶來(lái)了分享:

新壹科技AI算法主任架構(gòu)師分析數(shù)字人

新壹科技的AI轉(zhuǎn)型之旅

演講伊始,李璋首先介紹了新壹科技的發(fā)展歷程及在AI方向的主要業(yè)務(wù)布局。他提到,新壹科技的前身一下科技在移動(dòng)視頻、視頻推薦方面有很深積累。隨著AI技術(shù)的飛速發(fā)展,公司逐漸將重心轉(zhuǎn)向AI領(lǐng)域,并聚焦于視頻生成賽道。

在轉(zhuǎn)型過(guò)程中,新壹科技不斷探索和實(shí)踐,逐漸形成了自己的核心技術(shù)優(yōu)勢(shì)。李璋表示,公司目前主要集中在數(shù)字人和視頻生成兩大領(lǐng)域,致力于通過(guò)AI技術(shù)為用戶(hù)帶來(lái)更加豐富、生動(dòng)的交互體驗(yàn)。

由泛至專(zhuān) 從通用大模型到垂直大模型

隨著大模型的普及和應(yīng)用,其參數(shù)量不斷增大,導(dǎo)致部署和訓(xùn)練成本也隨之上升。這對(duì)于很多非大廠公司來(lái)說(shuō),無(wú)疑是一種挑戰(zhàn),垂直大模型或是未來(lái)AI發(fā)展彎道超車(chē)的重要方向。

與通用大模型相比,垂直大模型更加專(zhuān)注于特定領(lǐng)域應(yīng)用,如視頻生成、數(shù)字人等。新壹科技在垂直大模型的研發(fā)和應(yīng)用方面取得了顯著成果,這樣在保留大模型強(qiáng)大能力的同時(shí),降低部署和訓(xùn)練成本,使得更多公司能夠享受到AI技術(shù)帶來(lái)的紅利。

視頻生成大幅提升垂直領(lǐng)域新質(zhì)生產(chǎn)力

2023年,新壹科技成功推出了國(guó)內(nèi)首款專(zhuān)注于視頻生成的大模型——新壹視頻大模型。該模型在數(shù)字人動(dòng)作、表情和視頻質(zhì)量方面進(jìn)行了全面優(yōu)化,也給用戶(hù)帶來(lái)了更加逼真、生動(dòng)的視頻體驗(yàn)。

據(jù)李璋介紹,新壹科技在視頻生成大模型的研發(fā)過(guò)程中,攻克了多項(xiàng)技術(shù)難題。例如,在數(shù)字人動(dòng)作模擬方面,公司采用了先進(jìn)的動(dòng)作捕捉技術(shù)和深度學(xué)習(xí)算法,使得生成的視頻中人物動(dòng)作更加自然流暢;在表情遷移方面,通過(guò)生成式對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)表情的精準(zhǔn)遷移,讓數(shù)字人也能展現(xiàn)出更擬人化的豐富多樣情感。

此外,新壹科技還積極推動(dòng)視頻生成大模型在各個(gè)領(lǐng)域的應(yīng)用。目前圍繞新壹視頻大模型的產(chǎn)品及應(yīng)用平臺(tái),已擁有超300萬(wàn)用戶(hù),每天生成超15萬(wàn)分鐘視頻,客戶(hù)覆蓋保險(xiǎn)金融、媒體營(yíng)銷(xiāo)、出版、政務(wù)、汽車(chē)、醫(yī)療和教育等多個(gè)領(lǐng)域,大幅提升了各垂直領(lǐng)域的創(chuàng)造和生產(chǎn)力。

垂直大模型為數(shù)字人提供全新路徑

在生成式AI技術(shù)蓬勃發(fā)展的背景下,智能數(shù)字人已成為內(nèi)容創(chuàng)作、虛擬助手和人機(jī)交互等領(lǐng)域的重要應(yīng)用之一。然而,傳統(tǒng)生成模型在高精度、多模態(tài)的智能數(shù)字人生成中仍面臨諸多挑戰(zhàn)。不過(guò),垂直領(lǐng)域的大模型提供了一條全新路徑。

李璋詳細(xì)介紹了新壹科技的AI數(shù)字人產(chǎn)品架構(gòu):即底層能力部分接入大語(yǔ)言模型,支持自然語(yǔ)言理解和生成,使得數(shù)字人能夠與用戶(hù)進(jìn)行流暢對(duì)話(huà)交流,理解用戶(hù)需求并給出相應(yīng)回應(yīng)。同時(shí),底層能力還支持聲音克隆和多種數(shù)字人形象(如實(shí)人、卡通、3D等),為用戶(hù)提供更加豐富的選擇。

中間層則負(fù)責(zé)處理各種復(fù)雜的AI任務(wù),如人臉關(guān)鍵點(diǎn)檢測(cè)、表情遷移和風(fēng)格遷移等。通過(guò)先進(jìn)的算法和技術(shù)手段,中間層能夠確保數(shù)字人在各種場(chǎng)景下都能展現(xiàn)出逼真的表情和動(dòng)作。

應(yīng)用層則支持多端交互,新壹科技已推出與百大劇院合作的一體機(jī)交互系統(tǒng)。用戶(hù)可以通過(guò)手機(jī)、電腦等多種設(shè)備與數(shù)字人進(jìn)行互動(dòng),感受科技帶來(lái)的魅力;一體機(jī)交互系統(tǒng)則為用戶(hù)提供了更沉浸式的體驗(yàn),讓用戶(hù)仿佛置身于一個(gè)真實(shí)的虛擬世界中。

在演講過(guò)程中,他還展示了多個(gè)數(shù)字人應(yīng)用案例,包括數(shù)字人播報(bào)、實(shí)景數(shù)字人、圖片數(shù)字人和直播數(shù)字人等。這些案例亦也展示了新壹科技在AI數(shù)字人領(lǐng)域的創(chuàng)新成果、應(yīng)用實(shí)力,以及視頻垂直大模型在智能數(shù)字人領(lǐng)域的強(qiáng)大潛力和商業(yè)價(jià)值。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章