訊飛版《Her》長臉了!多模態虛擬人表情動作超逼真,一張圖一句話就能DIY自己
跟訊飛星火AI女神視頻面對面,國產《Her》從此有了臉!

不管跟你科普面霜,推薦酒水禮物,還能看圖說話講故事,都能輕松拿捏。
你有看過孫悟空奧特曼一起打怪獸嗎?(狗頭)
即便是這么一個不著調的“名場面”,“她”也能硬講出來一段生動的故事來。嗯嗯論講故事還得是AI來~
除此之外,你也可以自己DIY一個虛擬人。只需一張照片+一句話,就能創造一個“自己”。

(白小交從此有了臉)
目前,該功能已經在訊飛星火APP上線。
而背后的底座大模型也迎來重大升級——訊飛星火4.0 Turbo正式發布,七大核心能力全面超過GPT-4 Turbo,數學和代碼能力超越GPT-4o,國內外中英文14項主流測試集中訊飛星火4.0 Turbo實現9項第一。
與此同時,國產超大規模智算平臺“飛星二號”正式啟動。
跟訊飛星火視頻面對面此次發布會的重頭戲,就是訊飛星火在多模態視覺、超擬人虛擬人上交互能力的提升。
在大模型的驅動下,我們正在迎來一個嶄新的萬物智聯時代。新時代下的交互標準,科大訊飛有自己的定義。
董事長劉慶峰介紹道,在已有遠場高噪、全雙工、多語種多語言等基礎上,還包括多模態、超擬人、個性化等特點。

其實在今年8月,訊飛版《Her》就已經發布。這次語音能力升級基礎上,還具備了視覺能力、并擁有了自己的形象。
簡單來說,實現了從語音交互到音視頻流的實時多模態交互的跨越,情感感知(包括項環境、文字、物體、姿態、著裝等)更全面、任務理解(包括語音、手勢、行為、情緒等)更精準。
在現場,訊飛研究院院長劉聰率先展示了語音能力,除了本身語氣和情感度更加逼真以外,它還能跟你玩角色扮演游戲。
模擬個孫悟空、小豬佩奇都不在話下~
在此基礎之上,訊飛版Her現在能面對面聊天,它能根據語義、語音節奏來自動生成表情和動作。
比如聽到幾百萬人在線上看表演時,一些小驚訝、開心激動的表情。

據介紹,這也是業內率先實現「口唇、表情、動作」語義對齊、貫穿的超擬人數字人。
而一旦打開攝像頭,它還能基于動態的視頻畫面來進行對話交流。
比如識別各種物體,各種花草、建筑還有小玩具。

龍船花,好好好,小知識get。
更炸裂的是,就是連什么酒水飲料,哪個牌子的水乳面霜都能分清!
在現場,它不僅認出了這是雪花秀的產品,還科普了具體組成和用處,甚至糾正了大的那瓶不是眼霜是面霜……
此次新增的視覺能力,在常見視覺知識問答準確率90%+、場景圖文理解準確率也超90%+。
這樣一來,可以在出境購物了解商品信息的時候“哪里不懂問哪里”,識別食物、玩游戲,陪孩子進行繪本伴讀。
而新火種也第一時間進行了一波實測。目前這一功能在訊飛星火APP右上角「小星暢聊」里面,點擊右邊「攝像頭」就能開啟對話了。
隨便拍了拍天空,說一句“今天天氣不錯”,它會隨聲附和一句;還會給你推薦合肥推薦好玩的地方。
而將攝像頭指向1024開發者論壇,它能準確解讀出來,并給你推薦~
可以看到,此次的交互能力不管是在擬人度、情感性、理解能力等都有了很大的提升。而除了能看能聽能說,你還可以捏一個自己——創建一個屬于自己的虛擬人。

同樣是訊飛星火APP右上角,點擊「創建智能體」。
只需上傳一張照片,創建自己的AI形象,包括性格職業信息人設等自定義設置;然后再根據一句話復刻語音,就能完成了,已支持1300+種人設打造。
這語氣這形象確實很像數字世界的自己,以后就可以派它來對接客戶了。(不是)
目前,訊飛超擬人數字人的聲音自然度可以達到4.2分。劉慶峰稱,最好的播音員可以達到5.0分左右,真人水平一般為4.0分左右。
不過這些能力展示,也只是此次訊飛星火底座升級的一部分。
訊飛星火4.0 Turbo正式發布今年訊飛星火大模型迎來重大升級——星火4.0 Turbo發布。
基礎能力上,數學、代碼、特定領域長文本能力等七大能力方面已經全面超越GPT-4 TUrbo,效率也相對提升50%。
尤其是數學方面,劉慶峰透露,目前已經完成超長思維鏈、樹搜索和自我反思評價等算法驗證,預計今年年底將實現類o1的高難度數學能力顯著提升。
代碼能力層面,星火在HumanEval測試集上,星火4.0 Turbo性能已超越GPT-4o。與此同時,他們還推出代碼7B版本,支持代碼生成、代碼補全等任務。
在14項中英文主流測試集中,相較于GPT-4o,星火4.0 Turbo實現了9項超越。
除此之外,還首次發布了多語言認知大模型,覆蓋包括英語、俄語、日語、漢語、法語、西語、葡語、德語等多種語言。
在汽車、家電、辦公、翻譯等行業的任務場景中,多語言大模型效果超過了GPT-4o
在一些垂直領域,此次也有多款大模型首發和升級。
比如在醫療領域的醫學影像大模型,它能根據影像照片,幫助醫生快速生成診斷報告。
還有智能汽車方面的端側星火大模型,車載應用效果損失小于1%,響應時間小于40毫秒。預計今年第四季度起,包括奇瑞、廣汽、長城等多款搭載端側大模型的車型將上市開售。
教育方面,訊飛星火聯合中國教科院,發布了基于問題鏈的數學教師助手。它以問題鏈的方式來展開邏輯,包括核心問題、子問題、問題單元,這樣層層推進,讓學生學會主動思考、學會提問,從而改變學生的學習范式。
現在已經有來自12個區域50多位數學教研員、400多位教師參與到人機共創。
在底層智算平臺上,科大訊飛、華為、合肥市大數據資產運營有限公司三方聯手,打造國產超大規模智算平臺“飛星二號”,目前已經正式啟動。
去年飛星一號首次亮相,據劉慶峰介紹,一年以來“飛星一號”平臺已經解決了超過500次的基礎軟硬件問題和模型適配問題。
大模型迎來規模化應用時代整場發布會下來最強感知到的是,正如劉慶峰所言,大模型迎來規模化應用時代。
多模態虛擬人交互成為發布會的主角,各種垂直領域大模型的真機演示成為發布會的重點。一切圍繞著應用而來,圍繞著行業而來。
可以看到的是,以訊飛星火為代表,國產大模型應用生態持續繁榮。發布會一開始,劉慶峰就亮出了他們過去一年“七個第一”的成績單。
央國企中標第一,訊飛星火成為央國企大模型第一選擇教育醫療市場第一;智能汽車市場第一;大模型開發者生態第一;智能硬件市場第一;賦能科研應用第一;賦能工業應用第一。截至今年10月,訊飛已經與各頭部企業共建了20多個行業大模型,覆蓋300+應用場景,所覆蓋行業和場景數都位于國內第一位置。
值得一提的是,除了產業上的賦能,在科研行業,訊飛星火也持續在為高校提供服務。今年物理、化學諾獎都頒給了AI科學家,對此,劉慶峰表示:
以星火科研助手為代表,它自去年底發布以來,已在中科院下屬116個院所使用。此外還聯合中國科技大學研發“化學大模型”,聯合中科院大連化學物理研究所研發“化工大模型”等等。
只有生態的繁榮,才能反哺技術持續進步。根據IDC研究報告和市場公開數據顯示,科大訊飛在語音語義市占率中第一、大模型開發者規模第一,達78.1萬。
接下來,科大訊飛計劃將開放全場景資源,覆蓋從技術能力到應用落地。他們還將牽頭成立AI基金,用5億創業基金推動開發者創業。
對于未來人工智能的產業發展,劉慶峰提出了他們自己行業參考。五個關鍵詞:頂天立地、自主可控、通專結合、端云聯動、軟硬一體。
也只有把握這五個關鍵點,大模型才能真正解放生產力、釋放想象力,帶來全行業的范式變革。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。