和大模型語音聊天視頻通話?Qwen2.5-Omni開源
3月27日,通義千問Qwen系列中的全新多模態(tài)大模型Qwen2.5-Omni宣布開源。
Qwen2.5-Omni作為通義系列模型中首個端到端全模態(tài)大模型,可以同時處理包括文本、圖像、音頻和視頻等多種輸入,并實時合成輸出文本與自然語音。
這意味著,用戶可以和Qwen進(jìn)行語音聊天和視頻通話,有網(wǎng)友對此表示強烈欣喜。
事實上,在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準(zhǔn)測試中,Qwen2.5-Omni在語音生成測評分?jǐn)?shù)上達(dá)到了與人類持平的能力,這為該模型在語音和視頻通話的可行性上提供了數(shù)據(jù)層面的支撐。
在具體技術(shù)上,Qwen2.5-Omni采用了通義團(tuán)隊全新首創(chuàng)的Thinker-Talker雙核架構(gòu)、Position Embedding融合音視頻技術(shù)、位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)。
雙核架構(gòu)Thinker-Talker讓Qwen2.5-Omni擁有了人類的“大腦”和“發(fā)聲器”。Thinker負(fù)責(zé)處理和理解用戶輸入的內(nèi)容,Talker則輸出相應(yīng)的語音標(biāo)記。通過兩者的配合完成了端到端的統(tǒng)一模型架構(gòu),將實時語義理解與語音生成形成協(xié)同。
TMRoPE則通過時間軸對齊實現(xiàn)視頻與音頻輸入的精準(zhǔn)同步,使得模型能夠準(zhǔn)確地捕捉到不同模態(tài)數(shù)據(jù)在時間維度上的對應(yīng)關(guān)系,從而為生成連貫、準(zhǔn)確的內(nèi)容。
值得注意的是,Qwen2.5-Omni以7B的小尺寸讓全模態(tài)大模型在產(chǎn)業(yè)上的廣泛應(yīng)用成為可能。用戶在手機上,也能輕松部署和應(yīng)用Qwen2.5-Omni模型。
目前,開發(fā)者和企業(yè)可免費下載商用Qwen2.5-Omni。
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。