亚洲一区无码中文字幕乱码,毛毛毛毛片,亚洲同性男网站

首頁 > AI資訊 > 最新資訊 > 和大模型語音聊天視頻通話？Qwen2.5-Omni開源

和大模型語音聊天視頻通話？Qwen2.5-Omni開源

新火種 2025-05-22

3月27日，通義千問Qwen系列中的全新多模態(tài)大模型Qwen2.5-Omni宣布開源。

Qwen2.5-Omni作為通義系列模型中首個端到端全模態(tài)大模型，可以同時處理包括文本、圖像、音頻和視頻等多種輸入，并實時合成輸出文本與自然語音。

這意味著，用戶可以和Qwen進(jìn)行語音聊天和視頻通話，有網(wǎng)友對此表示強烈欣喜。

事實上，在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準(zhǔn)測試中，Qwen2.5-Omni在語音生成測評分?jǐn)?shù)上達(dá)到了與人類持平的能力，這為該模型在語音和視頻通話的可行性上提供了數(shù)據(jù)層面的支撐。

在具體技術(shù)上，Qwen2.5-Omni采用了通義團(tuán)隊全新首創(chuàng)的Thinker-Talker雙核架構(gòu)、Position Embedding融合音視頻技術(shù)、位置編碼算法TMRoPE（Time-aligned Multimodal RoPE）。

雙核架構(gòu)Thinker-Talker讓Qwen2.5-Omni擁有了人類的“大腦”和“發(fā)聲器”。Thinker負(fù)責(zé)處理和理解用戶輸入的內(nèi)容，Talker則輸出相應(yīng)的語音標(biāo)記。通過兩者的配合完成了端到端的統(tǒng)一模型架構(gòu)，將實時語義理解與語音生成形成協(xié)同。

TMRoPE則通過時間軸對齊實現(xiàn)視頻與音頻輸入的精準(zhǔn)同步，使得模型能夠準(zhǔn)確地捕捉到不同模態(tài)數(shù)據(jù)在時間維度上的對應(yīng)關(guān)系，從而為生成連貫、準(zhǔn)確的內(nèi)容。

值得注意的是，Qwen2.5-Omni以7B的小尺寸讓全模態(tài)大模型在產(chǎn)業(yè)上的廣泛應(yīng)用成為可能。用戶在手機上，也能輕松部署和應(yīng)用Qwen2.5-Omni模型。

目前，開發(fā)者和企業(yè)可免費下載商用Qwen2.5-Omni。

Tags:

大模型模型視頻

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。交易和投資涉及高風(fēng)險，讀者在采取與本文內(nèi)容相關(guān)的任何行動之前，請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

和大模型語音聊天視頻通話？Qwen2.5-Omni開源

AI大模型加速落地，阿里云持續(xù)「滋養(yǎng)」

英偉達(dá)JimFan：復(fù)刻NLP的成功路，用通用模型開啟具身智能的GPT-3時刻

百度千帆大模型平臺日均調(diào)用量超7億次

百度智能云：千帆大模型平臺日均調(diào)用量超7億次

科大訊飛與中國綠發(fā)攜手發(fā)布泰山大模型

熱門文章