阿里深夜炸場!通義千問發布新一代端到端旗艦模型Qwen2.5-Omni
財聯社3月27日訊,北京時間周四凌晨,阿里巴巴發布通義千問系列的最新旗艦模型Qwen2.5-Omni。這款端到端多模態模型專為廣泛的多模態感知設計,能夠處理文本、圖像、音頻和視頻等多種輸入,同時能夠通過生成文本和合成語音提供實時流式響應。
據“通義千問Qwen”官方微信號介紹,這款模型的主要特點如下:
全能創新架構:Qwen團隊提出了一種全新的Thinker-Talker架構,這是一種端到端的多模態模型,旨在支持文本/圖像/音頻/視頻的跨模態理解,同時以流式方式生成文本和自然語音響應。Qwen提出了一種新的位置編碼技術,稱為TMRoPE(Time-aligned Multimodal RoPE),通過時間軸對齊實現視頻與音頻輸入的精準同步。實時音視頻交互:架構旨在支持完全實時交互,支持分塊輸入和即時輸出。自然流暢的語音生成:在語音生成的自然性和穩定性方面超越了許多現有的流式和非流式替代方案。全模態性能優勢:在同等規模的單模態模型進行基準測試時,表現出卓越的性能。Qwen2.5-Omni在音頻能力上優于類似大小的Qwen2-Audio,并與Qwen2.5-VL-7B保持同等水平。卓越的端到端語音指令跟隨能力:Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文本輸入處理相媲美的效果,在MMLU通用知識理解和GSM8K數學推理等基準測試中表現優異。模型性能方面,Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態下的表現都優于類似大小的單模態模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。
在多模態任務OmniBench,Qwen2.5-Omni達到了SOTA的表現。此外,在單模態任務中,Qwen2.5-Omni在多個領域中表現優異,包括語音識別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)以及語音生成(Seed-tts-eval和主觀自然聽感)。
該模型現已在 Hugging Face、ModelScope、DashScope 和 GitHub上開源開放。
相關推薦
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。