登頂開源大模型榜首阿里Qwen3成色如何?|聚焦
《科創板日報》5月1日訊(記者 黃心怡)阿里巴巴在“五一”節前開源新一代通義千問模型Qwen3,而且一口氣開源了 8 個版本。
阿里千問大模型官網用“思深,行速”來描述Qwen3,是指Qwen3 是中國公司推出的首個混合推理模型,在同一個模型中融合了 “推理” 和 “非推理” 模式,可以根據不同問題選擇 “快、慢思考”。
最新數據顯示,阿里Qwen 系列大模型已被累計下載 3 億次,基于 Qwen 的衍生模型數量超 10 萬個,為全球第一。Qwen3 發布也引來眾多開發者的使用和測評。
Qwen3 提供了不同參數的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型。阿里方面稱,千問3的30B參數MoE模型僅激活3B就能達到上代Qwen2.5-32B模型性能,而千問3的稠密模型比如32B版本的千問3模型,可超越上一代Qwen2.5-72B性能。
多名開發者告訴《科創板日報》記者,此次發布的千問3系列中的小參數量模型表現突出。“32B模型表現突出,小參數量跑出了優秀的效果,對大模型應用研發人員或公司來說是福利。畢竟大參數量還是成本太高。目前來看32B性價比最高,235B感覺相比千問2.5提升不太大,而32B能跑出目前效果確實很不錯了。”
有業內人士推測,千問3選擇在小參數模型發力,主要是為了蘋果生態而準備。此前,阿里董事局主席蔡崇信確認了回應阿里與蘋果在手機上合作落地AI的傳聞。而今年4月的最新消息稱,蘋果果正積極推進在國行版iPhone上引入AI功能的計劃,并計劃于2025年中期前登陸國行iPhone。
▍并非全面碾壓DeepSeek R1
盡管Qwen3發布后,有媒體報道其性能全面碾壓同樣開源的DeepSeek R1 。但《科創板日報》記者注意到,每家大模型公司在公布自己大模型的測評數據時,可能用的都是不同的指標,或者只公布自己得分高的測評測試。因此,比較公立的第三方測評比較有說服力。
著名華裔AI學者吳恩達的公司Artificial Analysis對包括Qwen3和DeepSeek R1在內的大模型測試顯示,Qwen3只是在某些指標上超越DeepSeek R1,并非全面碾壓。
在“GPQA 鉆石:博士級多學科”項目測試中,Qwen3 235B測試結果70分,和 DeepSeek R1 的 71分 成績接近;在“LiveCodeBench:編碼能力”項目測試中,Qwen3 235B測試結果:71分,高于 DeepSeek R1 的 62分 成績;在“MATH-500:高難度數學”項目測試中, Qwen3 235B測試結果93分,低于 DeepSeek R1 的 97分成績; 在“MMLU:通用知識基準” Qwen3 235B測試結果83分,接近 DeepSeek R1 的 84分成績;在“AIME2024:數學推理中等挑戰,泛化能力參考”項目測試中,Qwen3 235B測試結果84分,高于 DeepSeek R1 的 68分成績。
因此,業內普遍的看法是,總體看Qwen3推理模型整體表現略好于R1,但相比R1也不算有太大突破,還稱不上“全面碾壓”。
▍小參數模型遠超預期
另一名開發者告訴《科創板日本》記者,此次千問3系列的超大參數模型不及預期,但小參數的模型遠超預期。“4B模型在數學能力上屬實驚到我了。”
小參數量模型的特點是能夠主要用于端側部署,比如4B模型可用于手機端,8B可在電腦和汽車端側,32B可用于企業大規模部署,也適合有條件的開發者上手。
開放傳神(OpenCSG)聯合創始人陳冉認為,通義大模型的出現充分驗證大模型領域金律“模型天天變,不變的是數據沉淀“,也再次證明開源是技術創新的壓箱石。技術上,還在繼續努力推進,目標還是降本增效,種類齊全,但核心創新點還有待觀察。
《科創板日報》記者注意到,在千問3發布后,上下游供應鏈第一時間進行適配和調用。英偉達、英特爾、聯發科、AMD等多家頭部芯片廠商紛紛適配千問3。
《科創板日報》記者從英特爾方面獲悉,英特爾在車端艙內對新發布的千問3系列模型,也已經完成匹配。國產芯片廠商海光信息則宣布其DCU完成對Qwen3全部8款模型的適配+調優,覆蓋235B、32B、30B、14B、8B、4B、1.7B、0.6B各種參數。
隨著算力成本的降低和性能的提升,業內分析普遍認為,千問3為即將到來的智能體Agent和大模型應用爆發提供了更好的支持。阿里云智能集團副總裁霍嘉在接受《科創板日報》采訪時表示,“模型推理模型能力不斷提高,使得當前在業內有共識,今年會是 AI應用爆發的真正元年。
▍通用Agent在工程和技術兩個方面仍面臨挑戰
華創證券在評價千問3大模型時稱, Agent訓練與落地成為了 AI+ 敘事的下一重心。天風證券認為,AI Agent市場規模有望超萬億,通義千問已發布多行業垂直生態體系,有望成為B端Agent鏈主。
《科創板日報》注意到,在第八屆數字中國建設峰會期間,中國一汽正式發布企業智能體OpenMind。這是汽車行業首個面向全集團運營管理的AI Agent,正是基于阿里通義大模型打造。
此外,中國電信、螞蟻集團等也紛紛發布了智能體相關平臺,以加速AI Agent在政務、金融等領域落地:中國電信正式發布星辰行業Agent平臺;螞蟻數科則發布了面向金融機構發布智能體開發平臺Agentar。
不過,通用Agent在工程和技術模型兩個方面仍面臨挑戰。一名業內人士表示,“實際上能夠處理通用或復雜任務的并不多。這些產品要么不夠通用,要么無法應對復雜的任務。”
阿里云 CTO 和通義實驗室負責人周靖人近日在接受媒體采訪時透露, 今年在大模型領域,相對確定的進展是兩個主線,一是模型能力上,會繼續在類人思考和多模態上有提升;二是模型和底層云計算系統會更深度結合,能同時提升訓練和推理效率,讓模型更好用、更普及。
在談及DeepSeek R1時,周靖人表示,DeepSeek看起來有算力、有 Infra 層、有模型,但不構成一個完整的云服務。"我們的一個核心認知是,大模型發展和云體系的支撐不可分割。”
談及國外內大模型競爭對手的你追我趕,他認為,市場空間很大,歡迎一起來推動 AI 產業的發展。至于誰領先,他說:
“還是看市場反饋,把選擇權留給客戶。”
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。