首頁 > AI資訊 > 最新資訊 > 通義千問開源720億和18億參數兩款大語言模型

通義千問開源720億和18億參數兩款大語言模型

新京報    2023-12-04

  12月1日,阿里云舉辦通義千問發布會,開源通義千問720億參數模型Qwen-72B,這是繼通義千問此前開源140億參數大語言模型后又一次開源之舉。此外,通義千問還開源了18億參數模型Qwen-1.8B和音頻大模型Qwen-Audio。至此,通義千問共開源18億、70億、140億、720億參數的4款大語言模型,以及視覺理解、音頻理解兩款多模態大模型,實現了“全尺寸、全模態”的開源。

  阿里云CTO周靖人在接受包括新京報貝殼財經在內的媒體采訪時表示,自從宣布72B模型將要開源后,就得到了很多企業持續的關注,因此這是一個“強企業需求”的模型,“我們已經形成了全系列的大模型家族,能夠為開發者、企業提供更豐富的選擇。”

  具體來看,Qwen-72B基于3T tokens高質量數據訓練,在10個權威基準測評中奪得開源模型最優成績,在部分測評中超越閉源的GPT-3.5和GPT-4。

  英語任務上,Qwen-72B在MMLU基準測試取得開源模型最高分;中文任務上,Qwen-72B霸榜C-Eval、CMMLU、GaokaoBench等基準,得分超越GPT-4;數學推理方面,Qwen-72B在GSM8K、MATH測評中斷層式領先其他開源模型;代碼理解方面,Qwen-72B在HumanEval、MBPP等測評中的表現大幅提升,代碼能力有了質的飛躍。此外,Qwen-72B可以處理最多32k的長文本輸入,在長文本理解測試集LEval上取得了超越ChatGPT-3.5-16k的效果。研發團隊優化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游應用集成。

  此前,中國大模型市場還沒出現足以對標Llama 2-70B的優質開源模型,對此,Qwen-72B填補了國內空白,基于Qwen-72B,大中型企業可開發商業應用,高校、科研院所可開展AI for Science等科研工作。

  如果說Qwen-72B“向上摸高”,抬升了開源大模型的尺寸和性能天花板;發布會上的另一開源模型Qwen-1.8B則“向下探底”,成為尺寸最小的中國開源大模型,推理2K長度文本內容僅需3G顯存,可在消費級終端部署。另外,阿里云也開源了音頻理解大模型Qwen-Audio,該大模型能夠感知和理解人聲、自然聲、動物聲、音樂聲等各類語音信號。用戶可以輸入一段音頻,要求模型給出對音頻的理解,甚至基于音頻進行文學創作、邏輯推理、故事續寫等等,音頻理解能夠賦予大模型接近人類的聽覺能力。

  從18億、70億、140億到720億參數規模,用戶可在魔搭社區直接體驗Qwen系列模型效果,也可通過阿里云靈積平臺調用模型API,或基于阿里云百煉平臺定制大模型應用。阿里云人工智能平臺PAI針對通義千問全系列模型進行深度適配,推出了輕量級微調、全參數微調、分布式訓練、離線推理驗證、在線服務部署等服務。

  周靖人在接受記者采訪時表示,開源生態對促進中國大模型的技術進步與應用落地至關重要,“技術發展一定不是由一家公司完成的,技術落地背后一定還有很多工作要做,沒有創業者的參與,一項技術是難以落地的,只有擁抱開放生態,才能有效地把我們的技術能力融入到各行各業。”

(文章來源:新京報)

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章