日本久久一级片,韩国精品一区二区无码视频,毛片一级免费

首頁 > AI資訊 > 最新資訊 > 通義千問開源720億和18億參數兩款大語言模型

通義千問開源720億和18億參數兩款大語言模型

新京報 2023-12-04

12月1日，阿里云舉辦通義千問發布會，開源通義千問720億參數模型Qwen-72B，這是繼通義千問此前開源140億參數大語言模型后又一次開源之舉。此外，通義千問還開源了18億參數模型Qwen-1.8B和音頻大模型Qwen-Audio。至此，通義千問共開源18億、70億、140億、720億參數的4款大語言模型，以及視覺理解、音頻理解兩款多模態大模型，實現了“全尺寸、全模態”的開源。

阿里云CTO周靖人在接受包括新京報貝殼財經在內的媒體采訪時表示，自從宣布72B模型將要開源后，就得到了很多企業持續的關注，因此這是一個“強企業需求”的模型，“我們已經形成了全系列的大模型家族，能夠為開發者、企業提供更豐富的選擇。”

具體來看，Qwen-72B基于3T tokens高質量數據訓練，在10個權威基準測評中奪得開源模型最優成績，在部分測評中超越閉源的GPT-3.5和GPT-4。

英語任務上，Qwen-72B在MMLU基準測試取得開源模型最高分；中文任務上，Qwen-72B霸榜C-Eval、CMMLU、GaokaoBench等基準，得分超越GPT-4；數學推理方面，Qwen-72B在GSM8K、MATH測評中斷層式領先其他開源模型；代碼理解方面，Qwen-72B在HumanEval、MBPP等測評中的表現大幅提升，代碼能力有了質的飛躍。此外，Qwen-72B可以處理最多32k的長文本輸入，在長文本理解測試集LEval上取得了超越ChatGPT-3.5-16k的效果。研發團隊優化了Qwen-72B的指令遵循、工具使用等技能，使之能更好地被下游應用集成。

此前，中國大模型市場還沒出現足以對標Llama 2-70B的優質開源模型，對此，Qwen-72B填補了國內空白，基于Qwen-72B，大中型企業可開發商業應用，高校、科研院所可開展AI for Science等科研工作。

如果說Qwen-72B“向上摸高”，抬升了開源大模型的尺寸和性能天花板；發布會上的另一開源模型Qwen-1.8B則“向下探底”，成為尺寸最小的中國開源大模型，推理2K長度文本內容僅需3G顯存，可在消費級終端部署。另外，阿里云也開源了音頻理解大模型Qwen-Audio，該大模型能夠感知和理解人聲、自然聲、動物聲、音樂聲等各類語音信號。用戶可以輸入一段音頻，要求模型給出對音頻的理解，甚至基于音頻進行文學創作、邏輯推理、故事續寫等等，音頻理解能夠賦予大模型接近人類的聽覺能力。

從18億、70億、140億到720億參數規模，用戶可在魔搭社區直接體驗Qwen系列模型效果，也可通過阿里云靈積平臺調用模型API，或基于阿里云百煉平臺定制大模型應用。阿里云人工智能平臺PAI針對通義千問全系列模型進行深度適配，推出了輕量級微調、全參數微調、分布式訓練、離線推理驗證、在線服務部署等服務。

周靖人在接受記者采訪時表示，開源生態對促進中國大模型的技術進步與應用落地至關重要，“技術發展一定不是由一家公司完成的，技術落地背后一定還有很多工作要做，沒有創業者的參與，一項技術是難以落地的，只有擁抱開放生態，才能有效地把我們的技術能力融入到各行各業。”

（文章來源：新京報）

Tags:

GPT 模型參數

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

通義千問開源720億和18億參數兩款大語言模型

百度千帆大模型平臺日均調用量超7億次

百度智能云：千帆大模型平臺日均調用量超7億次

科大訊飛與中國綠發攜手發布泰山大模型

華知大模型5.0發布

三個大模型組隊挑戰o1，實測360多模型協作干掉提示詞工程

熱門文章