首頁 > AI資訊 > 最新資訊 > 通義千問720億參數模型宣布開源不少創業者測試下來效果是這樣的

通義千問720億參數模型宣布開源不少創業者測試下來效果是這樣的

周到    2023-12-04

  阿里云正在進一步打造開源的AI生態。

  12月1日消息,阿里云通義千問720億參數模型Qwen-72B宣布開源,該模型基于3T tokens高質量數據訓練,在10個權威基準測評中奪得開源模型最優成績,在部分測評中超越閉源的GPT-3.5和GPT-4。

  從18億、70億、140億到720億參數規模,通義千問成為業界首個“全尺寸開源”的大模型。用戶可在魔搭社區直接體驗Qwen系列模型效果,也可通過阿里云靈積平臺調用模型API,或基于阿里云百煉平臺定制大模型應用。阿里云人工智能平臺PAI針對通義千問全系列模型進行深度適配,推出了輕量級微調、全參數微調、分布式訓練、離線推理驗證、在線服務部署等服務。

  精神孤獨?這個學生團隊用大模型開發了一款心理大模型

  打工人上班被老板罵了,心里不爽;學生黨寫不出論文,影響畢業……遇到這些事情,怎么辦?基于通用AI開發一個產品來排解。

  MindChat這樣一款心理咨詢工具就誕生了,它像一個AI心理咨詢師,能在溫暖、安全、及時、方便的對話環境下,為用戶提供心理評估等服務。

  偶然一次和老師在飯桌上的對話,激發了00后顏鑫做一個心理服務項目的想法?!拔业睦蠋熤霸诘聡l展,長居德國,三四年前為了照顧家里老人,回到了國內。我是一個人在外求學,留爺爺奶奶孤獨在家,偶爾會打打電話。但這些都不夠,家人還是缺少陪伴。”

  2023年本科畢業的顏鑫,目前在華東理工大學·X-D Lab(心動實驗室)專注于社會計算和心理情感領域的AI應用開發,基于開源的通義千問開源模型開發了心理健康大模型 MindChat(漫談),同時還有醫療健康大模型 Sunsimiao(孫思邈)、教育/考試大模型 GradChat(錦鯉)等,并為下游客戶開發基于行業大模型的產品。

  “心理服務就是這樣的場景,它在整個社會有很大的需求空間,而整體供給又很匱乏,優質可靠的心理咨詢服務在很多地方都是奢侈品。我們想用大模型技術把這類服務變得普惠。”顏鑫說。

  據了解,目前已有超過20萬人次用過我們的大模型,我們累計提供了超過100萬次的問答服務。大家問得最多的就是升學、考研、就業、職場之類的壓力。

  在做整個項目的過程中,顏鑫感觸最深的是,大模型應用落地的驅動力,不應該是“為技術找場景”,而應該是“為場景找技術”。

  顏鑫說,其實最初,整個團隊從模型微調開始,一點點摸索。但做著做著發現,在解決一些需求點的時候還是需要回歸到主業上。比如聯邦學習,這是一種針對分布式系統的機器學習技術,可以采用各種隱私技術(如加密技術等),確保參與聯邦學習的各方做出有用的計算,同時保證用戶數據不被泄露。

  “我們在做模型微調時,就關注信息隱私保護和數據加密,采用分布式架構存儲與分析訓練數據,很好地保護了用戶信息。”顏鑫說,醫療、心理都是非常注重隱私的場景,很多客戶都要求私有化部署,所以團隊選擇開源模型。我們一直在追蹤開源領域大模型的發展,Qwen(通義千問)出現之前,團隊試用了一些其他模型,比如ChatGLM、Baichuan、InternLM。

  顏鑫表示,Qwen-7B和14B推出后,團隊快速做了試驗,用內部數據和自己的benchmark做了測評?!霸谖覀兊膱鼍爸?,通義千問是所有的開源模型里發揮最好的,是目前的最優解。尤其在復雜的邏輯推理方面,通義千問表現出很強的能力。在同樣的對焦實驗下,當我們用同樣的方法、把同樣規模的數據應用到各個開源模型,Qwen的效果比其他模型好得多。所以,我們的三款垂直領域大模型主要以Qwen為基座。”

  有創業團隊借力大模型,助力企業快速開發企業級 AI 應用

  上海交通大學碩士畢業的秦續業,在阿里巴巴工作了7年之后,2022年6月出來創業,創立了未來速度(英文叫 Xorbits)。這家公司打造了企業級的分布式推理框架Xinference,用于完成大模型推理任務。

  公司創立伊始,大模型還沒普及,AI對于算力的利用率還不是很高效,AI場景使用算力比較零碎和分散,一個AI工程師可能只用一臺機器來處理算法模型。

  “創業之初,我們的想法就是把AI算力聚集在一起使用,通過調度,更好地利用集群資源,來推動AI計算的規?;徒当??!鼻乩m業說,但去年11月底 ChatGPT 推出以后,大模型爆發,新的模型不斷涌現,基于基礎模型的衍生版本、微調版本及特定優化(如擴展上下文窗口長度)等也不斷出現。隨后公司決定業務要以大模型為中心。

  訓練模型需要重資產投入,企業不一定都得從零開始訓練大模型。“我們判斷,把模型用起來是更重要的事情,于是把公司核心產品定位在讓大家更好地使用大模型。我們的模型推理平臺Xinference,就是為了把市面上最好的主流大模型在各種硬件上跑起來?!?/p>

  Xinference平臺中內置了分布式推理框架,可以用不那么高端的計算資源,把模型變成服務,從而解決共性問題;還提供更高的吞吐量、更低的延遲、容錯、權限管理等企業特性;也對接了各種各樣的生態,包括 Langchain,Dify 等中間件,它們是構建AI應用必不可少的組件。用戶基于我們的Xinference平臺,可以快速開發企業級 AI 應用。

  “通義千問開源模型剛出來,我們第一時間就支持了。我們有個客戶是做電商客服場景的,使用高質量的數據測試了幾款開源模型的能力,他們覺得千問的表現最好?!鼻乩m業說,我們平臺現在已經支持用Mac顯卡進行Qwen模型推理,這一點應該能擊中很多人。很多開發者用的都是Mac電腦,如果能直接在本地拉起Qwen系列模型,可以極大提升開發效率。

  在秦續業看來,大模型開源領域也很卷,長期看,開源大模型和閉源大模型會共存。閉源大模型更多面向 C 端場景,C端用戶需要大模型具備大而全的能力,能夠全方位地滿足需求。

  開源大模型在B端大有可為,企業級用戶更在意的是能不能解決問題,而非要求模型能力面面面俱到。開源大模型安全、可控、更具性價比,而且可定制。

  “開源生態對促進中國大模型的技術進步與應用落地至關重要,通義千問將持續投入開源?!卑⒗镌艭TO周靖人說,希望通義千問成為“AI時代最開放的大模型”,與伙伴們共同促進大模型生態建設。

  據了解,8月以來,阿里云開源了Qwen-7B、Qwen-14B和視覺理解模型Qwen-VL,幾款模型先后沖上HuggingFace、Github大模型榜單,得到中小企業和個人開發者的青睞,累計下載量超過150萬,催生出150多款新模型、新應用。

(文章來源:周到)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章