首頁 > AI資訊 > 最新資訊 > 通義千問開源:大模型時代“虹吸效應”的開始

通義千問開源:大模型時代“虹吸效應”的開始

新火種    2023-12-06

文 | 子彈財經 張樵

編輯 | 閃電

12月1日,阿里云舉辦發布會,正式發布并開源“業界最強開源大模型”通義千問720億參數模型Qwen-72B。同時,通義千問開源了18億參數模型Qwen-1.8B和音頻大模型Qwen-Audio。

至此,通義千問共開源18億、70億、140億、720億參數的4款大語言模型,以及視覺理解、音頻理解兩款多模態大模型,實現了“全尺寸、全模態”開源。

這是一場可以用“不同尋常”來形容的發布會,不僅僅因為它廣受外界關注,更重要的原因在于,從這場發布會釋放出的信息來看,今年以來眾說紛紜,莫衷一是的“百模大戰”的勝負和大模型路徑之爭,已經有了初步的答案——在阿里云“無開放,不生態”策略的驅動下,作為國內落地最深、應用最廣的大模型,通義千問希望延續阿里云在“前AI時代”就信奉的創新底座角色,以AI底座的開放培育上層生態的繁榮。

1、阿里云的開放邏輯

這并非阿里云在大模型開源方面的首次動作。作為國內最早開源自研大模型的“大廠”,阿里云希望通過開源,讓海量中小企業和AI開發者更早、更快地用上通義千問。

今年8月,阿里云就已開源通義千問70億參數模型Qwen-7B,今年9月,通義千問140億參數模型Qwen-14B及其對話模型Qwen-14B-Chat也實現了免費商用。

此次發布會上,阿里云CTO周靖人表示,開源生態對促進中國大模型的技術進步與應用落地至關重要,通義千問將持續投入開源,希望成為“AI時代最開放的大模型”,與伙伴們共同促進大模型生態建設。

大模型的前景無須贅言。但是,與基礎軟件產業的變革和發展歷程相同,大模型有著開源和閉源兩條發展思路,同樣有著相當于智能手機的“iOS”與“Android”之爭。

在國外,OpenAI選擇的就是閉源路線,除了ChatGPT,沒有具體的產品應用,對外則通過提供接口和投資的方式繁榮生態。Meta旗下的大模型Llama2則選擇了開源,用開源生態加速Llama的迭代和升級。在國內,例如BAT三巨頭,騰訊云和百度云的大模型采用的是閉源路線,阿里云則選擇了開源路線。

業界由此分成了兩派。在支持閉源的人士看來,大模型閉源的好處是能夠提供更加成熟、穩定的產品,客戶只要付費購買,即可直接使用。同時,還能夠提供更加專業的技術支持和服務。

大模型開源的擁躉則認為,開源能夠幫助用戶簡化模型訓練和部署的過程,使得用戶不必從頭訓練模型,只需下載預訓練好的模型并進行微調,就可快速構建高質量的模型或進行相應的應用開發。

“大模型究竟是開源更好還是閉源更好,實際上與‘先生態,后商業’還是‘先商業,后生態’的這個問題有關”,大模型行業人士告訴「界面新聞·子彈財經」,按照以往科技發展的規律來看,頭部的技術服務商,一般都會先建立生態、落地應用,然后再講商業模式,現在大模型仍然遵循著這個規律。

如近期周靖人就曾說過,“大模型這部分應該先注重生態,然后再注重商業化,而不是說一開始就過度圍繞商業化。”而建立生態的前提就是開放。

在今年的云棲大會上,阿里巴巴集團董事會主席蔡崇信反復強調的一個關鍵詞就是“開放”:“我們堅信,不開放就沒有生態,沒有生態就沒有未來。同時,我們要始終攀登技術高峰,只有站在更先進、更穩定的技術能力之上,才有更大的開放底氣。”

圖 / 云棲大會

與其他頭部廠商不同,阿里一直就有技術開放的基因,例如,操作系統、云原生、數據庫、大數據等等,在這些領域,阿里都有自主開源的項目。

此外,阿里在去年11月推出了AI開源社區“魔搭”。阿里的數據顯示,中國幾乎所有的大模型頭部研發機構都已將“魔搭”作為模型開源的首發平臺。經過一年的發展,“魔搭”現已匯聚了280萬開發者、2300多個優質模型,模型下載量超過1億。

不僅如此,阿里云充足的算力資源,也是其選擇開源的重要原因。云和AI都離不開算力,特別是大模型,對于算力有著更高的要求。阿里的優勢本就在云計算,數據、算力和存儲這些關鍵的底層資源。

從阿里云今年以來的發布和展示來看,阿里云已具有全棧化AI能力,還有更加完整的通義大模型系列,這樣的能力體系背后,還是離不開算力。這也是大模型時代,MaaS層會成為頭部云服務商最重要的業務環節的原因。

在國外,如微軟這樣的云服務巨頭,也已擴大了開源模型的MaaS服務,他們也是依靠連接產業鏈的上、中、下游,才形成了規模化和平臺化的生態。

阿里云未來的角色同樣如此,以云平臺為基礎,將大模型的構建和應用讓給行業,用以連接眾多的企業和個人開發者,從而構建新的生態。

自此,阿里云大模型的開源邏輯更加清晰,即通過開源的方式提供技術產品,降低門檻,推動技術普惠,為企業客戶到個人開發者提供多元化、全方位的技術服務。在通義千問的基礎上創建的大模型、小模型越豐富,AI生態就越繁榮,阿里云的前景也會越廣闊。

2、“站在巨人肩上”

據介紹,此次最新開源的通義千問Qwen-72B有高性能、高可控、高性價比等特點,可為業界提供不亞于商業閉源大模型的選擇。

從性能數據來看,Qwen-72B在MMLU、AGIEval等10個權威基準測評中,都拿到了開源模型的最優成績,成為性能最強的開源模型,甚至超越了開源標桿Llama 2-70B和大部分商用閉源模型(部分成績超越GPT-3.5和GPT-4)。

基于Qwen-72B,大中型企業足以開發各類商業應用,高校、科研院所則能夠開展AI for Science等科研工作。

從18億、70億、140億到720億參數規模,通義千問不僅成為業界首個“全尺寸開源”的大模型,而且廣受外界歡迎。

據介紹,此前開源的通義千問系列模型先后登上HuggingFace、Github大模型榜單,得到了很多企業客戶和個人開發者的青睞,累計下載量已超過150萬,催生出150多款新模型、新應用。用戶可在“魔搭”社區直接體驗Qwen系列模型效果,也可通過阿里云靈積平臺調用模型API,或基于阿里云百煉平臺定制大模型應用。

據了解,目前,從企業/高校到創業公司,再到個人開發者,基于通義千問開發強大的AI平臺和應用,實現了業務的迅速成長的例子比比皆是。

華東理工大學的X-D Lab(心動實驗室),專注于社會計算和心理情感領域的AI應用開發。基于開源的通義千問,團隊開發出了心理健康大模型MindChat(漫談),主要提供心理撫慰、心理測評等服務、醫療健康大模型Sunsimiao(孫思邈),主要提供一些用藥和養生建議、教育/考試大模型GradChat(錦鯉),主要為學生提供就業、升學、出國留學等方面的指導。

X-D Lab團隊成員表示,從可持續性、生態和場景適配這三個維度判斷和比較,通義千問是最合適的選擇。“此前有一家企業找我們合作,我們只用20萬tokens的數據微調了Qwen基座模型,就得到了比另一家用百萬級數據微調的模型更好的效果。這證明了通義千問基座模型的能力,也證明了我們有很好的行業know-how。”

“我對72B的模型抱有非常大的期待,好奇72B在我們領域中的能力極限值。高校計算資源有限,我們可能不會用這么大參數的模型直接做推理服務,但可能基于Qwen-72B做些學術探索,包括利用聯邦學習算法處理數據,也希望72B的推理成本能得到很好的控制。”

對于初創企業有鹿機器人而言,大模型的開源十分關鍵。該公司專注于大模型+具身智能領域,致力于讓每一臺專業設備都擁有智能性。目前,有鹿機器人在路面清潔機器人中集成了Qwen-7B,使機器人能以自然語言與用戶進行實時交互,理解用戶提出的需求,完成用戶布置的任務。

有鹿機器人創始人、CEO陳俊波表示:“市面上能找到的大模型,我們都做過實驗,最后選了通義千問,原因在于,第一,它是目前至少在中文領域能找到的智能性表現最好的開源大模型之一;第二,它提供了非常方便的工具鏈,可以在我們自己的數據上快速地去做finetune和各種各樣的實驗;第三,它提供了量化模型,量化前和量化后基本上沒有掉點,這對我們非常有吸引力,因為我們需要把大模型部署在嵌入式設備上;最后,通義千問的服務非常好,我們有任何需求都能快速響應。”

圖 / 有鹿機器人創始人、CEO陳俊波

在眾多個人開發者的眼中,通義千問代表著各種可能性。在電力行業就職的土土,主要負責新型電力系統、綜合能源的宏觀分析、規劃研究和前期優化工作。他利用通義千問開源模型搭建文檔問答相關應用,想要探索大模型應用于電力領域的各種可能性。

“我用Qwen做基于私有知識庫的檢索問答類應用,場景很特殊,經常需要從幾十萬甚至上百萬字的文檔中查找內容,給定一個英文文檔,告訴大模型需要查找的內容,請大模型根據文檔目錄回答,在哪個目錄項下可以找到答案。”土土介紹道。

專業領域的文檔檢索和文檔解讀任務,對內容準確性和邏輯嚴謹性有很高要求。在試過的幾款開源模型中,通義千問是最好的,不僅回答準確,而且沒有那些稀奇古怪的bug。“通義千問14B的開源模型表現已經非常好,72B就更讓人期待了,希望72B能在邏輯推理方面再往前走一步。那樣的話,再加點程序手段,基本就能擺平文檔檢索和解讀任務。做好了基礎的,再把難度逐步提升,比如按照這個行業的國家級標準來要求大模型。”

目前,基于Qwen的行業模型如今涉及各行各業,包括醫療、教育、自動假設、計算機等等。

有開發者興奮地表示,除了開源大模型,最新舉辦的“通義千問AI挑戰賽”也有著很大的吸引力,既可以嘗試通義千問大模型的微調訓練,探索開源模型的代碼能力上限,也能夠基于通義千問大模型和魔搭社區的Agent-Builder框架開發新一代AI應用,“有一種站在巨人肩上,不懼挑戰、收獲成長的感覺。”

3、大模型“起風了”

在今年11月舉辦的世界互聯網大會烏鎮峰會上,阿里巴巴集團CEO吳泳銘的一番話,讓「界面新聞·子彈財經」印象深刻:

“AI技術將從根本上改變知識迭代和社會協同的方式,由此驅動的發展加速度將遠遠超越我們的想象。”

“AI與云計算的深度融合,將成為云計算迭代的重要動力。‘AI+云計算’的雙輪驅動,是阿里云面向未來、支撐AI基礎設施的底層能力。”

“阿里巴巴將立足‘科技平臺企業’定位,打造更加扎實的基礎設施底座,不斷加大開放和開源力度,和廣大開發者一起營造繁榮的AI生態。”

這些話很好地向外界闡釋了阿里的過去、現在和未來:此前,阿里的業務涵蓋物流、支付、交易、生產等多個環節,為這些環節提供數字化商業服務。在AI已成為中國數字經濟和產業創新最重要驅動力的背景下,阿里變成了一家“科技平臺企業”,將為各行各業提供基礎設施服務。

他們的完整技術體系和基礎設施構建能力,正在以開源和平臺服務的方式向外界全面開放,不僅提供穩定、高效的AI基礎服務體系,還將創建開放、繁榮的AI生態,借此希望為全社會打造堅實的AI底座,實現自身的升級,也順應時代的大趨勢。

阿里云也已經實實在在地獲得了大模型帶來的巨大收益。國內超過50%的頭部大模型企業都跑在阿里云上。隨著智能化時代的到來,AI將成為新的生產力,阿里的不同業務、不同場景都在試水大模型,用以提升產品體驗與經營效率,打造新的增長引擎。

反過來說,大模型也在驅動著阿里云。周靖人就曾表示,“基于通義千問大模型,我們對云上產品也進行了AI化改造,超過30款云產品具備了大模型的能力,帶來了開發效率的大幅提升。”這些信息也充分說明了,阿里云要打造AI時代最開放的云的原因。

如今,從底層算力到AI平臺再到模型服務,阿里云正在持續加大研發投入,形成了三種新的打法,即基礎設施、開源路線、開放平臺,再加上IaaS層和PaaS層的迭代,這些都有利于聚攏客戶、開發者和ISV,也有利于樹立典型的標桿案例。

這些優勢正在建造阿里云乃至阿里全新的增長飛輪。當國內的開源大模型“起風了”的時候,阿里云就是那個“風向標”。

AI算力底座、豐富且開源的產品、多元的應用場景、通過社區不斷擴大的開發者規模、工具鏈及智能化平臺、開放的創新生態……阿里云通過大模型開源,正在形成一條具有競爭力的“高質量開源基礎大模型-大模型優化-AI應用創新”的商業化落地發展路徑,這對于國內大模型產業應用的落地、創新有著非常重大的影響,勢必推動國內大模型成熟應用的規模化出現。

就像中國工程院院士、阿里云創始人王堅所說,AI和云計算的結合,將帶來云計算的第三次浪潮,大模型的開源和普惠,也將改變云計算的技術、產品和服務模式,云服務商未來的角色和定位,也會因大模型而產生變化。

美編 | 倩倩

審核 | 頌文

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章