開源大模型風起云涌通義千問的關鍵一役
熱烈而焦灼的“百模大戰”之后,大模型如何賦能千行百業成為新的創新方向。其中,在開源大模型的探索中,不少開發者或創業公司正在基于開源大模型開發屬于自己的模型和應用。
例如,個人開發者陶佳利用通義千問(Qwen)開源模型搭建文檔問答相關應用,探索大模型應用于電力領域的各種可能性;華東理工大學薛棟團隊基于開源的通義千問基座模型開發出心理健康大模型 MindChat(漫談)等;有鹿機器人創始人、CEO陳俊波依托自主研發的第二代具身智能技術LPLM大模型,打造軟硬件高度適配與可泛化的通用智能大腦。
在這個過程中,阿里云等科技公司也通過開源基礎大模型,為個人開發者、科研團隊、創業公司、大中型企業提供大量的開發工具,推動大模型技術的普惠和落地應用,促進中國大模型生態繁榮。
開源大模型掀起開發潮
就職于中國能源建設集團浙江省電力設計院有限公司者陶佳,是開源大模型的一名個人開發者。
“我用很省錢的方式在玩開源模型,在家里買個服務器、扔三四塊顯卡上去,下載Qwen、讓它在服務器上運行,再搞個FRP反向代理,從阿里云上買最便宜的30多塊錢一個多月的服務就行,這樣就能通過外網訪問家里的服務器,在單位里也能用通義千問做實驗?!碧占颜f。
陶佳正在做的是用Qwen做基于私有知識庫的檢索問答類應用,從幾十萬甚至上百萬字的文檔中查找內容,比如,給定一個英文文檔,告訴大模型需要查找的內容,請大模型根據文檔目錄回答,在哪個目錄項下可以找到答案。
00后華東理工大學·X-D Lab(心動實驗室)成員顏鑫則有著自己的科研團隊,他們基于開源的通義千問基座模型開發了三款垂直領域大模型:心理健康大模型 MindChat(漫談)、醫療健康大模型 Sunsimiao(孫思邈)、教育/考試大模型 GradChat(錦鯉)。
“MindChat是一款心理咨詢工具, 像個AI心理咨詢師,打工人上班被老板罵了,心里不爽;學生黨寫不出論文,擔心影響畢業……日常生活中遇到這些事情,都可以去跟MindChat聊聊,甚至可以語音輸入。”顏鑫說道。
“醫療、心理都是非常注重隱私的場景,很多客戶都要求私有化部署,因此我們選擇了開源模型?!鳖侖位貞浄Q,Qwen出現之前他們試用了一些其他模型,比如ChatGLM、Baichuan、InternLM。Qwen-7B和14B推出后,他們快速進行試驗,用內部數據和自己的benchmark做了測評?!霸谖覀兊膱鼍爸?,通義千問是所有的開源模型里發揮最好的,是目前最優解。”
圍繞開源大模型的開發和創業浪潮不斷涌動,有鹿機器人創始人、CEO陳俊波,是那個讓開源大模型更接近商業化落地的人?!皣鴥扔袔兹f家傳統專業設備生產制造商,但是他們沒有能力去研發人工智能系統。我們的使命就是,給每個專業設備提供一個通用的人工智能大腦?!?/p>
舉例來看,在清潔行業,物業經理說“在一號樓門前有一個可樂瓶,你過來掃一掃”。有鹿機器人在路面清潔機器人中集成Qwen-7B,使機器人能以自然語言與用戶進行實時交互,理解用戶提出的需求,將用戶的高層指令進行分析和拆解,做高層的邏輯分析和任務規劃,完成清潔任務。
隨著越來越多的開發者和企業加入到開源模型陣營,開源模型的生態逐漸形成氣候,“高質量開源基礎大模型-大模型優化-AI應用創新”的商業化落地發展路徑也變得清晰起來。
為什么選擇開源大模型?
2023年,是AI大模型快速發展的一年。伴隨ChatGPT的橫空出世,國產大模型的數量也快速增長,數據顯示,截至今年10月,國內已發布238個大模型。
目前,大模型行業主要有兩條技術路線,一個是以OpenAI的GPT4.0為代表的閉源路線,馬斯克曾評價其一點也不Open,一條是以Meta的Llama2、阿里QWen等為代表的開源路線,后者在創投領域更受追捧。
百模大戰當前勝負未分,開源、開放、開發者,或是當下能最大限度激發創業熱情的連接方式。
“我們沒有資源從頭訓練一個基座模型,選模型的第一個考量就是,它背后的機構能不能給模型很好的背書,能不能持續投入基座模型及其生態建設,為跟風、吃紅利而生的大模型不可持續?!鳖侖畏窒矸Q,他希望選擇主流的、穩定的模型架構,它能最大限度發揮生態的力量,匹配上下游的環境。
開源大模型可以幫助用戶簡化模型訓練和部署的過程,使得用戶不必從頭訓練模型,只需下載預訓練好的模型并進行微調,就可快速構建高質量的模型或進行相應的應用開發。
而在陳俊波看來,他需要的不是一個一成不變的、智能性水平的大語言模型,而是隨著數據的積累,能變得越來越聰明的大語言模型。閉源大模型顯然做不到這一點。所以在他們的業態里面,終局一定是開源模型。
同時,未來速度聯合創始人兼CEO秦續業提出,開源大模型在B端大有可為,企業級用戶更在意的是能不能解決問題,而非要求模型能力面面面俱到。開源大模型更可控、定制化強、更具性價比。具體而言,經過簡單微調,開源大模型能滿足很多B端場景需求,同時開源大模型推理成本大約只有閉源收費大模型的1/50。
通義千問助力生態繁榮
大模型開源之風漸起。優質大模型的開源有助于促進中國大模型的技術進步與應用落地,推動大模型技術普惠。然而,目前國內市面上有100多個大模型,只有少數是高質量開源的。
此前,中國大模型市場暫未出現足以對捍Llama 2-70B的優質開源模型。12月1日,阿里云開源通義千問720億參數模型Qwen-72B,填補了國內空白,大中型企業可基于Qwen-72B開發商業應用,高校、科研院所可基于Qwen-72B開展AI for science等科研工作。
此外,阿里云同步開源了通義千問18億參數模型Qwen-1.8B和通義千問音頻大模型Qwen-Audio,至此,通義千問開源光譜覆蓋18億、70億、140億、720億參數的4款大語言模型,以及視覺理解、音頻理解兩款多模態大模型,實現“全尺寸、全模態”開源。
作為國內最早開源自研大模型的科技公司之一,阿里云對打造大模型開源生態不遺余力,如今,補齊開源大模型的最后一片拼圖,是通義千問的關鍵一役。
阿里云CTO周靖人表示,開源生態對促進中國大模型的技術進步與應用落地至關重要,通義千問將持續投入開源,希望成為“AI時代最開放的大模型”,與伙伴們共同促進大模型生態建設。
(文章來源:時代周報)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。