首頁 > AI資訊 > 最新資訊 > 基礎模型、開源旋風與浙江三劍客

基礎模型、開源旋風與浙江三劍客

新火種    2025-04-09

圖片

這是一場鏖戰,也是巨變的起點。靠怎樣的機制與模式搶占世界人工智能高地?浙江杭州的“三劍客”也許具有樣本解析價值。

文|徐鑫

編|任曉漁

中國的基礎模型開源旋風已持續數月。

前幾天,DeepSeek聯合清華發布關于推理時Scaling的新研究論文,外界紛紛推測距離DeepSeek-R2發布或許近了。這家開年后以開源模型名聲大震的創業公司有個外號——“真正的Open AI”。DeepSeek-V3和DeepSeek-R1兩大模型在開源社區GitHub的Star數量發布不到2個月就超越了OpenAI的明星項目Whisper。

擁有如此大的影響力除了模型不俗的表現和更低的成本,還在于DeepSeek的開源姿態。它開源了最先進的模型,采取的MIT協議是應用許可最寬松的協議之一,詳細公布了技術原理,并持續釋放出計算、通信、存儲到系統架構等各個層面的優化工具。

無獨有偶,國內另一家開源巨頭阿里云的口碑也已破圈。文生視頻模型萬相2.1(Wan2.1)在發布6天后Hugging Face及魔搭社區總下載量就超百萬。同時,截至2月底,整個通義千問(Qwen)系列模型的下載量達到1.8億,累計衍生模型總數9萬個,超越海外開源大模型鼻祖Meta的Llama系列,成為全球第一大開源模型系列。阿里上個月還發布了QwQ-32B模型,本月據稱還將發布今年上半年最重要的模型Qwen3。

此外國內的大模型公司階躍星辰、MiniMax、智譜、百度等也接連發布開源成果發布。在人工智能最關鍵戰場,中國正崛起為一支不可忽視的開源力量。

開源的動作不局限在產業界。在科學創新中,中國的新型研發機構也在積極響應由聯合國教科文組織193 個國家一致通過《開放科學建議書》,包括數據共享在內,開源也是開放科學重要原則。

之江實驗室去年開始在全球范圍內邀請公測地學基礎模型GeoGPT。GeoGPT在2023年初發起時就是一個開源項目,本月將正式面向全球科學界發布,并同步開源模型架構、訓練模型的數據列表。未來還將開源包括數據標注技術報告、代碼等更多成果,為全球AI4S領域的創新協作提供助力。

GeoGPT不僅為全球地學研究提供了文獻解析、地質圖識別及生成、學科知識圖譜等強大研究工具。它開放資源的態度也極為徹底,更重要的是由此形成了科學基礎模型的系統架構。

基礎模型競技場,正因中國模型開源迎來前所未有的信息透明度。更多元的角色有機會加入創新,獲得發展權。一個以開源模型為基石的世界創新生態網有望加速形成,就像硅谷形容DeepSeek一樣,這支開源力量可能也是一份中國“給世界的禮物”。

值得一提的是,浙江杭州在中國開源戰略里展現出極強的存在感。新銳創業企業DeepSeek、科技龍頭阿里云和承擔國家科技使命的非營利性新型研究機構之江實驗室,形成創新“三劍客”,以不同的機制全面呼應這一浪潮。

這是一場鏖戰,也是巨變的起點??吭鯓拥臋C制與模式搶占世界人工智能高地?中國在接下來的人工智能發展浪潮中如何持續創新?浙江杭州的“三劍客”也許具有樣本解析價值。(歡迎加作者微信,進群交流,微信號moonfly713)

01

給世界的禮物

“這不是你們的戰場?!?/p>

大模型浪潮的開啟者,OpenAI的CEO山姆·奧特曼2023年6月7日,在環球巡演到達德里時,給印度人民發展人工智能的熱情潑了一盆冷水。

有人問,“3名工程師有1000萬美元,是否可以構建類似OpenAI創新?”山姆·奧特曼非常冷酷地勸退——“我們要告訴你,在訓練基礎模型方面與我們競爭,完全沒有希望。你不應該嘗試?!?/p>

圖片

山姆·奧特曼備受爭議的發言現場視頻截圖。

這引發了軒然大波,隨即OpenAI以回答被斷章取義來安撫印度人的憤怒。他們解釋稱,山姆真正想說的是,“用1000萬美元與OpenAI競爭是真的行不通。正確的問題是,初創公司應該做些什么以前做不了的事,給世界帶來新東西?!?/p>

這一風波其實很好地概括了過去兩年絕大多數時刻,人工智能全球發展格局和根植于其中的結構性沖突——大模型世界正呈現出硅谷閉源寡頭主導的局面,天量資本投入拉高了參與門檻,世界上許多地區和領域無法參與這場創新。

斯坦福大學每年會發布AI Index追蹤全球AI發展趨勢,2024年報告提及的一系列趨勢基本呼應了上述判斷:大模型訓練成本正以飛快的速度急劇攀升;AI在全球區域發展極度不平衡,美國、歐盟、中國之外,這份報告中看不到其他地域參與者的身影;學術界也漸漸在這場創新中落在后面。

山姆·奧特曼不知道,在他的斷言發出的那個月底,一個“瘋狂的”中國人公開宣告了對這種權力結構的挑戰。

“后邊可以把我們的訓練結果大部分公開共享……而不是技術只掌握在一部分人和公司手中,形成壟斷?!绷何匿h在那個6月第一次接受媒體專訪時說。

當時把這個宣言當回事的人很少。一方面,雖然中國在大模型領域加速追趕,世界當時并不認可和獎勵來自中國的創新。2023年11月29日,頂著中國電商頭號玩家加上中國最大云計算公司并且發布了通用模型等若干頭銜的企業加起來市值,第一次比不上拼多多。人們還總用前一天去世的芒格老爺子的話調侃,“他們仍然是一個該死的零售商?!?。

更何況,DeepSeek是中國大模型創新生態里的邊緣角色,當時梁文鋒說的很多話也讓人心生疑竇。一家從量化基金脫胎出來的小創業團隊,憑什么也要做AGI。靠著好奇心驅使去探索,它怎么活下去?

不要怪普通人辨別不出來DeepSeek的屬性。理想主義者一腔熱血但沒有然后的故事太多了。一個在杭州獵頭圈流傳的段子是,獵頭幫DeepSeek挖人經常收到一句,“謝謝,不考慮,這個賽道沒有初創公司的機會?!?/p>

可以說,新一波人工智能發展浪潮里,世界都籠罩在一個陰影之下,OpenAI所代表的硅谷閉源模型領先和定義規則,機會不屬于其他任何人。

從這個意義上,也許能更好理解DeepSeek開源并被世界認可的語境——一家在美國之外的企業,性能比肩一線閉源模型,成本卻只是同行幾十分之一,以最開放的態度,給了開發者常寬松的許可,在技術堆棧上有非常深度的優化,并且不吝于分享。它對全球的AI開放創新生態價值不言而喻。

就像Meta首席科學家楊立昆(Yann LeCun)所言,這是開源的勝利。開源模型從開源汲取力量也會回饋開源運動。比如DeepSeek模型采用的MOE架構就不是新事物,此前歐洲的大模型公司Mistral發布的開源模型就采用這一架構。

前所未有的信息透明度,引發了新的開源浪潮。截至2月底,阿里云、階躍星辰、月之暗面、MiniMax、商湯、豆包、百度等多家公司都有開源消息傳出。DeepSeek自身也繼續加大開源步伐,中國的開源力量在進一步壯大。

此前游戲的“配角”們對開源力量的熱情溢于言表。《自然》雜志在一個星期以內發表了五篇文章來關注DeepSeek。印度的技術論壇圍繞著DeepSeek熱議了一個多月。

在2月中旬舉行的巴黎人工智能行動峰會上,DeepSeek也是討論熱門。Mistral公司聯合創始人Arthur Mensch稱之為“中國的Mistral”,認為它印證了開源的正確性,并給了Mistral繼續發展的靈感。

圖片

巴黎人工智能行動峰會上DeepSeek備受關注。

AI應用熱潮也因為這股開源浪潮正迎來爆發。大模型就像電力,現在小企業、小團隊和科研部門能更方便下載和本地部署,接入到千行百業的場景應用中去。

就像硅谷知名風險投資家馬克·安德森所說的那樣,“作為開源模型,它是對世界的深遠禮物”。

02

基礎模型:人工智能新時代的一場團戰

2月10日,OpenAI花了1400萬美元在美國關注度最高的橄欖球決賽做了1分鐘廣告,致敬人類文明里的一系列里程碑。大模型最后出場,被OpenAI定義為人類最偉大的創新之一。

圖片

OpenAI廣告中致敬登月的畫面。

這個廣告不算夸大其詞。ChatGPT除了是一個成功的商品,更是人工智能新時代的召喚師。

英偉達CEO黃仁勛稱,ChatGPT是人工智能的iPhone時刻。這個說法很清晰解釋了GPT基礎模型對人工智能產業的改變。iPhone誕生后,手機不再是打電話的工具,而變成了一個入口。之后,移動互聯網時代跟著它來了。

類比手機的iPhone時刻,OpenAI推出ChatGPT后,大眾感知到的人工智能也不是上一代的人工智能。而基于Transformer架構的“基礎模型”是這個新時代的策源和驅動。

創新的種子在更早的2017年種下。從不那么正規的論文名字《Attention is All you Need》出自論文作者之一喜愛的披頭士樂隊;到論文署名時作者是排序隨機排列;再到論文誕生的過程,8名不同背景和來歷的員工從走廊上的偶遇和午餐時不經意的對話和許多靈機一動中創造了新架構——你能看到一切都那么有偶然性。

它帶來的深遠影響,當下似乎也很難描摹全貌。

ChatGPT是其中的重要瞬間,而高光時刻少不了2024年諾貝爾獎。物理學獎表彰了Geoffrey Hinton通過人工神經網絡實現機器學習的奠基性發明,化學獎名單里則有谷歌旗下DeepMind公司用人工智能來解決蛋白質結構預測的AlphaFold2的發明者。人們意識到,人工智能還在變革科學發現。AlphaFold2就是基于Transformer架構的。

大眾察覺不到之處,若干行業在上演的“殺死你的,與你無關”戲碼,都與這場變革有隱秘的聯系。以機器人領域為例,由于Transformer架構的新技術路線出現,機器人的核心能力點不再是機器人的機械結構,波士頓動力積累了20年的機械能力優勢,在行業轉向對機器人大腦和軟件算法的追逐中變得毫無意義。有人將這場變革影響總結為“馬斯克殺死了波士頓動力”,而線索源頭則又回到了2017年。

可以說,“基礎模型”已經成為當前人工智能領域最關鍵戰場。它影響的不只是狹義的人工智能產業,還會顛覆科技創新本身。

阿里云創始人,之江實驗室主任王堅博士比喻,它就像文明發展歷程里的長江和黃河,有了這兩條大河,才有沿著河流繁衍生息的文明和生態。

基礎模型的基礎性和深遠影響,也讓圍繞著基礎模型的競爭,變成了國家和區域在人工時代發展權的競爭。參與這場全球競爭的必要性不言而喻,以DeepSeek、阿里云、之江實驗室為代表的中國開源力量對全球科技平權,消除發展鴻溝的價值也更為突出。

如何在這場競爭中獲得更大主動?有必要回溯創新在美國的發生過程——從一篇論文到一個影響國家命運的產業育成,背后其實是不同組織形態,不同創新機制的合力結果。它誕生于眾多偶然中。

種子出自谷歌的8人臨時小組,其中不乏天馬行空的想法和不同創意碰撞后的化學反應。

圖片

英偉達在一場活動上邀請了Transformer論文的八名作者。

之后OpenAI這樣一家以反谷歌的名義集結的創業公司接下了火種。當時山姆·奧特曼和馬斯克還在同一個陣營奮斗,他們希望更強大的人工智能不能出自谷歌。

由于不知道投入會產出什么,這件事也沒有由已有的大公司來完成,谷歌自己就沒能吸收論文的思路搶占先機。甚至組織形態上也不能完全按照此前的形式,于是非營利性組織OpenAI創立,由馬斯克主要投資,它是硅谷風投創新機制之外的物種。

而OpenAI長成,又不只是創業公司的神跡。背后有2019年與云計算巨頭微軟秘密接觸對方量身打造的超級計算基礎設施。直到今天OpenAI身后也站著巨頭微軟。

對任何想要參與這場戰爭的國家、地區,這是一場團戰,需要以符合科技競爭和創新發生的邏輯來參與。

從這個意義看,浙江涌現出了由夢想驅動的創業公司DeepSeek、云計算龍頭阿里云和非營利屬性的新型研發機構之江實驗室,無意吻合了大模型時代多元主體參與的創新邏輯。

而多元主體,不同創新機制構成的“鐵三角”,形成的機制互補特性,為中國參與這場基礎模型競爭貢獻了獨特的浙江力量。解析浙江基礎模型“三劍客”這一樣本,也有利于在這場基礎模型戰爭中走得更遠。

03

創新從哪里來?

估計很多人沒有留意孕育DeepSeek的母體,幻方的英文名,high-flyer,登錄官網就能看到這個詞。遠大抱負的人。

對于事后想要尋找創新來路的人,這可能是另一個線索。梁文鋒自己說的是,要做最難最正確的事。

它們表達了同樣的意思,中國人要參與全球競爭,中國人要參與全球創新。就像錢學森幾十年前的那句反問,“中國人為什么不行?”

浙江的三劍客,都有這種參與全球競爭的眼界和勇氣。杭州城的另一個開源巨頭阿里云,成立之初瞄準的就是全球云計算產業的競爭,它幾乎與硅谷巨頭前后腳邁出步伐。

圖片

云棲小鎮孕育了阿里云。

而發布地學開源模型GeoGPT的之江實驗室,心里想著的目標也是要為全球科學研究提供公共產品。

這是中國新一代創新者必然要走的路。這些角色批量出現在浙江也很好理解,這里市場經濟最發達,企業實力雄厚,更有條件去參與全球硬核創新。同時,浙江本來就有義烏這樣鏈接世界需求的市場,在傳統產業競爭變得更激烈的背景下,整個社會更早體悟到要參與全球創新浪潮的必要性。

“信仰者會之前就在這里,之后也在這里。”梁文鋒此前認為可以用這種方式識別AI信仰者。某種程度上,它可能還能解釋為什么杭州在這波開源浪潮里得以形成“三劍客”格局。

2009年時,梁文鋒就開始研究GPU計算,探索用模型來給市場定價。由于堅定相信計算可以改變世界,幻方在2021年早早投資AI算力,這為后來DeepSeek能參與大模型競爭奠定了堅實的基礎。

阿里云押注云計算浪潮也始于2009年,經過多年積累成為全球云計算市場前四的玩家,并且2021年就開始了大模型的研發。而承擔國家科技使命的之江實驗室也早已調整規劃,聚焦智能計算,構建了智算集群,在最后關鍵時刻趕上了大模型時代的班車。

圖片

承擔國家科技使命的之江實驗室在2023年調整規劃,聚焦智能計算。

在這波浪潮里能站到前列看起來需要點運氣,但本質上,球滾到了長期主義者們的腳下。

這波創新者們還有一個有趣的特質,他們的驅動力很少與商業數據掛鉤,甚至充滿感性色彩。

梁文鋒此前提及,顛覆性技術面前,閉源形成的護城河是短暫的。開源發論文其實沒有失去什么,價值可以沉淀在團隊上,進而形成創新的組織和文化?;梅竭€在進軍AGI的公告中寫著,“好奇心,是最大的時代精神”。

肩負國家科技使命的之江實驗室,研發團隊在打磨GeoGPT時目標也非常樸素,他們提出要做出能讓自己感到驕傲的產品,為全球的地球科學家服務。

另外,Transformer的發明歷程充滿了跨領域的碰撞和偶然。論文發布五年后能被大眾感知到的ChatGPT才出現——這意味著創新需要生長空隙,才能走到大眾面前。

而DeepSeek的發展歷程也頗具偶然性,同時這種偶然里又有某種必然。因為只有市場經濟發達的地方才能理解“資本”這種生產要素的重要性。

也只有市場經濟發達,老百姓手里才有閑錢。這些錢可以投進互金平臺,成就中國互聯網金融之都;可以投資創業公司,讓杭州成為“天使之城”,也可以流向中國第一家互聯網銀行或者中國最知名的量化基金。在幻方這種用計算給市場定價的量化操作模式賺到大錢后,大家也不覺得它是異端,這才有了后面的DeepSeek。

圖片

幻方量化成立于2015年,很快就躋身百億私募。

十幾年前,同樣的故事也在這座城市上演過。云計算浪潮開啟之際,杭州和阿里,也是全國為數不多沒有把云計算當成騙子的城市和公司。而寬容和開放的環境下,十幾年前的投資,最終也讓阿里和杭州在大模型時代能手握全球前四的云計算公司這張牌。

浙江杭州是個愿意給“偶然”留出空隙的地方,這對這波開源創新浪潮在浙江涌現至關重要。

04

犄角之勢

這一波人工智能發展浪潮,浙江既不算傳統科教重鎮,沒有高端國際化人才優勢,產業鏈完備程度也不占優勢,能成為開源創新的重要節點,三劍客以不同的創新機制,扮演了不一樣的角色。

打響這場開源戰爭的創業企業DeepSeek,不是傳統的創業企業。

據說,它定義自己是“披著公司外衣的實驗室”。這估計是強調理想主義色彩、基礎模型的研究定位。阿里云創始人王堅博士則認為,這家公司的更好的定義是“拿著閑錢搞創新的創業公司”。

二者結合一下,也許能看明白它如何以不同于一般創業公司的創新機制來引爆開源浪潮。

用閑錢創業,能讓DeepSeek能做出那個不顧商業模式追問的決定,選擇最開放的MIT開源協議。那些對技術平權,科技普惠有巨大需求和渴望的地域、群體和組織,會因為這個最開放的協議傳遞出的普惠善意,積極擁抱和參與DeepSeek的開源生態。

圖片

Deepseek創始人梁文鋒出席活動演講圖。

而不同于傳統創投模式的資金結構和形態,也為梁文鋒和圍繞著他的技術理想主義者們打造一個更純粹簡單的環境。他不用回復朱嘯虎們的PMF拷問,也不用太糾結APP日活有多少。就像目前這一波開源,所有自有部署的流量,他轉手全送了。

而行業龍頭阿里云的創新路徑和模式與創業公司DeepSeek不同,對區域創新的價值也存在差異。

就像OpenAI背后有微軟Azure的云計算巨頭那樣,目前美國主流的模型廠商都與頭部的云計算公司形成了合作。依托于云計算基礎設施來完成基礎模型創新,已經是行業內通行做法。

阿里云作為國內云計算頭號玩家,Qwen開源模型已經形成了廣泛影響力,“云+AI”的組合,加上阿里的雄厚資金實力,能長久、穩健地推進大模型朝向全場景全模態全尺寸方向發展。

這里要說一句,杭州是國內為數不多云計算與基礎模型都能參與全球競爭的玩家,而浙江杭州能握住這張牌,背后又是體制機制創新的結果。特色小鎮的起點在云棲小鎮,也是阿里云成長的地方。今天阿里能完成AI轉型,三劍客里有阿里云的身影,十幾年前云棲小鎮時代就埋下了種子。

阿里云擁有海量的云計算用戶,背靠阿里的消費電商場景積累的平臺數據,也能為基礎模型走向產業應用打開了通道。你甚至能從一些被外界視作“失敗”案例里看到龍頭型企業在推進前沿技術落地場景的作用和價值。

比如新零售領域,過去兩年阿里堅決從這一領域撤退。但這些經過數字化技術徹底改造的企業,已經打造了一個數字底座,沉淀出了大量的場景數據?;A模型進步的成果也更容易被這些企業所吸收。比如插班生銀泰百貨,到阿里之后又退學,現在可能已經是國內商場零售領域最先用上Qwen和DeepSeek的企業。

從這個意義看,“失敗”這個詞對城市創新有著超越單一企業商業得失的價值。

而中小企業活力強勁,民營經濟活躍,應用場景豐富,也讓浙江具備從六七萬家企業里長出六七條龍的可能性。這是“有效市場”的真正含義——創新充斥著偶然和不確定性,許多參與者會在黎明到來前死去。死得多了,土地才會肥沃,它們會成為新物種的養分。

浙江杭州市場經濟發達,民營企業眾多。

三劍客里,之江實驗室作為國家戰略科技力量,它的領域和機制又與商業公司不同。

作為一家非營利性的新型研發機構,之江實驗室承擔了國家的使命,能以重投入、重人才的方式大兵團作戰。就像此前OpenAI的非營利屬性一樣,這種投入模式不用考慮短期的商業變現,可以從全社會的大盤子里來考量成果和價值。無疑,非營利屬性和開放科學原則,讓之江實驗室能將這類成果奉獻給全球科學界。

有人說,目前在全球科研領域由中國科學家主導的公共產品鳳毛麟角。當下之江實驗室的開放資源的整合和創新機制,正讓浙江有機會參與到基于人工智能去改變科學研究體系和科學研究方式的全球大討論中去。

可以說,從創新領域、機制、策源-賦能效應等多個維度,三劍客形成了一種犄角之勢,互補協同,有機會與區域此前的稟賦如數字經濟產業鏈、應用場景、產學研資源和數量龐大的中小企業等,構成浙江發展新一代人工智能的綜合集成優勢。

結語

像劍客一樣,去戰斗吧

“我們將以完全透明的方式分享微小而真誠的進步”,DeepSeek此前預告開源周十分謙卑真誠。它的開源成果也引起了全球技術社區的廣泛關注。

2月底,阿里云開源了視覺生成基座模型萬相2.1(Wan),采用了最寬松的Apache2.0開源協議。上個月阿里又推出了通義千問QwQ-32B推理模型。阿里云的全模態、全尺寸大模型開源之路還在繼續。

中國的開源新勢力正在以更徹底的姿態擁抱開放創新。這種前所未有的信息透明度,為全球人工智能的發展開辟了新的路徑。它促使了原本封閉的基礎模型廠商們在思考和調整策略,比如山姆·奧特曼就表示重新考量開源方式,最近OpenAI還預告將開源一款模型。

同時,它可能也會激勵許多國家重新規劃人工智能的發展。

日經新聞報道,日本AI研究第一人東京大學松尾豐教授稱,“日本也需要努力開發生成式AI模型。像DeepSeek這樣并非大型科技企業、也沒有雄厚資本的公司,能夠實現世界最先進的精度,這對日本的初創企業來說也是一種鼓舞”。

今年2月在巴黎舉行的人工智能行動峰會上,加納AI戰略專家、rAIma首席執行官Rashida Musa稱,他們觀察到DeepSeek無法獲得最優越性能的芯片卻突破困境進行創新。“這也是我們非洲必須要做的事。有了開源模型,我們可以更好地創新。對于未來,我很期待看到非洲的年輕人不再只著眼于商業成功,而是思考創造力、激情和影響力?!?/p>

在那些人工智能前沿創新逐漸沉寂的土地上,槍聲正在次第響起。

圖片

劇照截圖,圖文無關。

對中國的開源新勢力而言,競爭也不可避免地變得激烈起來。信息更透明后,玩家們希望快速完成商業循環正事實上變得更困難。

同時,開放分享也會讓競爭對手獲得技術。比如美國本身就有強大的開源生態,Meta的Llama系列開源模型的影響力就不可小覷,而美國的開源社區及工具生態本身就很強大。中國的開源生力軍們分享的技術也在讓對手變得更強大。

可以想見,國內開源的領頭羊正面臨著前所未有的競爭壓力。

如何持續保持創新?當然是像劍客一樣去繼續戰斗。

“務必要瘋狂地懷抱雄心,同時要瘋狂地真誠”。

原文標題:基礎模型、開源旋風與浙江三劍客

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章