DeepSeek朝硅谷“開了一槍”
《科創板日報》1月27日訊(記者 張洋洋)幾乎是一夜之間,“來自東方的神秘力量”又一次擊中海外人士心臟。
近兩日,國產AI黑馬DeepSeek(深度求索)在全球科技界刷屏。新模型發布后的訪問量激增,一度讓DeepSeek閃崩,但問題在數分鐘內得到解決。AI界上一次出現宕機情況,還是月之暗面的Kimi出圈爆火之時。
截至發稿,DeepSeek在美區蘋果App Store的免費排行榜中飆升至第二,第一是ChatGPT。
▍與OpenAI“掰手腕”
DeepSeek本次“刷屏”,起因是1月20日其正式發布推理大模型DeepSeek-R1,該模型在數學、編程和推理等關鍵領域的表現,能與OpenAI的最強推理模型o1“掰手腕”,但其API調用成本卻低了90%-95%。
DeepSeek-R1的驚艷表現,先是引發了海外市場的強烈關注。在美國,多位AI行業的資深專家和從業者盛贊DeepSeek-R1。
美國計算機科學家、薩姆·奧爾特曼的導師吳恩達在第55屆世界經濟論壇(冬季達沃斯)上點贊DeepSeek——“我對 DeepSeek 的進展印象深刻。我認為他們能夠以非常經濟的方式訓練模型。他們最新發布的推理模型,非常出色……‘加油’!”。
微軟CEO薩蒂亞·納德拉也公開表示,“他們(DeepSeek)切實有效地開發出了一款開源模型,在推理計算方面表現出色,且超級計算效率極高。”納德拉還強調,“我們必須非常、非常認真地對待中國的這些進展”。
DeepSeek成立于2023年5月,其背后是國內對沖基金巨頭幻方量化。
2023年11月2日,DeeSeek推出首個模型DeepSeek Coder,該模型免費供商業使用且完全開源。2023年11月29日,DeepSeek LLM上線,其參數規模達到 67B,性能接近 GPT-4,同時還發布了該模型的聊天版本 DeepSeek Chat。
真正讓Deepseek在AI界出圈的,是其在2024年5月開源的第二代MoE大模型DeepSeek-V2。該模型在性能上比肩GPT-4 Turbo,價格卻只有GPT-4的百分之一,DeepSeek由此被稱作“價格屠夫”、“AI界的拼多多”。
隨后的2024年下半年,這家公司還先后發布了DeepSeek R1-lite-preview和DeepSeek-V3。
到了2025年推出的R1模型,在數學能力測試中,該模型在MATH基準測試上達到了77.5%的準確率,與OpenAI的o1不相上下;在編程領域,R1在Codeforces評測中達到了2441分的水平,高于96.3%的人類參與者。
而這一切,是在不到600萬美元的投入和2048塊低性能的H800芯片的條件下完成的,訓練時間僅用兩個月。這種“四兩撥千斤”的模式,顛覆了人們對OpenAI“大力出奇跡”式的固有認知,結果令全球側目。
▍為何是DeepSeek?
在國內7家頭部的大模型創業公司當中,DeepSeek可以說是最不顯山不露水的一家。在各個大模型廠商早已開啟買量,進行廣告投放品牌營銷時,據《科創板日報》記者了解,這家公司至今尚未有公關團隊。
2023年4月,幻方量化宣布成立新組織,集中資源和力量,探索AGI的本質。當時幻方就表示,多年以來,公司堅持把營收的大部分投入人工智能領域,建設領先的AI硬件基礎設施,進行大規模的研究,探索人類未知的奧秘。
如今來看,在這一年多時間里,DeepSeek的進展迅速。當下的AI戰事進入中場,戰況尤為激烈,為何是DeepSeek先讓硅谷 “慌了神”?
近期,在微信朋友圈中,《科創板日報》記者注意到,不少AI領域的從業者和投資人,對此進行了分析討論。除了技術實力本身,團隊的創新理念和人才隊伍,是業內人士認為DeeSeek能在群狼環伺的AI界殺出重圍的主要原因。
幻方量化和DeepSeek創始人梁文鋒,畢業于浙江大學信息與通信工程專業。業內口碑稱,這是一位極致的80后技術理想主義者。創立幻方,梁文鋒就在幕后潛心鉆研技術,在DeepSeek時代,其依舊延續著低調作風,和一線研究員一樣,每天“看論文,寫代碼,參與小組討論”。
“過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這并非是一種理所當然。這一波浪潮里,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。”在接受《暗涌》的采訪中,梁文鋒說。
DeepSeek的招聘公告中,赫然寫著“頂尖人才招聘”。公開信息顯示,目前的DeepSeek團隊,集結了一批國內名校畢業的高密度年輕人才,其中不乏應屆生、實習生。在這里,工作經驗不再是衡量人才的唯一標準。DeepSeek的HR在社交媒體平臺表示,“著重考察人選素質和對大模型的熱愛”。
只要員工的技術提案有潛力,他們所需算力和資源都能得到充分滿足。在大模型領域,算力是稀缺的資源,DeepSeek則是“萬卡GPU訓練集群,無需申請,不限使用”。
對于這些人才,多名熟悉DeepSeek的AI業內人士也反饋,給出的薪酬極具競爭力。
“投身于探索 AGI 的本質,不做中庸的事,帶著好奇心,用最長期的眼光去回答最大的問題”,這是DeepSeek官方微信號寫下的簡介。某種程度上,DeepSeek代表了中國“硬核技術創新”的敘事。可喜的是,DeepSeek并非孤例。
前不久,宇樹科技發布了一段最新機器狗產品B2-W的演示視頻,視頻中B2-W機器狗展現了一系列高難度動作,這引來馬斯克點贊轉發評論,火爆全網。
幾乎是在一同期,黃仁勛的英偉達中國年會之行中,宇樹科技CEO王興興受邀參與,一行人當中,還有銀河通用創始人兼CTO王鶴、深涌智能Emerging AI創始人黃可鋮等。
以這些硬核技術的創業者和公司為代表,他們正在開啟一個中國創新故事的新篇章。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。