首頁 > AI資訊 > 最新資訊 > 深度|挖角DeepSeek“天才AI少女”雷軍想做什么?

深度|挖角DeepSeek“天才AI少女”雷軍想做什么?

財中社    2025-01-01

  跨元旦直播前夕,小米(01810)董事長雷軍千萬元年薪挖角DeepSeek“天才AI少女”成為業內熱點。

  一財消息稱,DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一羅福莉將加入小米,或供職于小米AI實驗室,領導小米大模型團隊。

  公開信息顯示,還在讀研二時,羅福莉就在人工智能領域頂級國際會議ACL上發表8篇論文(其中2篇一作),后來登上知乎熱搜而迅速走紅。羅福莉畢業后進到阿里達摩院,從事預訓練語言模型,主導開發了多語言預訓練模型VECO。2022年她加入幻方量化,從事深度學習相關策略建模和算法研究,后又加入幻方量化創立的DeepSeek擔任深度學習研究員,參與研發大模型DeepSeek-V2。

  據知情人士稱,雷軍認為小米在大模型領域發力太晚,于是親自挖人,重金招募能夠領軍小米大模型的人才,支付的薪酬水平在千萬元級別。

  當下,AI大模型已經成為科技公司競爭的核心,甚至是焦慮所在。而馬斯克創立的xAI則進一步放大了這種焦慮。

  上周,xAI官宣完成60億美元新融資。兼之2024年5月B輪的60億美元,xAI公開的總融資額已經累計120億美元。而這家AI公司2023年7月份才成立。更早一些時間,另一家AI公司Anthropic從亞馬遜(AMZN)獲得了 40 億美元融資,總融資額達到 137 億美元。而 OpenAI 在10月份最新融資66 億美元,總融資額增至 179 億美元。

  AI大模型并非新概念,但具有重大影響力和代表性的大模型主要出現在 2018 年之后。2020 年,OpenAI 公司推出了 GPT-3,在零樣本學習任務上實現了巨大性能提升。2022 年 11 月,搭載了 GPT3.5 的 ChatGPT上市,憑借逼真的自然語言交互與多場景內容生成能力,迅速引爆互聯網。2023 年 3 月,超大規模多模態預訓練大模型 GPT-4 發布,具備了多模態理解與多類型內容生成能力。

  對小米這樣的公司來說,大模型能力將決定未來的競爭力。大模型會廣泛應用于小米的手機及汽車等業務,包括語音交互、智能家居控制、生活助手等場景。包括華為、榮耀、vivo和oppo等手機公司都將大模型作為重要戰略推出,比如華為的盤古大模型、vivo多模態大模型技術應用 “vivo 看見 - 藍心升級版”等。

  然而大模型雖好,卻是個極為燒錢的事情,需要建設規模龐大的基礎設施,為大模型提供充足的算力支持。xAI融資主要是為了快速擴展基礎設施,比如建設了配備價值數十億美元、10萬個英偉達GPU的超級計算機Colossus。而xAI接下來計劃把這一規模擴大到一倍,也就是20萬個GPU。

  對小米來說,這種資金規模巨大的投入方式很難跟進。據財報信息,小米預計 2024 年研發費用將達到 240 億元,2025 年更將攀升至 300 億元,從 2022 年到 2026 年的五年內,研發投入預計將超過 1000 億元。

  此前,小米在大模型方面實行的是合作與輕量化策略。與阿里云達成合作,強化旗下人工智能助手多模態 AI 生成能力;采取輕量化、本地部署的大模型策略,在重點場景上持續調優。

  而近期大熱的DeepSeek為雷軍提供了一個更具性價比的大模型策略。DeepSeek被譽為“AI界拼多多”,性能上與頂尖模型相媲美,同時價格卻遠低于市場平均水平。

  尤其是近期剛發布的全新超大規模模型——DeepSeek-V3。測試結果顯示,DeepSeek-V3已超越諸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流開源模型,甚至在性能上逼近 Anthropic 和 OpenAI 等封閉模型,大大縮小了開源和閉源 AI 之間的差距。

  但按每 GPU 小時 2 美元的價格計算,DeepSeek-V3 的整體訓練成本約為 557.6 萬美元。這一數字遠低于通常訓練大型語言模型所需的數億美元。例如,Llama-3.1 的訓練成本估計超過 5 億美元。

  這也意味著DeepSeek的基礎設施成本要遠低于其他AI大模型。公開信息顯示,幻方量化投資 2 億元自主研發深度學習訓練平臺 “螢火一號”,并在 2021 年進一步投入 10 億元用于 “螢火二號” 的研發,搭載了約 1 萬張英偉達A100 顯卡。在訓練 DeepSeek-v3 模型時,DeepSeek僅用 2048 個英偉達H800 芯片運行 57 天,消耗 278 萬個 GPU 小時。

  據Andrej Karpathy的分析,按照以往經驗,這種能力級別的大模型,通常需要接近1.6萬張GPU,目前行業內的模型大多使用約10萬張GPU。例如,Llama 3 405B模型消耗了3080萬GPU小時。

  從業務層面看,小米也許是國內最應該重金投入AI大模型的公司——小米可能擁有國內最豐富的AI入口。截至2024年Q3,小米AIoT平臺連接的IoT設備超8.61億,同比增長23.2%。如果AI大模型能夠順利融入如此之多的IoT設備,小米可以進一步加固自己的競爭門檻。

  不過目前對大模型需求最強的業務可能是智能駕駛。自從去年以來,端到端大模型幾乎成為了國內智能駕駛的標配,而且也的確大幅度提升了智能駕駛的水準。較晚入局造車的小米汽車雖然取得了不俗的成績,但在智能駕駛方面相對保守,而且在智駕總里程方面也落后于業內主流公司。公開數據顯示,小米SU7智駕里程已突破1億公里,理想智駕總里程達到22億公里,華為智駕總里程超過7.36億公里,小鵬汽車智駕總里程已超過 5.41 億公里。

  “天才AI少女”能夠借助“AI界拼多多”模型幫助小米汽車后來居上么?

(文章來源:財中社)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章