強大且廉價!DeepSeek崛起,重塑大模型格局?
近期,一款名為DeepSeek的中國大模型,不但驚艷了全世界,簡直要讓行業“抖三抖”!
就在上周四,著名的硅谷人工智能數據服務公司Scale AI首席執行官Alexandr Wang在瑞士達沃斯世界經濟論壇上表示,中國領先的人工智能實驗室DeepSeek在圣誕節當天發布了一個“驚天動地的模型”,然后又推出了一個強大的專注于推理的人工智能模型DeepSeek-R1,該模型與OpenAI最近發布的o1模型競爭。
實證DeepSeek,有多神奇?
這是一個什么概念呢?要知道,近兩年來,OpenAI旗下的ChatGPT幾乎已經成了大模型的代名詞,而o1模型更是ChatGPT里的“當紅炸子雞”!
據財經早餐此前文章,即使是今年9月發布的o1 preview版本(非滿血版o1),不但具有了奧數金牌潛在能力,在物理、生物、化學問題的基準測試中,更是直接超過了人類博士水平。而今年12月發布的“滿血版”o1,功能更是達到了一個新的高度,成為幾乎所有大模型的對標對象!
但是DeepSeek的出現,讓o1感覺到了陣陣寒意:功能實在太強大了!不但能做數學題,還能寫文章,真可謂是“文理通才”!
對此筆者進行了一番小小的測試:打開DeepSeek主頁,便可以看到熟悉的人機交互界面,并且在右下角還有“深度思考”,意味著,提問者可以看到DeepSeek思考的全過程,這讓大模型顯得更像一個有血有肉的“人”,而不是一臺冰冷的機器,一處深不見底的黑洞!
圖片來源:DeepSeek界面(下同)
到底多強大呢?先來一道經典的奧數題“小試牛刀”——
在歷經長達數秒的思考后,DeepSeek給出了最終答案:
如果說這道題目比較傳統,那么換了一道比較“搞腦子”的奧數題,DeepSeek在思考了99秒后,依然給出了正確答案,有興趣的財友可以自己試一下:
測過了數學題,我們再來測一測作文能力:之前公眾號“雷叔寫故事”請DeepSeek以“用魯迅的風格,寫一些國產半導體行業”,這次筆者干脆來個“蕭規曹隨”,用同樣的題目,以此看看DeepSeek是否已經“江郎才盡”!
在歷經了10秒的思考后,DeepSeek交出了一篇題為《未莊新事》的答卷,并將魯迅筆下的諸多人物融為一體,至于文章質量如何,請各位看官自行評判!
這么“驚艷”的功能,價格究竟是多少呢?在試用期,完!全!免!費!沒有中間商賺差價只要手機號注冊,就可以享受其所有功能(千萬別被各種打著其名頭的收費程序騙了),最大程度降低使用門檻!
DeepSeek現在尚未公布訓練R1的完整成本,但它公布了API的定價,每百萬輸入tokens只要1~4元,每百萬輸出 tokens只要16元。這個收費大約只有OpenAI o1運行成本的三十分之一。
收費“斷崖式”下降的背后,是開源帶來訓練機制的全面革新,帶來訓練成本的“斷崖下降”——這或許意味著,開源將重新成為大模型的優選道路!
專一已死,開源當立?
數據源才是根本!
讓我們先來對比一下DeepSeek和其他模型的成本:
據公眾號“知識分子”等介紹,去年12月底,DeepSeek發布的DeepSeek-V3開源基礎模型性能,與GPT-4o和Claude Sonnet 3.5等頂尖模型相近,但訓練成本極低:整個訓練在2048塊英偉達H800 GPU集群上完成,僅花費約557.6萬美元,不到其他頂尖模型訓練成本的十分之一。
相比之下,GPT-4o等模型的訓練成本約為1億美元,至少在萬個GPU量級的計算集群上訓練,而且使用的是性能更為優越的H100 GPU。例如,同為頂尖大模型,去年發布的Llama 3.1在訓練過程中使用了16,384塊H100 GPU,消耗了DeepSeek-V3 11倍的計算資源,成本超過6000萬美元。
成本控制方面DeepSeek-R1“遙遙領先”
圖片來源:官網
在低價優質的基礎上,DeepSeek-R1還實現了部分開源。官方聲明同步開源了模型權重,允許研究者和開發者在自己的項目中自由使用該模型,或在其基礎上進行進一步的研究和開發。
更重要的是,DeepSeek-R1系列支持商業用途,并且允許用戶對模型進行任何形式的修改和衍生創作——據“新智元”,已經有一些團隊成功實現了“模型復刻”,也證明了開源的威力!
正如圖靈獎得主、Meta AI首席科學家楊樂昆(Yann LeCun)所說,“給那些看到 DeepSeek 的表現后,覺得‘中國在 AI 方面正在超越美國’的人,你們的解讀是錯的。正確的解讀應該是,‘開源模型正在超越專有模型’。”
圖片來源:楊樂昆
眾所周知,一分價格一分貨,用不到十分之一的成本,實現了如此驚艷的效果,DeepSeek究竟有何“秘密武器?”
據技術文檔,DeepSeek-V3訓練提效的原因主要包括:低精度計算、小參數量和高質量數據等。最重要的是,該模型使用數據蒸餾技術(Distillation)生成的高質量數據提升了訓練效率。
“數據蒸餾”是大數據技術中的一個概念,指的是通過一系列算法和策略,將原始的、復雜的數據進行去噪、降維、提煉等操作,從而得到更為精煉、有用的數據。說穿了,就是“站在巨人的肩膀上”。
在此可以舉一個類似的例子:兩個水平相當的銷售,如果一個人手中拿的是高意向名單,另外一個人拿的是底層名單(沒有經過篩選的),毫無疑問,前者的成單率一定會遠遠高于后者!
不過,蒸餾技術并不是十全十美。有學者認為,蒸餾技術雖然可以提高模型訓練效率,但借此開發的模型無法超越基礎模型的能力,在多模態數據方面效果不好,而且會導致研發人員為了快速取得成果而放棄對基礎模型的探索。
不管DeepSeek未來如何發展,目前而言,作為半路殺出的程咬金,其迅猛勢頭已經引起了全行業的關注:一家非美國的AI公司,形成的“沖擊波”將如何攪動世界?各方眾說紛紜。
人工智能的未來,誰與爭鋒?
“花小錢,辦大事”的DeepSeek,首先引發的是硅谷大廠的擔心:一旦這種模式大規模推廣,以往靠“堆算力”提高模型精度的“軍備競賽”將可能被證偽,進而帶崩一眾大廠的股價,不可等閑視之!
隨著大模型的競爭越來越卷,去年OpenAI、Meta、Google以及馬斯克的xAI,各大AI巨頭都開始打造自己的萬卡(GPU)集群,萬卡集群似乎成了訓練頂尖大模型的入場券。
對此Alexandr Wang同時表示,過去十年來,美國可能在人工智能競賽中領先中國,但在圣誕節那天,一切都變了。“我們發現,目前DeepSeek是表現最好的,或者與最好的美國大模型大致相當;這個領域的競爭越來越激烈,而不是越來越弱”。并將美中之間的人工智能競賽描述為一場“AI戰爭”。
Wang還表示,未來十年內,生成式AI市場的總收入有望達到或超過1萬億美元;美國將需要大量的計算能力和大量的基礎設施,需要釋放美國的能源來支持人工智能的繁榮。
面對競爭者的來勢洶洶,美國當然坐不住了:在大模型上繼續發力!
此前,特朗普總統宣布與OpenAI、甲骨文和軟銀成立合資企業,向美國人工智能基礎設施投資數十億美元。特朗普、軟銀首席執行官孫正義、甲骨文聯合創始人拉里·埃里森和OpenAI首席執行官山姆·阿爾特曼在白宮揭幕了Stargate“星際之門”項目。
主要的初始技術合作伙伴將包括微軟、英偉達和甲骨文,以及半導體公司Arm。他們表示,該項目將投資1000億美元啟動,并在未來四年內投資高達5000億美元。同時,馬斯克的 xAI 也正在大規模擴展其超級計算機,以容納超過100萬個 GPU,以幫助訓練其 Grok AI 模型。
對此Wang表示,他認為需要兩到四年的時間,才能實現真正的通用人工智能(AGI),而他自己對AGI的定義是“強大的AI系統,能夠像你我一樣使用計算機......能夠成為一名具備超強能力的遠程工作者”。
究竟什么才算AGI?這是一個被廣泛引用但定義模糊的概念:用于AI領域,表示AI的一個分支追求在廣泛任務上等于或超過人類智力的技術。正因為前景如此誘人,AGI也是一個爭論激烈的話題,一些行業領導者表示“我們即將實現它”,而另一些則表示“這根本不可能”。
由前OpenAI研究高管創立,由亞馬遜支持的的AI初創公司Anthropic,在過去一年中加大了技術開發力度,去年10月,這家初創公司表示,其AI代理能夠像人類一樣使用計算機來完成復雜的任務。還表示,該公司的技術能夠像電腦操作者“解釋計算機屏幕上的內容、選擇按鈕、輸入文本、瀏覽網站以及通過任何軟件和實時互聯網瀏覽來執行任務”。
Anthropic的首席科學官賈里德·卡普蘭(Jared Kaplan)表示,這種工具可以“以與我們基本相同的方式使用計算機,”甚至可以完成“數十甚至數百步”的任務。而OpenAI計劃很快推出類似的功能。
當被問及目前哪些美國初創公司正在引領人工智能競賽時,Wang表示,每個模型都有自己的優勢——例如,OpenAI的模型擅長推理,而Anthropic的模型擅長編碼;這個領域的競爭越來越激烈。
尾聲
DeepSeek的異軍突起,勢必在大模型領域引起新一輪的血雨腥風,那么究竟誰會笑到最后呢?且讓我們拭目以待,也請大家在評論區多多發表高見~
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。