首頁 > AI資訊 > 最新資訊 > DeepSeek-R1強化學習引領推理巔峰國產AI發起“諾曼底登陸”

DeepSeek-R1強化學習引領推理巔峰國產AI發起“諾曼底登陸”

21世紀經濟報道    2025-01-22

  2025年的AI大戰,比預想的更快來到。

  1月20日,在 DeepSeek-V3 發布僅僅26天后,深度求索公司再次發布了深度推理版本的 DeepSeek-R1。

  而該版本被認為全面對標 OpenAI 發布的大模型 o1,以及更輕量,但推理更快捷的 o1-mini。

  而由于深度求索此前發布的 DeepSeek-V3 已經在推理和數學方面展示出極強的能力,因此 R1 的推出被普遍認為是順理成章的結果。

  但 DeepSeek-R1 工程所展現的創造力和突破性,依然超過了絕大部分從業者的預期——比如他們利用更為純粹的強化學習(RL)技術,顛覆性地免去了模型啟動前需要人為賦能的傳統認知,真正意義上讓 AI 開始像人一樣思考。

  無巧不成書,就在 DeepSeek-R1 發布的同一天,另一家國內大模型“網紅”Kimi發布了多模態思考模型“k1.5”,明確劍指實現多模態推理能力的 o1。

  兩家中國AI企業先聲奪人,勢成圍剿——而 OpenAI 首席執行官山姆·奧特曼似乎也不甘寂寞。

  同一天,奧特曼再度在社交媒體預告了旗下推理模型 o3 和 o3 mini 即將在幾周后發布的信息。而按照 OpenAI 在去年的表態,o3 模型的能力將接近實現 AGI(通用人工智能)。

  然而,奧特曼的表態,仍然被許多網友戲謔為“OpenAI又賣期貨了”。

  2025年剛剛開始,AI大模型的聲浪比拼,攻守之勢悄然改變。

  明確對標 o1

  去年9月,OpenAI發布具有劃時代意義的 o1 模型。

  o1 模型擁有兩大標簽,其分別為傲人的推理與理化分析能力,以及首次出現的多模態(比如圖片、聲音等混合輸入)與推理結合的能力。

  然而,在1月20日這天, OpenAI o1 模型的兩大支柱,被國內的兩家 AI 新秀發布的新版模型,分別明確對標。

  DeepSeek-R1 之前,深度求索已經有基于推理能力的 DeepSeek-R1 Lite。然而在 DeepSeek-R1發布之后,眾人發現其驚艷程度不亞于 DeepSeek V2 與 V3 迭代帶給人的驚喜。

  知名AI能力評測機構 LiveBench 上,DeepSeek-R1 的綜合得分來到了全球第二,僅次于被俗稱為“滿血版本”的 OpenAI o1,比 DeepSeek-V3 的排名高出四位。

  DeepSeek 官方網站上,記者發現,網頁版 DeepSeek-R1 的功能被集成在了 V3 的“深度思索”調用功能按鍵之上。同時,在交互過程中, DeepSeek-R1 會用淡色小字來呈現模型的推理鏈條——這一點與被視為推理模型集大成者的 o1 雷同。

  有試用的AI工程師如此描述 DeepSeek-R1 絲滑的感覺。

  “在使用別的AI的過程中,你仍然會覺得他們在不斷的搜索、拼接資料和數據,不論是推理還是做數學題。但 DeepSeek-R1 給我的感覺是它真的像一個人——即便也會犯錯,因為人也會犯錯。”

  當然,DeepSeek-R1 無法完全對標 o1,因為至今為止仍然專注于單模態的推理。不過多模態推理,恰恰被新模型發布“撞車”,且與 DeepSeek 同樣“C位出道”的月之暗面(Kimi)發布的 k1.5 模型所完成。

  一系列權威評測結果顯示,k1.5在數學能力上,無論是純文本還是視覺多模態均超過 o1,在短推理上也超過了 GPT-4o 和 Claude 3.5-sonnet。

  而不論是 DeepSeek-R1,還是 Kimi k1.5,兩者在公開的開發文檔中都透露,他們采用了類似的強化學習(RL)能力,在無人為干預監視的情況下提升了模型的能力。

  一位用戶名為“Flood Sung”的Kimi工程師在社交平臺上表達了英雄所見略同的驚喜感:

  “驚喜的是在我們實際訓練的過程中,我們有了重要的發現……這個和友商 DeepSeek 的發現幾乎是一樣的。”Flood Sung表示:“感覺自己像個AI,哦不,是AI太像人了。”

  國產AI后發制人

  大約一年前,擁有著OpenAI聯合創始人,特斯拉自動駕駛研發負責人頭銜的 AI 界名人 Andrej Karpathy 曾信誓旦旦的表示:英語是AI最為常用的語言。

  當然這一格局至今尚未改變。在使用 DeepSeek-V3 時,一些人發現,模型返回的結果時常會是全英文的表達。包括隔夜 DeepSeek-R1 發布之后,許多人發現 R1 在陳述推理過程中時不時展示英文。

  而就當大家以為 DeepSeek 和 Kimi 都是站在 OpenAI 肩膀上的時候,中文卻同時出現在了OpenAI o1的推理過程中。

  就在 DeepSeek-V3 發布之后,一位網友發現,其使用的 o1 Pro 會隨機使用中文進行思考。而有專家認為,除了中文字更為簡練和高效之外,由于當下的大量訓練集中包含中文,其也讓 o1 模型用更為有效的中文來進行推理。

  這至少證明,英文與中文的AI內容,已經開始互相影響。

  與 DeepSeek-V3 類似,R1 的發布也在外網引發了熱議。

  英偉達AI負責人Fan Jim則在社交媒體上再次表達了對 DeepSeek-R1 模型的感嘆:

  “我們正生活在一個由非美國公司踐行 OpenAI 最初使命的時代——真正的開放、前沿的研究,為所有人賦能”,Fan Jim表示:“ DeepSeek-R1 不僅是開源的,他們還展示了所有訓練的秘訣。”

  與此同時,包括 UC Berkeley 教授 Alex Dimakis,Abacus ai CEO Bindu Reddy等人,均表達了中國AI奮起直追,美國AI企業還需努力的感嘆。

  種種跡象顯示,國產 AI,正以迅雷不及掩耳之勢,融入 AI 世界的洪流。

(文章來源:21世紀經濟報道)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章