上交大o1復(fù)現(xiàn)新突破:蒸餾超越原版,警示AI研發(fā)“捷徑陷阱”
團隊介紹:本項目的核心開發(fā)團隊主要由上海交通大學(xué)GAIR研究組,研究團隊早在一個多月前發(fā)布o1復(fù)現(xiàn)進展報告。
詳細作者介紹見:https://github.com/GAIR-NLP/O1-Journey#about-the-team
自從 OpenAI 發(fā)布展現(xiàn)出前所未有復(fù)雜推理能力的 o1 系列模型以來,全球掀起了一場 AI 能力 “復(fù)現(xiàn)” 競賽。近日,上海交通大學(xué) GAIR 研究團隊在 o1 模型復(fù)現(xiàn)過程中取得新的突破,通過簡單的知識蒸餾方法,團隊成功使基礎(chǔ)模型在數(shù)學(xué)推理能力上超越 o1-preview。團隊在本工作中特意聚焦于業(yè)內(nèi)廣泛使用卻往往未被公開披露的蒸餾技術(shù),想在 “揭秘” 蒸餾技術(shù)背后所能達到的收益的同時,又對 AI 研究界進行一次倡議,呼吁優(yōu)先考慮透明創(chuàng)新的方法,而不是一味追求短期性能提升和 AI 技術(shù)研發(fā) "捷徑"。研究團隊堅信,培養(yǎng)能夠從第一性原理思考而不是簡單套用現(xiàn)有解決方案的下一代 AI 研究者至關(guān)重要。團隊選擇 Qwen2.5-Math-72B 作為基礎(chǔ)模型,經(jīng)過精心設(shè)計的數(shù)據(jù)篩選和處理流程,僅使用數(shù)萬個從 o1 蒸餾的長思考鏈樣本進行訓(xùn)練。在美國高中數(shù)學(xué)邀請賽 (AIME) 等權(quán)威測試中,模型表現(xiàn)優(yōu)于 o1-preview。研究表明,通過標準的監(jiān)督微調(diào)方法,模型不僅掌握了復(fù)雜的數(shù)學(xué)推理能力,還展現(xiàn)出強大的泛化性。令人驚喜的是,這個主要針對數(shù)學(xué)推理訓(xùn)練的模型在其他領(lǐng)域也表現(xiàn)出色:
- 安全性評估中,在 Flames 測試集上的得分從 91% 提升至 92.5%
- 在應(yīng)對誤導(dǎo)性問題時的抵抗力顯著增強,抗 "奉承" 能力從 89.70% 提升到 92.65%
- 在通用場景評估中,Auto-J 和 LIMA 測試集的得分分別提升了 6.4 和 10 個百分點
- 技術(shù)文檔:https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report-part2.pdf
- 相關(guān)資源將近日公開:https://github.com/GAIR-NLP/O1-Journey
"這個突破背后隱藏著重要警示。" 項目負責(zé)人表示,知識蒸餾雖然提供了快速提升模型性能的捷徑,但也帶來了三個層面的隱憂:1. 技術(shù)層面:模型性能受限于教師模型,難以實現(xiàn)真正的突破創(chuàng)新2. 研究方向:過度依賴蒸餾可能導(dǎo)致核心技術(shù)研發(fā)投入不足3. 人才培養(yǎng):簡單的模型復(fù)制和優(yōu)化可能削弱研究人員的基礎(chǔ)創(chuàng)新能力為推動行業(yè)良性發(fā)展,團隊創(chuàng)新性地提出了技術(shù)透明度指數(shù) (TTI) 框架。該框架從數(shù)據(jù)、方法、評估和開源資源四個維度,對 AI 模型復(fù)制工作進行全面評估。研究發(fā)現(xiàn),目前業(yè)界多個 o1 復(fù)現(xiàn)項目的透明度普遍不足,最高分僅為 33 分。研究團隊建議,AI 領(lǐng)域應(yīng)當(dāng):
- 保持技術(shù)組合平衡,不過度依賴單一方法
- 持續(xù)投入基礎(chǔ)設(shè)施和算法研究
- 重視人才培養(yǎng),強化第一性原理思維的訓(xùn)練具體而言,這份報告分為幾個重要的板塊:
"構(gòu)建智能 AI 系統(tǒng)固然重要,但培養(yǎng)具有第一性原理思維的人才才是我們的終極使命。" 這句話道出了 AI 發(fā)展的深層智慧 —— 技術(shù)進步離不開深入的思考和創(chuàng)新。這項研究不僅展示了 AI 技術(shù)的最新進展,更為整個行業(yè)的發(fā)展方向提供了重要啟示。在追求技術(shù)突破的同時,如何保持創(chuàng)新活力、培養(yǎng)高質(zhì)量人才,將是決定 AI 未來的關(guān)鍵因素。研究團隊早在一個多月前的 o1-Journey (Part1) 中已經(jīng)提出了一種結(jié)合樹搜索構(gòu)建長思維鏈數(shù)據(jù)的方式,并取得了一定的初步效果。在整個技術(shù)路線中,最為關(guān)鍵的一個環(huán)節(jié)是如何構(gòu)建長思維鏈數(shù)據(jù),這種長思維數(shù)據(jù)需要體現(xiàn) “深度” 的思考,包含反思、糾錯和回溯步驟。雖然樹搜索是最有效的方法之一,但它可能會耗費大量計算資源和時間。除了樹搜索之外,合成長推理鏈的其他替代方法如下圖所示。這些方法在計算效率和推理完整性之間提供了不同的權(quán)衡。(1)詳細解析了蒸餾 OpenAI o1 系列模型的技術(shù)路線,并對其有效性進行了全面的評估。研究團隊發(fā)現(xiàn),在一個不錯的基礎(chǔ)數(shù)學(xué)模型上僅僅通過幾萬條 o1-mini 的蒸餾樣本進行微調(diào),就可以在美國高難度的數(shù)學(xué)競賽 AIME 上超越 o1-preview 的水平,并且整個過程所需要的技術(shù)復(fù)雜度極低。(2)除了數(shù)學(xué)推理這個場景外,我們還探索了 o1 蒸餾模型在其他不同視角(如幻覺、安全性)下的表現(xiàn),這些跨域?qū)嶒灢粌H揭示了知識蒸餾技術(shù)的優(yōu)勢,也展現(xiàn)了其固有局限性,并發(fā)現(xiàn)了一些意想不到的跨域表現(xiàn)模式。(3)建立了一個全面的基準框架,在多個不同的角度(如數(shù)據(jù)透明性、方法技術(shù)透明性、評估透明性以及資源的開源程度)評估和分類 o1 的各種復(fù)現(xiàn)嘗試工作的技術(shù)透明度與開放性,并為此設(shè)立了一套排行版機制。(4)最后,此研究報告還進行了非常深刻的討論,最終得出盡管追求更強大的 AI 很重要,但培養(yǎng)具有第一性原理思維的研究人員往往更加重要。這一教育使命不僅僅是一個技術(shù)層面的考慮,更是一項將塑造 AI 創(chuàng)新未來的根本性人文使命。章節(jié) 1:o1 復(fù)現(xiàn)的一條 “捷徑”o1 技術(shù)的回顧

o1-Journey (Part1) 中探索的技術(shù)路線。

各種合成長思維數(shù)據(jù)的方法(按照代價從小到大)。
- 完整的人類思維過程標注(代價最高)
人類解決問題很少遵循一條通向成功或失敗的線性路徑。相反,人們在遇到障礙時會經(jīng)常停下來反思、回溯并修改他們的方法。這個自然過程反映了長思維的特征。通過詳細記錄人類如何解決問題,我們可以生成真實的長思維訓(xùn)練數(shù)據(jù)。但是這種方式需要依賴大量極高質(zhì)量的人工標注,并且隨著問題難度的升級,標注的難度也會大幅上升。
- 多智能體方法
與策略模型不直接對反饋作出反應(yīng)的歷程學(xué)習(xí) (Journey Learning) 不同,我們可以讓多個智能體參與探索過程,指導(dǎo)它們扮演不同的角色。例如,我們可以構(gòu)建一個多智能體辯論系統(tǒng),其中策略模型生成持續(xù)的推理,而評判模型則評估是繼續(xù)還是回溯。當(dāng)找到解決方案時,這種交互過程自然會產(chǎn)生長思維訓(xùn)練數(shù)據(jù)。
- 從高級模型蒸餾
像 o1 系列這樣強大的模型展示出強大的反思和自我糾正能力。使用更強大的模型來指導(dǎo)較弱模型的常見做法,是一種簡單,不需要設(shè)計復(fù)雜技術(shù)路線的方法。然而,由于 o1 限制了對其內(nèi)部思維過程的訪問,因此需要謹慎的提示詞設(shè)計。蒸餾的技術(shù)路線
- 格式對齊
團隊選用了 Qwen-2.5-Math-72B 作為基座模型,在實際進行蒸餾之前,研究團隊首先在這個模型上面進行了 “格式化對齊”(Reformatted Alignment)。團隊從開源數(shù)據(jù)集 NuminaMath-CoT 上選取了一部分奧林匹克級別的問題作為起點,并應(yīng)用了一個過濾流程來優(yōu)化數(shù)據(jù)集:設(shè)計規(guī)則移除了依賴圖像的問題、缺乏明確標注答案的問題以及所有證明題,僅保留答案類型為數(shù)值的問題。為了進一步增強數(shù)據(jù)集,利用 GPT-4o-mini 重寫原始解答。重寫過程遵循特定的標準,確保解答的步驟是細粒度的、高度詳細的,并且篇幅更長。這一步驟還規(guī)范化了輸出格式,要求使用 \boxed {} 明確表示最終答案,以符合長思維格式。
- 蒸餾:通過使用 OpenAI o1 進行長思維鏈的合成。結(jié)果表現(xiàn),在相似的 “推理計算代價”(即在對應(yīng) benchmark 的平均輸出 token 類似的情形下),采用蒸餾技術(shù)得到的模型具有出色的表現(xiàn),在 AIME2024 上超過了 o1-preview 的表現(xiàn)。
實驗評估標準與使用 Pass@k、Maj@k 或 RM@k 等傳統(tǒng)評估指標不同,我們引入了一個新指標,旨在評估模型在不同計算代價場景下的表現(xiàn)。這種新方法反映了 “推理時擴展”(inference-time scaling) 的真實情況,在衡量大模型的有效性和效率方面發(fā)揮著關(guān)鍵作用。在 “推理時擴展” 時代,像 OpenAI 的 o1 系列這樣的模型已經(jīng)證明,性能不僅取決于訓(xùn)練時的計算量,還顯著受到推理過程中 "思考" 時間的影響。這種轉(zhuǎn)變需要一個更細致的評估指標,以考慮計算成本和性能之間的權(quán)衡。團隊提出的指標通過測量模型在特定的 benchmark 上,在一定的平均輸出 Token 下,獲得的準確率,反映這種 “推理時擴展” 的模式。此外,這個指標本質(zhì)上是可擴展的。在評估選取的平均 Token 比單次模型輸出 Token 數(shù)更高的場景中,采用 Maj@k 指標來近似模型的性能。注意,整個過程無需使用任何額外的獎勵模型。通過采用這種方法,我們確保了一個可擴展且公平的評估框架,能夠捕捉模型在不同推理時間計算設(shè)置下的表現(xiàn)。這種方法避免了人為約束,并允許進行有意義的比較,而無需依賴外部獎勵信號,僅專注于模型的內(nèi)在推理能力。結(jié)果

使用蒸餾數(shù)據(jù) SFT 后的模型在 AIME2024 和 MATH500 兩個 benchmark 上與 o1 系列模型在一定“推理代價”的表現(xiàn)比較。章節(jié) 2:復(fù)雜推理以外的能力除了在推理場景下,對蒸餾技術(shù)得到的模型進行性能的探究之外,團隊還涉足許多其他角度的問題,例如安全、幻覺,以及在更加通用場景任務(wù)上的表現(xiàn)。為了研究模型在不同領(lǐng)域的泛化能力,我們首先構(gòu)建了一個多樣化的雙語數(shù)據(jù)集。從我們的蒸餾 o1 模型輸出中,我們精心選擇了大約 5,000 個包含回溯思維和自我反思的高質(zhì)量樣本。這些樣本隨后使用 GPT-4o mini 模型翻譯成中文,形成了一個數(shù)量均衡的雙語數(shù)據(jù)集。最終的訓(xùn)練數(shù)據(jù)集包含 10,750 對中英混合樣本對。然后,我們使用這個精選數(shù)據(jù)集對 Qwen2.5-72B-Instruct 模型進行監(jiān)督微調(diào)(SFT),從而獲得我們的最終模型。

基于 Qwen2.5-72B-Instruct,經(jīng)過 o1-mini distill 的數(shù)據(jù) SFT 前后,模型在安全性、幻覺(事實準確性)、以及一些通用場景任務(wù)下的表現(xiàn)性能對比。安全性為了全面評估模型安全性方面的泛化能力,團隊構(gòu)建了一個由 600 個問題組成的多樣化測試集,這些問題是從三個已建立的安全評估數(shù)據(jù)集中精心選擇的:Flames、DiaSafety 和 WildSafety。具體來說,我們從每個數(shù)據(jù)集中提取 200 個問題,以確保在不同安全場景中的平衡代表性。我們使用 Safety-J 來評估原始模型和微調(diào)模型的響應(yīng)。評估結(jié)果揭示了模型在安全性影響上的有趣現(xiàn)象:雖然在 Flames 上的表現(xiàn)略有提升(從 91% 提高到 92.5%),在 DiaSafety 上保持穩(wěn)定(100%),但在 WildSafety 上出現(xiàn)了明顯的下降(從 92% 降至 86.5%)。這種安全性指標的輕微下降凸顯了一個關(guān)鍵發(fā)現(xiàn):即使使用以回顧和反思為重點的高質(zhì)量 o1 類訓(xùn)練數(shù)據(jù),如果訓(xùn)練數(shù)據(jù)缺乏明確的安全性對齊,模型的安全性表現(xiàn)也可能出現(xiàn)退化?;糜X(事實準確性)團隊還評估了模型在利用 o1 蒸餾的數(shù)據(jù) SFT 前后的事實準確性。團隊使用了來自 SimpleQA、ChineseSimpleQA 和 ChineseFactEval 的數(shù)據(jù)集。這些數(shù)據(jù)集包含中文和英文的基于知識的問題,用于驗證模型的事實準確性。ChineseFactEval 數(shù)據(jù)集包含兩個子集:通用問答和奉承性問答。奉承性問答子集在提示中包含誤導(dǎo)性答案,以測試模型的奉承傾向,而通用問答子集則采用類似 SimpleQA 的格式。這些數(shù)據(jù)集中的所有問題都需要可驗證的簡短答案。我們使用 GPT-4o 評估模型響應(yīng)與標準答案的匹配程度,以獲得更穩(wěn)健的答案匹配結(jié)果。結(jié)果表明,經(jīng)過 o1 蒸餾得到的數(shù)據(jù) SFT 后的模型在事實準確性方面沒有顯示出顯著改進。這主要是因為更長的推理鏈導(dǎo)致了額外的幻覺 —— 尤其是模型試圖假裝使用搜索引擎并虛構(gòu)搜索結(jié)果的現(xiàn)象。然而,這些嘗試使用搜索引擎的行為暗示了一個有前途的方向,我們認為為模型提供實際的網(wǎng)絡(luò)訪問能力將顯著提高其事實準確性。此外,SFT 后模型增強的推理鏈提供了詳細的分析和自我反思能力,這可能有助于防止幻覺的產(chǎn)生。我們還發(fā)現(xiàn),經(jīng)過 SFT 后,模型對奉承的易感性略有降低。這種改進可以歸因于自我反思過程,在這個過程中,模型能夠辨別并深入思考提示中呈現(xiàn)的不合理假設(shè),而不是不加質(zhì)疑地接受它們。

例1:反思和深度思考緩解回答的幻覺

例2:反思和深度思考緩解回答的幻覺

例3:反思和深度思考緩解回答的幻覺

例4:反思和深度思考檢測錯誤的假設(shè)

例5:反思和深度思考緩解回答的幻覺通用場景任務(wù)為了評估我們模型在通用場景中的表現(xiàn),我們從 Auto-J 和 LIMA 數(shù)據(jù)集中各抽取 50 個查詢,組成了一個包含 100 個查詢的測試集,并通過人工調(diào)整,特別聚焦于長期規(guī)劃任務(wù),并請三位領(lǐng)域?qū)<覍δP偷妮敵鲑|(zhì)量進行 0-100 分的評估。評估結(jié)果顯示在經(jīng)過 o1 蒸餾數(shù)據(jù)微調(diào)后,模型的表現(xiàn)有顯著改進。在 Auto-J 查詢上的得分從 81.6% 提升至 88%,在 LIMA 查詢上從 77.2% 提升至 87.2%。這種性能提升表明,我們的微調(diào)方法不僅改善了雙語對話能力,還增強了模型處理一般任務(wù)的能力,特別是在需要長期規(guī)劃和結(jié)構(gòu)化思維的場景中。章節(jié) 3:對工作透明度的評分體系為了系統(tǒng)地評估和比較各種嘗試 o1 復(fù)現(xiàn)的工作,我們提出了基于透明度的評價體系,這是一個全面的框架,用于量化各個工作實現(xiàn)的透明度和可復(fù)現(xiàn)性。該框架旨在為研究界提供客觀指標,主要從透明度角度評估 o1 復(fù)現(xiàn)工作,這包括幾個相互關(guān)聯(lián)的方面:數(shù)據(jù)透明度,涵蓋下游進行搜索或后訓(xùn)練所用數(shù)據(jù)集的透明性;方法透明度,體現(xiàn)在所描述技術(shù)、流程和實驗設(shè)置是否清晰;以及評估透明度,考慮性能評估的可復(fù)現(xiàn)性和全面性。此外,該框架還評價了資源的開源程度,如代碼、數(shù)據(jù)集和模型是否開源,以確保研究界能驗證和有效利用這些工作。這種全面的視角捕捉了復(fù)現(xiàn)工作中透明度的多面性。
- 數(shù)據(jù)透明度
這一方面評估數(shù)據(jù)來源是否明確在技術(shù)報告中指明,包括所使用數(shù)據(jù)集及其各自來源的詳細描述。這個數(shù)據(jù)涉及下游任務(wù)(如監(jiān)督微調(diào) (SFT)、強化學(xué)習(xí) (RL) 或搜索算法)中使用的所有數(shù)據(jù)集。數(shù)據(jù)的透明度,對后期后訓(xùn)練、搜索算法、強化學(xué)習(xí),以及最重要的長思維數(shù)據(jù)構(gòu)建階段起到了非常重要的奠基作用。
- 方法透明度
方法透明度確保對工作中采用的方法、技術(shù)和流程有足夠詳細的描述,以方便其他研究者的復(fù)現(xiàn)和驗證。本部分的評估由多個部分組成,從基礎(chǔ)模型的選取、介紹到訓(xùn)練、搜索、強化學(xué)習(xí)和數(shù)據(jù)合成方法。此外,除了詳細說明方法如何實施外,驗證方法本身的有效性更為重要。全面的評估應(yīng)量化各個技術(shù)對整體系統(tǒng)性能的貢獻(例如設(shè)計消融實驗、對比實驗),而不是簡單地報告最終結(jié)果。
- 評估透明度
評估透明度包括方法選用的 benchmark 測試集是否是領(lǐng)域公認的,并且全面公開的;此外,采用的評估指標是否權(quán)威,如果牽涉到自己定義的評估指標是否有詳細介紹其定義以及發(fā)明的動機。同時,在匯報的 baseline 中,很重要的一點是評估指標的對齊,即對不同的模型 / 方法是否是在公平、一致的實驗環(huán)境下進行評測的。
- 資源的開源程度針對以上提到的科研工作透明性的評價角度,研究團隊精心設(shè)計了一套評分機制,這套機制里涵蓋了 25 個是 / 否問題,并結(jié)合每個問題的重要性賦予不同的分值,最后得到了一套總分為 100 分的評價體系。
開源資源在促進可重復(fù)性和使研究社區(qū)能夠建立在現(xiàn)有工作之上發(fā)揮著重要作用。這一部分評估數(shù)據(jù)集、模型、代碼和文檔的可用性和可訪問性,這些對于獨立驗證和進一步實驗至關(guān)重要。利用上述的評價體系,團隊對市面上現(xiàn)存的 o1 復(fù)現(xiàn)工作進行了全面的評估。涉及的工作包括:Open o1、o1-Journey (Part1)、LLaMA-o1、K0Math、Skywork o1、DeepSeek-R1-Lite、o1-Journey (Part2,即本工作),評估的結(jié)果如下表所示:從評估結(jié)果可以看出,無論是工作在各個維度的透明開放程度,還是在資源的開源方面,團隊系列的 o1-Journey 工作都占據(jù)了非常大的優(yōu)勢,即有非常大的透明性、開放性層面,從而利于研究社區(qū)的進一步利用和探索。

對 o1 各種復(fù)現(xiàn)工作的評價體系,包含了 25 個 Yes/No 問題,總分為 100 分。

各種 o1 復(fù)現(xiàn)工作的透明度得分 (截至 2024.11.22 日的統(tǒng)計)。章節(jié) 4:“蒸餾” 的背后?教訓(xùn)從 o1 進行知識蒸餾的顯著成功,為在數(shù)學(xué)推理任務(wù)中獲得令人印象深刻的性能提升提供了一條 “誘人” 的捷徑。雖然這種方法提供了即時且切實的效益,但它掩蓋了一系列深層挑戰(zhàn),這些挑戰(zhàn)威脅著 AI 技術(shù)及其研究社區(qū)的長期發(fā)展。在本節(jié)中,團隊將探討優(yōu)先選擇容易獲勝而非基礎(chǔ)創(chuàng)新付出的真實代價,揭示出遠超純技術(shù)層面的影響。
- 表面吸引力:乍一看,蒸餾似乎是一種優(yōu)雅的解決方案:通過直接學(xué)習(xí) o1 的復(fù)雜推理模式,模型可以通過相對簡單的實現(xiàn)方式快速獲得顯著的性能提升。這種易用性使其得到了廣泛應(yīng)用,尤其是在那些希望迅速展示接近 o1 能力的組織中。然而,這種便利背后隱藏的代價可能并不明顯,但從長遠來看,對整個領(lǐng)域的發(fā)展可能是毀滅性的。
- 性能瓶頸:最直接的技術(shù)問題或許在于蒸餾方法的內(nèi)在局限性。通過蒸餾訓(xùn)練的模型,其能力不可避免地受到教師模型(在本例中為 o1-mini 模型)水平的限制。這種限制形成了隱性的 “天花板效應(yīng)”,即使蒸餾過程再精妙,也無法真正超越原始模型的能力。尤其是在需要擴展到新領(lǐng)域或應(yīng)對前所未見的挑戰(zhàn)時,這一局限性變得尤為突出。
- 創(chuàng)新缺失:更為根本的問題在于,蒸餾方法的廣泛應(yīng)用使我們錯失了核心技術(shù)創(chuàng)新的關(guān)鍵機會。o1 的真正突破不僅在于解決復(fù)雜問題的能力,還在于其推理時間擴展和搜索優(yōu)化的精妙機制。然而,通過規(guī)避開發(fā)這些基礎(chǔ)能力的挑戰(zhàn),我們可能正在加劇技術(shù)差距 —— 即掌握核心技術(shù)的組織與主要依賴蒸餾的組織之間的鴻溝。隨著領(lǐng)域的不斷發(fā)展,這種技術(shù)基礎(chǔ)設(shè)施差距可能變得愈發(fā)難以彌合。
- 研究風(fēng)氣的轉(zhuǎn)變:對科學(xué)研究風(fēng)氣的影響同樣令人擔(dān)憂。通過蒸餾獲得 “輕松取勝” 的便利性,正在使研究重點逐漸遠離基礎(chǔ)性挑戰(zhàn)。這一趨勢表現(xiàn)為對高級計算基礎(chǔ)設(shè)施投資的減少,以及對復(fù)雜搜索和推理算法開發(fā)的重視程度降低。這種由此產(chǎn)生的自我強化循環(huán) —— 缺乏基礎(chǔ)設(shè)施限制了研究可能性,從而進一步鼓勵依賴蒸餾方法 —— 有可能形成一個創(chuàng)新瓶頸,阻礙未來的重大突破。
- 基礎(chǔ)能力的削弱:最令人警惕的,是蒸餾方法對領(lǐng)域內(nèi)教育發(fā)展的影響。蒸餾方法的廣泛采用對未來 AI 研究者的培養(yǎng)構(gòu)成了顯著威脅。當(dāng)學(xué)生和職業(yè)初期的研究者主要接觸 “捷徑” 式的解決方案時,他們錯失了發(fā)展深度問題解決能力的關(guān)鍵機會。從第一性原理出發(fā)解決復(fù)雜技術(shù)挑戰(zhàn)的能力 —— 科學(xué)創(chuàng)新的基石 —— 可能會隨著快捷方案成為常態(tài)而逐漸被削弱。我們正目睹下一代 AI 研究者在問題解決方式上的轉(zhuǎn)變:他們不再通過解決基礎(chǔ)性挑戰(zhàn)獲得深刻理解,而更多地接受優(yōu)化和提示工程的訓(xùn)練。這種從“如何運作”到“什么有效”的轉(zhuǎn)變,標志著研究心態(tài)的根本變化,可能對領(lǐng)域未來的創(chuàng)新能力產(chǎn)生深遠影響。
- 第一性原理的衰退:第一性原理思維的削弱尤為令人擔(dān)憂,因為它動搖了科學(xué)創(chuàng)新的根基。從零開始開發(fā)搜索算法、優(yōu)化推理時間以及構(gòu)建推理機制的過程,提供了蒸餾方法無法替代的寶貴學(xué)習(xí)經(jīng)驗。這些挑戰(zhàn)迫使研究者深入理解模型的行為與局限性,形成系統(tǒng)性問題解決策略,并培養(yǎng)對算法設(shè)計與優(yōu)化的直覺。如果缺少這些經(jīng)歷,我們可能會培養(yǎng)出一代更傾向于套用現(xiàn)有方案,而非基于第一性原理開發(fā)新方案的研究者。這種趨勢將對領(lǐng)域的長遠發(fā)展產(chǎn)生深遠的不利影響。
- 學(xué)術(shù)影響:這種教育影響不僅限于個人技能的培養(yǎng),對學(xué)術(shù)研究環(huán)境的沖擊尤為顯著。學(xué)術(shù)界歷來是孕育基礎(chǔ)性創(chuàng)新的搖籃,但其對這種趨勢的脆弱性不容忽視。對快速產(chǎn)出的壓力可能掩蓋深入技術(shù)探索的價值,同時令學(xué)生對追求更具挑戰(zhàn)性和基礎(chǔ)性的研究方向望而卻步。當(dāng)研究重點更多放在性能指標而非深層理解上時,可能導(dǎo)致培養(yǎng)出一代擅長優(yōu)化卻缺乏創(chuàng)新能力的研究者。這種轉(zhuǎn)變對學(xué)術(shù)界的長遠發(fā)展無疑是一個巨大的隱患。
- 不斷擴大的鴻溝:展望未來,這些因素的累積效應(yīng)描繪出一個令人擔(dān)憂的前景。那些掌握了基礎(chǔ)搜索和推理技術(shù)的組織,與主要依賴蒸餾方法的組織之間的技術(shù)能力差距可能會變得愈發(fā)難以彌合。這一鴻溝可能導(dǎo)致研究生態(tài)系統(tǒng)的失衡:真正的突破將成為少數(shù)資源充足的組織的專屬領(lǐng)域,而更廣泛的研究群體則被困在依靠蒸餾實現(xiàn)漸進式改進的循環(huán)中。這種局面不僅限制了整體技術(shù)的多樣性,也將顯著影響領(lǐng)域的創(chuàng)新能力和公平發(fā)展。
建議與呼吁首先,各個研究組織應(yīng)保持良性、平衡的研究,既包括基于蒸餾的方法,也包括對搜索與推理優(yōu)化的基礎(chǔ)研究。其次,盡管蒸餾解決方案的短期效果顯著,對高級計算基礎(chǔ)設(shè)施的持續(xù)投入依然不可或缺。最后,研究計劃應(yīng)優(yōu)先培養(yǎng)搜索算法和推理優(yōu)化的核心能力,同時兼顧性能提升。在教育層面,我們需要重新設(shè)計培養(yǎng)未來研究者的方法。這包括開發(fā)兼顧實踐應(yīng)用與基礎(chǔ)理論的平衡課程、構(gòu)建既促進深刻理解又兼顧性能優(yōu)化的研究項目,并營造一種重視長期創(chuàng)新而非快速收益的研究文化。深刻的教訓(xùn)在于,蒸餾本身并非問題,它是我們技術(shù)工具箱中的重要組成部分。真正的風(fēng)險在于,它的便利性可能讓我們偏離基礎(chǔ)創(chuàng)新這一更困難但回報更高的道路。在未來的發(fā)展中,保持即時收益與長期發(fā)展的平衡,將是確保 AI 能力持續(xù)提升以及培養(yǎng)領(lǐng)域未來創(chuàng)新者的關(guān)鍵。構(gòu)建智能 AI 固然重要,但培養(yǎng)具備第一性原理思維的人才才是我們的終極使命 —— 畢竟,他們才是 AI 未來的真正設(shè)計者。
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。