首頁 > AI資訊 > 最新資訊 > DeepSeek的挑戰(zhàn)來了!AI教母李飛飛用不到50美元訓(xùn)練出新模型

DeepSeek的挑戰(zhàn)來了!AI教母李飛飛用不到50美元訓(xùn)練出新模型

新火種    2025-02-07

2月7日消息,在科技日新月異的今天,人類可以說活在一個不斷被人工智能顛覆的世界。據(jù)媒體報道,近日,“AI教母”李飛飛團(tuán)隊以不到50美元的云計算費用訓(xùn)練了一個名叫s1的人工智能推理模型。

據(jù)了解,s1模型在數(shù)學(xué)和編碼能力測試中的表現(xiàn)與OpenAI的o1和DeepSeek的R1等尖端推理模型類似。李飛飛團(tuán)隊研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0 Flash Thinking Experimental提煉出來的。

這則消息讓美國科技圈震驚不已,因為DeepSeek團(tuán)隊在春節(jié)前,將OpenAI的訓(xùn)練費用打到三十分之一。但僅僅過去不到一個月,現(xiàn)在李飛飛團(tuán)隊又用不到50美元訓(xùn)練出媲美DeepSeekR1的AI推理模型,人工智能領(lǐng)域可以說是越來越卷了!

李飛飛團(tuán)隊從Gemini蒸餾出媲美DeepSeek R1模型意味著,通過使用蒸餾技術(shù),研究人員成功地從Gemini模型中提取或“蒸餾”出知識,并利用這些知識訓(xùn)練了一個新的模型,這個新模型在性能上能夠與DeepSeek R1模型相媲美。

具體來說,蒸餾技術(shù)是一種模型壓縮和優(yōu)化方法,它涉及到一個大型、復(fù)雜的模型(通常稱為“教師模型”)來指導(dǎo)一個較小的、簡單的模型(通常稱為“學(xué)生模型”)的學(xué)習(xí)過程。

教師模型通常具有較高的準(zhǔn)確性和復(fù)雜度,而學(xué)生模型則更加輕量級,便于部署和使用。通過蒸餾技術(shù),學(xué)生模型可以繼承教師模型的知識,從而在保持較高性能的同時,減少計算資源的消耗。

值得注意的是,這種技術(shù)不僅限于Gemini和DeepSeek R1之間的蒸餾,它也可以應(yīng)用于其他AI模型的優(yōu)化和壓縮。此外,蒸餾技術(shù)還可以幫助解決深度學(xué)習(xí)模型在實際應(yīng)用中面臨的計算資源和延遲問題,使得這些模型能夠在資源受限的環(huán)境中也能表現(xiàn)出色。

公開資料顯示,李飛飛是華裔科學(xué)家,被譽為“AI教母”,在人工智能領(lǐng)域享有盛譽。她于1976年出生,16歲隨父母移民美國,憑借卓越的學(xué)術(shù)能力進(jìn)入普林斯頓大學(xué),并最終獲得加州大學(xué)人工智能和計算神經(jīng)科學(xué)方向的博士學(xué)位。

她最著名的成就是創(chuàng)建了全球最大的圖像識別數(shù)據(jù)庫ImageNet,包含21800個類別和超過1400萬張圖像,為計算機視覺領(lǐng)域的發(fā)展奠定了基礎(chǔ)。目前她是斯坦福大學(xué)終身教授,并曾擔(dān)任谷歌云首席科學(xué)家。

DeepSeek的挑戰(zhàn)來了!AI教母李飛飛用不到50美元訓(xùn)練出新模型


Tags:
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章