首頁 > AI資訊 > 行業(yè)動態(tài) > 4o-mini只有8Bo1也才300B!微軟論文意外曝光GPT核心機密

4o-mini只有8Bo1也才300B!微軟論文意外曝光GPT核心機密

新火種    2025-01-02

微軟又把OpenAI的機密泄露了??在論文中明晃晃寫著:

o1-preview約300B參數(shù),GPT-4o約200B,GPT-4o-mini約8B……?

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

英偉達2024年初發(fā)布B200時,就攤牌了GPT-4是1.8T MoE也就是1800B,這里微軟的數(shù)字更精確,為1.76T。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

除此之外,論文中給OpenAI的mini系列,Claude3.5 Sonnet也都附上了參數(shù),總結如下:

- o1-preview約300B;o1-mini約100B

- GPT-4o約200B;GPT-4o-mini約8B

- Claude 3.5 Sonnet 2024-10-22版本約175B

- 微軟自己的Phi-3-7B,這個不用約了就是7B

雖然論文中后面也有免責聲明:

確切數(shù)據(jù)尚未公開,這里大部分數(shù)字是估計的。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

但還是有不少人覺得事情沒這么簡單。

比如為什么唯獨沒有放谷歌Gemini模型的參數(shù)估計?或許他們對放出來的數(shù)字還是有信心的。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

也有人認為,大多數(shù)模型都是在英偉達GPU上運行的,所以可以通過token生成速度來估計。

只有谷歌模型是在TPU上運行的,所以不好估計。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

而且微軟也不是第一次干這事了。

23年10月,微軟就在一篇論文里“意外”曝出GPT-3.5-Turbo模型的20B參數(shù),在后續(xù)論文版本中又刪除了這一信息。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

就說你是故意的還是不小心的?

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

微軟這篇論文說了什么

實際上,原論文介紹了一項與醫(yī)學相關的benchmark——MEDEC。

12月26日就已經(jīng)發(fā)布,不過是比較垂直領域的論文,可能非相關方向的人都不會看,年后才被列文虎克網(wǎng)友們發(fā)現(xiàn)。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

研究起因是,據(jù)美國醫(yī)療機構調查顯示,有1/5的患者在閱讀臨床筆記時報告發(fā)現(xiàn)了錯誤,而40%的患者認為這些錯誤可能影響他們的治療。

而且另一方面,LLMs(大語言模型)被越來越多的用于醫(yī)學文檔任務(如生成診療方法)。

因此,MEDEC此番有兩個任務。一是識別并發(fā)現(xiàn)臨床筆記中的錯誤;二是還能予以改正。

為了進行研究,MEDEC數(shù)據(jù)集包含3848份臨床文本,其中包括來自三個美國醫(yī)院系統(tǒng)的488份臨床筆記,這些筆記之前未被任何LLM見過。

它涵蓋五種類型的錯誤(診斷、管理、治療、藥物治療和致病因子),這些錯誤類型是通過分析醫(yī)學委員會考試中最常見的問題類型選擇的,并由8位醫(yī)療人員參與錯誤標注。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

而參數(shù)泄露即發(fā)生在實驗環(huán)節(jié)。

按照實驗設計,研究者將選取近期主流的大模型和小模型來參與筆記識別和糾錯。

而就在介紹最終選定的模型時,模型參數(shù)、發(fā)布時間一下子都被公開了。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

對了,省去中間過程,這項研究得出的結論是:Claude 3.5 Sonnet在錯誤標志檢測方面優(yōu)于其他LLM方法,得分為70.16,第二名是o1-mini。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

網(wǎng)友:按價格算合理

每一次,ChatGPT相關模型架構和參數(shù)泄露,都會引起軒然大波,這次也不例外。

23年10月,微軟論文聲稱GPT-3.5-Turbo只有20B參數(shù)的時候,就有人感嘆:難怪OpenAI對開源模型這么緊張。

24年3月,英偉達確認GPT-4是1.8T MoE,而2000張B200可以在90天內完成訓練的時候,大家覺得MoE已經(jīng)且仍將是大模型架構趨勢。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

這一次,基于微軟估計的數(shù)據(jù),網(wǎng)友們主要有幾個關注點:

如果Claude 3.5 Sonnet真的比GPT-4o還小, 那Anthropic團隊就擁有技術優(yōu)勢。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

以及不相信GPT-4o-mini只有8B這么小。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

不過此前也有人根據(jù)推理成本來算,4o-mini的價格是3.5-turbo的40%,如果3.5-turbo的20B數(shù)字準確,那么4o-mini剛好是8B左右。

不過這里的8B也是指MoE模型的激活參數(shù)。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

總之,OpenAI大概是不會公布確切數(shù)字了。

此前奧特曼征集2024年新年愿望,最后公布的清單中還有“開源”。2025年的最新版本里,開源已經(jīng)被去掉了。

4o-mini只有8B o1也才300B!微軟論文意外曝光GPT核心機密

論文地址:https://arxiv.org/pdf/2412.19260


Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章