OpenAIo3模型遭質(zhì)疑?第三方實測分數(shù)遠低于自測成績
財聯(lián)社4月21日訊(編輯 劉蕊)北京時間4月17日凌晨,OpenAI的多模態(tài)推理大模型o3與o4-mini重磅上線,這一大模型號稱是OpenAI迄今最強、最智能的模型。
然而,研究機構(gòu)很快發(fā)現(xiàn),o3人工智能模型的開發(fā)方和第三方基準測試結(jié)果存在明顯差異,這引發(fā)了人們對該公司透明度和模型測試實踐的質(zhì)疑。
OpenAI測試作弊了?
去年12月,OpenAI在預(yù)發(fā)布o3時,就強調(diào)了該模型在解決困難問題上的能力大幅提升。當時OpenAI聲稱,該模型可以回答FrontierMath(一組具有挑戰(zhàn)性的數(shù)學問題)中超過25%的問題。這個分數(shù)遠遠超過了其競爭對手——排名第二的模型只能正確回答大約2%的FrontierMath問題。
OpenAI首席研究官Mark Chen當時在直播中表示:
“今天,所有大模型產(chǎn)品(能解決的FrontierMath問題的數(shù)量)的比例都不到2%…我們(在內(nèi)部)看到,在積極的測試時間計算設(shè)置中,我們能夠獲得超過25%的解題率。”
但第三方測試證明,這個25%的數(shù)字很可能并不準確。
美東時間上周五(4月18日),開發(fā)“FrontierMath”的研究機構(gòu)“Epoch AI”公布了“o3”的獨立基準測試結(jié)果。Epoch發(fā)現(xiàn),o3的得分約為10%,遠低于OpenAI聲稱的最高得分25%。
當然,這并不意味著OpenAI一定在撒謊。該公司去年12月發(fā)布的基準測試結(jié)果顯示,其得分的下限與Epoch AI觀察到的得分相當。Epoch AI還指出,他們的測試設(shè)置可能與OpenAI不同,即他們使用了FrontierMath的更新版本進行評估。
Epoch AI寫道:“我們的結(jié)果與OpenAI之間的差異可能是由于OpenAI使用更強大的內(nèi)部框架進行評估,使用更多的測試時間(計算),或者因為這些結(jié)果運行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180個問題vs FrontierMath -2025-02-28-private中的290個問題)。”
根據(jù)ARC Prize Foundation(一個測試過o3預(yù)發(fā)布版本的組織)在X上的一篇文章,公開發(fā)布的o3模型和預(yù)發(fā)布版本“是一個不同的模型……針對聊天/產(chǎn)品使用進行了調(diào)優(yōu)”,這證實了Epoch AI的報告。
“所有正式發(fā)布的o3計算層都比我們(之前基準測試)的版本小,”ARC Prize寫道,一般來說,計算層越大,獲得的基準測試分數(shù)也會越高。
基準測試爭議已成廣泛問題
隨著AI模型供應(yīng)商競相利用新模型搶占頭條和市場份額,在人工智能行業(yè),基準測試“爭議”正在成為一種常見現(xiàn)象,
比如最近,埃隆·馬斯克的xAI被指控,其最新人工智能模型Grok 3的基準測試圖表具有誤導(dǎo)性。
本月早些時候,Meta的新一代開源大模型Llama 4也遭遇了作弊質(zhì)疑,而Meta公司承認,其宣傳的基準測試分數(shù)所基于的模型版本與提供給開發(fā)者的版本不一致。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。