欧美丰满少妇xxⅹ,亚洲30000部看黄禁用免,久久久久久久久久网

首頁 > AI資訊 > 最新資訊 > OpenAIo3模型遭質(zhì)疑？第三方實測分數(shù)遠低于自測成績

OpenAIo3模型遭質(zhì)疑？第三方實測分數(shù)遠低于自測成績

財聯(lián)社 2025-04-23

財聯(lián)社4月21日訊（編輯劉蕊）北京時間4月17日凌晨，OpenAI的多模態(tài)推理大模型o3與o4-mini重磅上線，這一大模型號稱是OpenAI迄今最強、最智能的模型。

然而，研究機構(gòu)很快發(fā)現(xiàn)，o3人工智能模型的開發(fā)方和第三方基準測試結(jié)果存在明顯差異，這引發(fā)了人們對該公司透明度和模型測試實踐的質(zhì)疑。

OpenAI測試作弊了？

去年12月，OpenAI在預(yù)發(fā)布o3時，就強調(diào)了該模型在解決困難問題上的能力大幅提升。當時OpenAI聲稱，該模型可以回答FrontierMath（一組具有挑戰(zhàn)性的數(shù)學問題）中超過25%的問題。這個分數(shù)遠遠超過了其競爭對手——排名第二的模型只能正確回答大約2%的FrontierMath問題。

OpenAI首席研究官Mark Chen當時在直播中表示：

“今天，所有大模型產(chǎn)品（能解決的FrontierMath問題的數(shù)量）的比例都不到2%…我們（在內(nèi)部）看到，在積極的測試時間計算設(shè)置中，我們能夠獲得超過25%的解題率。”

但第三方測試證明，這個25%的數(shù)字很可能并不準確。

美東時間上周五（4月18日），開發(fā)“FrontierMath”的研究機構(gòu)“Epoch AI”公布了“o3”的獨立基準測試結(jié)果。Epoch發(fā)現(xiàn)，o3的得分約為10%，遠低于OpenAI聲稱的最高得分25%。

當然，這并不意味著OpenAI一定在撒謊。該公司去年12月發(fā)布的基準測試結(jié)果顯示，其得分的下限與Epoch AI觀察到的得分相當。Epoch AI還指出，他們的測試設(shè)置可能與OpenAI不同，即他們使用了FrontierMath的更新版本進行評估。

Epoch AI寫道：“我們的結(jié)果與OpenAI之間的差異可能是由于OpenAI使用更強大的內(nèi)部框架進行評估，使用更多的測試時間（計算），或者因為這些結(jié)果運行在FrontierMath的不同子集上（FrontierMath -2024-11-26中的180個問題vs FrontierMath -2025-02-28-private中的290個問題）。”

根據(jù)ARC Prize Foundation（一個測試過o3預(yù)發(fā)布版本的組織）在X上的一篇文章，公開發(fā)布的o3模型和預(yù)發(fā)布版本“是一個不同的模型……針對聊天/產(chǎn)品使用進行了調(diào)優(yōu)”，這證實了Epoch AI的報告。

“所有正式發(fā)布的o3計算層都比我們（之前基準測試）的版本小，”ARC Prize寫道，一般來說，計算層越大，獲得的基準測試分數(shù)也會越高。

基準測試爭議已成廣泛問題

隨著AI模型供應(yīng)商競相利用新模型搶占頭條和市場份額，在人工智能行業(yè)，基準測試“爭議”正在成為一種常見現(xiàn)象，

比如最近，埃隆·馬斯克的xAI被指控，其最新人工智能模型Grok 3的基準測試圖表具有誤導(dǎo)性。

本月早些時候，Meta的新一代開源大模型Llama 4也遭遇了作弊質(zhì)疑，而Meta公司承認，其宣傳的基準測試分數(shù)所基于的模型版本與提供給開發(fā)者的版本不一致。

Tags:

大模型分數(shù) 模型

相關(guān)推薦

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內(nèi)容相關(guān)的任何行動之前，請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

OpenAIo3模型遭質(zhì)疑？第三方實測分數(shù)遠低于自測成績

國產(chǎn)算力之巔！華為云ModelArtsStudio大模型即服務(wù)平臺（MaaS）實測

卓易信息：大模型目前能實現(xiàn)輔助編程的工作，對開發(fā)效率有顯著提升

長城證券：公司智源AI中心已上線了大模型DeepSeek-R1與阿里Qwen2.5

北方國際：公司重視通用人工智能大模型對提升管理團隊創(chuàng)新能力與工作效率的作用

大模型來了，隱私怎么辦？陸銘委員：監(jiān)管治理需慢慢提上日程

熱門文章