首頁(yè) > 基準(zhǔn)

基準(zhǔn)

  • 國(guó)際最新AI基準(zhǔn)測(cè)試SPECML首提模算效率,填補(bǔ)大模型計(jì)算效率評(píng)測(cè)空白

    北京2025年1月8日 /美通社/ -- 日前,國(guó)際標(biāo)準(zhǔn)性能評(píng)估組織SPEC公布了AI基準(zhǔn)測(cè)試SPEC ML最新進(jìn)展,該基準(zhǔn)已完成面向不同AI負(fù)載下的軟硬件系統(tǒng)的性能、擴(kuò)展性和模算效率三大關(guān)鍵指標(biāo)構(gòu)建。其中模算效率首次納入SPEC ML基準(zhǔn)評(píng)測(cè),將填補(bǔ)大模型計(jì)算效率評(píng)測(cè)基準(zhǔn)領(lǐng)域的研究空白。隨著人工智

  • GPT-4寫代碼不如ChatGPT,誤用率高達(dá)62%!加州大學(xué)兩位華人開(kāi)源代碼可靠性基準(zhǔn)RobustAPI

    聲明:本文來(lái)自于【新智元導(dǎo)讀】代碼能否跑起來(lái)的不是判斷可靠性的標(biāo)準(zhǔn),用語(yǔ)言模型寫代碼還需要考慮生產(chǎn)環(huán)境下的預(yù)期外輸入。大型語(yǔ)言模型(LLM)在理解自然語(yǔ)言和生成程序代碼方面展現(xiàn)出了非凡的性能,程序員們也開(kāi)始在編碼過(guò)程中使用Copilot工具輔助編程,或是要求LLM生成解決方案。經(jīng)過(guò)幾版迭代后,目前L

  • “最強(qiáng)開(kāi)源模型”被打假,CEO下場(chǎng)致歉,英偉達(dá)科學(xué)家:現(xiàn)有測(cè)試基準(zhǔn)已經(jīng)不靠譜了

    小型創(chuàng)業(yè)團(tuán)隊(duì)打造的“最強(qiáng)開(kāi)源模型”,發(fā)布才一周就被質(zhì)疑造假——不僅官方宣稱的成績(jī)?cè)诘谌綔y(cè)試中大打折扣,模型還被質(zhì)疑套殼Claude。面對(duì)浩大的聲浪,廠商CEO終于發(fā)文道歉,但并未承認(rèn)造假,表示在調(diào)查有關(guān)原因。被指控造假的,就是宣稱“干翻GPT-4o”的70B開(kāi)源大模型Reflection。一開(kāi)始的

  • 《“巢燧”大模型基準(zhǔn)測(cè)試報(bào)告》在成都發(fā)布,中文大模型數(shù)學(xué)推理能力大幅增強(qiáng)

    12月25日,于成都舉行的“2024人工智能大模型基準(zhǔn)測(cè)試科創(chuàng)發(fā)展大會(huì)”上,《“巢燧”大模型基準(zhǔn)測(cè)試報(bào)告》(以下簡(jiǎn)稱“報(bào)告”)正式發(fā)布。該報(bào)告由OpenEval平臺(tái)、天津大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室和大模型基準(zhǔn)評(píng)測(cè)專家委員會(huì)聯(lián)合紅星新聞發(fā)布,聚焦知識(shí)能力和價(jià)值對(duì)齊兩大維度,對(duì)國(guó)內(nèi)研發(fā)的開(kāi)源和閉源大語(yǔ)言模型

  • 谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無(wú)法代表「整個(gè)世界」的博物館

    作者| 杏花編輯 | 青暮在日常生活中,我們需要一些「標(biāo)準(zhǔn)」來(lái)衡量個(gè)人的行為。而在科研工作中,研究人員也需要一些「基準(zhǔn)」來(lái)評(píng)估模型的性能。因此,不管是普遍的「標(biāo)準(zhǔn)」還是特定的「基準(zhǔn)」,它們都有一定的參考意義。然而,如果有一天我們發(fā)現(xiàn)這些「參照物」與實(shí)際生活漸行漸遠(yuǎn)時(shí),它們?cè)撏翁幦ィ拷眨杉又荽髮W(xué)

  • 自己發(fā)基準(zhǔn)自己第一,Anyscale行為惹社區(qū)吐槽

    前一天發(fā)布 LLMPerf 排行榜,宣稱要推動(dòng)大型語(yǔ)言模型推理領(lǐng)域的發(fā)展,鼓勵(lì)創(chuàng)新與超越。第二天就收獲 AI 社區(qū)的大量吐槽,原因是排行榜的「基準(zhǔn)甚至沒(méi)有得到很好的校準(zhǔn)」。這是 Anyscale 這家初創(chuàng)公司正在經(jīng)歷的事情。

  • 多樣任務(wù)真實(shí)數(shù)據(jù),大模型在線購(gòu)物基準(zhǔn)ShoppingMMLU開(kāi)源|NeurIPS&KDDCup2024

    誰(shuí)是在線購(gòu)物領(lǐng)域最強(qiáng)大模型?也有評(píng)測(cè)基準(zhǔn)了。基于真實(shí)在線購(gòu)物數(shù)據(jù),電商巨頭亞馬遜終于“亮劍”——聯(lián)合香港科技大學(xué)、圣母大學(xué)構(gòu)建了一個(gè)大規(guī)模、多任務(wù)評(píng)測(cè)基準(zhǔn)Shopping MMLU,用以評(píng)估大語(yǔ)言模型在在線購(gòu)物領(lǐng)域的能力與潛力。

  • GPT-4V數(shù)學(xué)推理如何?微軟發(fā)布MathVista基準(zhǔn),評(píng)測(cè)報(bào)告長(zhǎng)達(dá)112頁(yè)

    大型多模態(tài)模型會(huì)做數(shù)學(xué)題嗎?在微軟最新發(fā)布的 MathVista 基準(zhǔn)上,即使是當(dāng)前最強(qiáng)的 GPT-4V 也會(huì)有「挫敗感」。微軟最近發(fā)布了名為 “MathVista” 的全新多模態(tài)數(shù)學(xué)推理基準(zhǔn)數(shù)據(jù)集,同時(shí)提供了一份涵蓋 112 頁(yè)的詳細(xì)評(píng)測(cè)報(bào)告,專注于大型多模態(tài)模型的數(shù)學(xué)推理表現(xiàn)。

  • openai推出大模型測(cè)試基準(zhǔn)swe

    品玩2月19日訊,OpenAI 官方宣布,推出一款全新的大模型測(cè)試基準(zhǔn)SWE-Lancer,主要用于評(píng)測(cè)大模型的編程能力。據(jù)悉,該評(píng)測(cè)基準(zhǔn)提供了1400多項(xiàng)軟件工程任務(wù),包括獨(dú)立工程任務(wù)和管理任務(wù)。獨(dú)立任務(wù)由經(jīng)驗(yàn)豐富的軟件工程師通過(guò)三重驗(yàn)證的端到端測(cè)試進(jìn)行評(píng)分,而管理決策則根據(jù)最初聘用的工程經(jīng)理的選

  • 商湯“奪金”SuperCLUE-V多模態(tài)大模型基準(zhǔn)10月榜單

    今日,中文多模態(tài)大模型測(cè)評(píng)基準(zhǔn)SuperCLUE-V發(fā)布10月榜單:商湯日日新·商量多模態(tài)大模型(SenseChat-Vision5.5)憑借多個(gè)任務(wù)上的出色表現(xiàn),總得分位列國(guó)內(nèi)大模型第一梯隊(duì),智奪金牌。商量多模態(tài)大模型API入口(限時(shí)免費(fèi)!):https://platform.sensenova.