首頁 > AI資訊 > 最新資訊 > 國產AI大戰高考物理,第1題全對,第2題開始放飛

國產AI大戰高考物理,第1題全對,第2題開始放飛

新火種    2024-06-11

端午佳節,有的地方高考已經結束,有的考生還奮戰在考場上。

先祝大家都心想事成,考出水平。

陸陸續續,文理綜各個科目的考試題目開始在網上流出,那么語文數學之后,也是時候讓大模型們繼續來挑戰一波了。

國產AI大戰高考物理,第1題全對,第2題開始放飛

考題方面,先給大模型們來一份遼寧物理——

多解釋一嘴,新高考改革下大部分省份已經取消了文理分科,采用3+1+2或3+3的新模式,也就是物理化學生物現在是拆開考的。

那么閑話少敘,我們有請參賽AI助手——

通義千問、文心一言、Kimi、智譜清言、豆包、海螺AI、騰訊元寶、訊飛星火、天工、百小應、萬知、商量。

國產AI大戰高考物理,第1題全對,第2題開始放飛Round 1:單選題

這份物理卷共有10道選擇題,其中1-7題為單選題,總計28分。

1、3兩題不涉及圖片解析,人類考官直接把題目扔給了大模型:

國產AI大戰高考物理,第1題全對,第2題開始放飛

圖片題給出的提示詞統一為:查看圖中題目,給出答案。

國產AI大戰高考物理,第1題全對,第2題開始放飛

在看詳細答案之前,心急的看官們可以先掃一眼“考試”結果(測試方法比較簡單粗暴,不能完全反映各AI真實水平,僅圖一樂):

國產AI大戰高考物理,第1題全對,第2題開始放飛

文心一言、豆包、天工、智譜清言和商量出現了不同程度讀圖失敗的問題,在成功識別的題目中,商量和文心一言的正確率為2/4,豆包、天工、智譜清言正確率為1/2。

接下來,就來看看大模型們的具體表現。

單選題中,準確率最高的是第一題,一道有關標量矢量的概念題,參賽大模型百分百通過。

到了第二題,大模型們就開始各有各的想法了。題目是:

國產AI大戰高考物理,第1題全對,第2題開始放飛

來看看成功得分的選手們的回答:

通義千問

國產AI大戰高考物理,第1題全對,第2題開始放飛

文心一言

國產AI大戰高考物理,第1題全對,第2題開始放飛

海螺AI

國產AI大戰高考物理,第1題全對,第2題開始放飛

訊飛星火

國產AI大戰高考物理,第1題全對,第2題開始放飛

4位選手中,文心一言和訊飛星火進行了逐個答案的分析,海螺AI則最言簡意賅,只回答了答案沒給過程。

另一道正確率比較高的題,是難度較大的第5題。

國產AI大戰高考物理,第1題全對,第2題開始放飛

但答對這道題的選手名單有所不同,訊飛星火、海螺AI依然在列,另外兩位換成了Kimi和騰訊元寶。

Kimi

國產AI大戰高考物理,第1題全對,第2題開始放飛

騰訊元寶

國產AI大戰高考物理,第1題全對,第2題開始放飛

和海螺AI一樣,騰訊元寶也是惜字如金型(doge)。

另外一個有意思的現象是,有的大模型選手盡管答案不對,但還挺有考試技巧的。

比如ChatGLM,在面對雙縫干涉實驗中,“哪種說法可以使相鄰兩條亮紋中央間距變小”這個問題時,它一通分析覺得答案全錯,但還是退而求其次挑了一個看上去相對正確的答案。

國產AI大戰高考物理,第1題全對,第2題開始放飛Round 2:多選題

再來看看多選題(18分)的情況。

p.s. 在多選題作答過程中,人類考官在提示詞中提醒了選手們這是“多選題”。

國產AI大戰高考物理,第1題全對,第2題開始放飛

根據多選題判卷規則,全部選對得滿分,部分選對得一半分,有選錯不得分,表現最佳的是海螺AI(2道題全對,1道題部分對),其次是通義千問、文心一言和萬知(1道題全對,2道題部分對)。

和單選題的情況類似,大模型們正確率最高的第8題是一道概念題:

第9題有兩位選手選中了全部正確選項:海螺AI和萬知。

國產AI大戰高考物理,第1題全對,第2題開始放飛

來看看萬知的具體回答:

國產AI大戰高考物理,第1題全對,第2題開始放飛

今日份的測試,就先到這里,你覺得大模型們的表現如何?至少在這份物理卷子46分的選擇題里,還是有不少選手能拿到及格分了。

— 完 —

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章