中文在线日韩,国产精品视频综合,三级久久试看3分钟

首頁 > AI資訊 > 最新資訊 > 我用GPT-4參加阿里數(shù)學競賽！官方：今年歡迎，7萬獎金憑本事拿走

我用GPT-4參加阿里數(shù)學競賽！官方：今年歡迎，7萬獎金憑本事拿走

新火種 2024-03-15

大模型要在數(shù)學競賽上跟人類同場競技啦！

最新消息，阿里巴巴全球數(shù)學競賽，今日官宣開啟報名。依然不限年齡、國籍、職業(yè)，有意思的是，這次甚至突破了碳基硅基的限制——

首次向AI開放，誠邀全球大模型參賽。

不僅如此，獲勝AI最高還可獲得10000美元（約合7.2萬元人民幣）獎金。

如此因崔斯汀的消息，當即引起了網(wǎng)友們的關注。

我們還打聽到，國內(nèi)外有不少高校研究團隊和大模型創(chuàng)業(yè)公司已經(jīng)表達出濃厚興趣，準備參賽。

新設「AI挑戰(zhàn)賽」

具體來看規(guī)則。

2024阿里全球數(shù)賽，在預選賽階段增設了一場AI挑戰(zhàn)賽。

和參加常規(guī)賽的人類選手一樣，大模型們也要對同一套預賽試題作出解答，考核內(nèi)容的難度相當于數(shù)學本科一年級水平，重點考察AI的數(shù)學邏輯推理與問題解決的能力。

賽制方面，數(shù)賽官網(wǎng)已在今天（3月14日）開放統(tǒng)一報名通道，大模型參賽團隊須在報名頁勾選AI參賽選項。

完成報名后，官方會提供歷屆數(shù)賽初賽的真題和答案，讓大模型選手們可以在正式比賽前先刷刷題練練手。

4月13日-15日，官網(wǎng)將開啟初賽考試通道，參賽選手需要在此期間完成答題，并在系統(tǒng)中提交人類評委看得懂的答卷。

組委會將根據(jù)大模型在此過程中展現(xiàn)出的創(chuàng)新性、解題效率、解題過程的邏輯性等因素綜合評分，并給出具體評語。

最終得分排名前三的AI將依次獲得10000美元、5000美元和2000美元的獎金。如果所有AI均不能有效作答，則獎金會累積滾動到下屆賽事的獎金池。

值得一提的是，AI挑戰(zhàn)賽允許人類使用提示詞工程來調(diào)教大模型。

但為了確保公平競賽，避免人類替考，參賽者需要在開賽前就提交模型代碼或Prompt，以供校驗復現(xiàn)。

（這波是反向防作弊了）

大模型挑戰(zhàn)數(shù)學競賽·實測版

正式比賽尚未開始，但顯然，面對數(shù)學競賽題，AI具體會有怎樣的表現(xiàn)，已經(jīng)成為這屆阿里數(shù)學競賽的關注焦點之一。

為了滿足大家伙兒（包括我們自己）的好奇心，新火種已經(jīng)率先要到了歷屆初賽的真題和參考答案，咱們就請出當前最強的兩位通用大模型選手——GPT-4和Claude 3，來個真題演練，先睹為快。

Round 1：選擇題

開胃小菜。先來這道2023年阿里數(shù)學競賽初賽的一道圖論題：

還是先來看GPT-4的表現(xiàn)。

在代碼解釋器的加持之下，GPT-4成功選對了C選項，即90≤S≤100。并且，GPT-4也給出了具體的解釋：

它通過簡化模型估算出等待總時間最小可能值是81，考慮到實際線路中可能出現(xiàn)更多必須直行和左轉的情況，結合選項，S值會更接近90而小于100。

△GPT-4真的很話癆

同樣的題目拋給Claude 3：

Claude 3成功判斷了題型，但很遺憾回答錯誤。

不過如果我們稍稍給點提示，比如：是否能將小明行駛的路線看成一個100邊形，來嘗試解題。

Claude 3瞬間就get到了思路，這次計算正確：S=96，選C。

這么看來，大模型的表現(xiàn)還是可圈可點的。它們在工具加持又或者在人類點撥的情況下，能夠給出正確答案的同時，還能給出具體的解題思路。

Round 2：證明題

選擇題之外，證明題也是阿里數(shù)學競賽必出的題型。我們也挑選了一道題來進行測試。

先說正確結論：對于第一問，答案是存在；對于第二問，答案是不存在。

來看GPT-4的答題情況：

Claude 3的答案：

這一次，打分權交給你，你覺得GPT-4和Claude 3各能得幾分？

總結一下，從測試結果來看，大模型們挑戰(zhàn)阿里數(shù)學競賽題，還是難度不小。

盡管基礎知識豐富，能夠初步判斷出所考題型；計算速度也飛快，但也常會出現(xiàn)胡言亂語的狀況，仍需要人類的指正和點撥。

“AI改變數(shù)學的時代正在到來”

在我們的初步測試中，大模型的解題表現(xiàn)雖然不如那些能闖入決賽的人類選手，但已經(jīng)可以想見，在這種新的碰撞中，我們可以期待看到更多AI在抽象思維、邏輯思辨和巧妙解題方面能力的展示。

對此，阿里全球數(shù)學競賽組委會也做出了闡釋：

早在ChatGPT剛開始流行之時，以陶哲軒等人為代表的數(shù)學家們，就對大模型保持高度關注。

陶哲軒本人不僅將多種AI工具都納入了自己的工作流，還大膽預言：

當與形式證明驗證器、互聯(lián)網(wǎng)搜索和數(shù)學符號包等工具整合時，2026年的AI，如果使用得當，將成為數(shù)學研究中值得信賴的共同作者，并且在許多其他領域也是如此。

而《紐約時報》更是在對多位知名數(shù)學家進行采訪后，給出了這樣的評論：

現(xiàn)在，阿里全球數(shù)學競賽這樣備受關注的賽事主動擁抱AI，再次印證了這一新趨勢。

背后透露出的，還有數(shù)學界面對新一輪技術變革所產(chǎn)生的期待。

對于人類選手而言，AI與數(shù)學更深入的結合趨勢已經(jīng)顯現(xiàn)，這樣的比賽，可以作為新一類接觸的橋梁。

對于數(shù)學家和AI研究者們而言，這樣的平臺為AI for Math提供了一個測試研究成果的基準，有助于推動更多數(shù)學與AI的前沿研究。

而對于大眾，這也是進一步理解AI能力，和數(shù)學魅力的一扇窗口。

據(jù)說，此次大賽主辦方還將聯(lián)合魔搭社區(qū)，準備招募更多的開發(fā)者來參與；到時候一些國內(nèi)主流的開源數(shù)學模型也出來打配合，同開發(fā)者一道與一眾數(shù)學愛好者們同場競技！

哦莫，已經(jīng)可預見的是，數(shù)學界的人機混戰(zhàn)一觸即發(fā)~

所以廣大開發(fā)者們也不要光看了，趕緊來試試，沒準兒還能賺點生活費……

你說是吧~

— 完 —

Tags:

阿里獎金

阿里云發(fā)布首個“Data+AI”驅(qū)動的一站式多模數(shù)據(jù)平臺

2024-09-20

阿里云AI基礎設施升級亮相，模型算力利用率提升超20%

2024-09-20

阿里云宣布飛天企業(yè)版已實現(xiàn)“智算升級”

2024-09-20

阿里云正式發(fā)布百煉專屬版2.0

2024-09-20

阿里國際發(fā)布最新開源多模態(tài)模型Ovis，多模態(tài)能力再升級

2024-09-20

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內(nèi)容相關的任何行動之前，請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

我用GPT-4參加阿里數(shù)學競賽！官方：今年歡迎，7萬獎金憑本事拿走

阿里云發(fā)布首個“Data+AI”驅(qū)動的一站式多模數(shù)據(jù)平臺

阿里云AI基礎設施升級亮相，模型算力利用率提升超20%

阿里云宣布飛天企業(yè)版已實現(xiàn)“智算升級”

阿里云正式發(fā)布百煉專屬版2.0

阿里國際發(fā)布最新開源多模態(tài)模型Ovis，多模態(tài)能力再升級

熱門文章