首頁 > AI資訊 > 最新資訊 > AI能自主出“競賽題”了!港大&螞蟻?zhàn)尨竽P蛯W(xué)會生成難題,水平已接近AIME

AI能自主出“競賽題”了!港大&螞蟻?zhàn)尨竽P蛯W(xué)會生成難題,水平已接近AIME

新火種    2025-05-05

趙學(xué)亮 投稿

大模型架構(gòu)研究進(jìn)展太快,數(shù)據(jù)卻快要不夠用了,其中問題數(shù)據(jù)又尤其缺乏。

為此,港大和螞蟻的研究人員反向利用思維鏈,提出了PromptCoT方法,并基于Llama3.1-8B訓(xùn)練了一個問題生成模型。

實(shí)驗(yàn)結(jié)果表明,合成的問題難度較開源數(shù)據(jù)和已有算法有顯著提升,接近了AIME水平。

研究團(tuán)隊(duì)利用問題生成模型構(gòu)造了400k SFT數(shù)據(jù)。

基于這份數(shù)據(jù),團(tuán)隊(duì)訓(xùn)練了DeepSeek-R1-Distill-Qwen-7B模型,在MATH-500、AIME 2024以及AIME 2025上的表現(xiàn)均超過了32B的s1模型。

并且相比DeepScaleR-1.5B-Preview,PromptCoT-DS-1.5B僅用1/15的GPU hours即可達(dá)到相似的結(jié)果。

所有模型和數(shù)據(jù)均已開源。社區(qū)可以根據(jù)自己需求合成任意問題數(shù)據(jù),用于模型蒸餾或RL訓(xùn)練。

大模型訓(xùn)練缺乏“難題”

當(dāng)大模型原理“越辯越明”、開源代碼越來越多時,數(shù)據(jù)的不足反而成了限制模型發(fā)展的瓶頸。

因?yàn)闊o論是SFT還是RL,一份高質(zhì)量且頗具挑戰(zhàn)的問題數(shù)據(jù)都是必不可少的,其中,問題數(shù)據(jù)又尤為重要。

2024年8月,DeepMind的研究闡明了問題挑戰(zhàn)性對于模型能力的重要性,但如何能以一種可擴(kuò)展的方式獲得高質(zhì)量且足夠挑戰(zhàn)的問題數(shù)據(jù)呢?

開源社區(qū)中雖然有很多數(shù)據(jù)集(比如NuminaMath和 OpenMathInstruct),但這些數(shù)據(jù)中“難題”的比例卻不高。

簡單問題讓模型在訓(xùn)練中快速飽和,而困難的問題又不多,這可能是當(dāng)下研究者在構(gòu)建推理模型時感到最為受限的地方。

因此,研究團(tuán)隊(duì)感到相比又一份訓(xùn)練方法的復(fù)現(xiàn)代碼,一個能夠規(guī)?;a(chǎn)生高質(zhì)量困難問題的模型可能更重要。

那么,能不能把“出題”的任務(wù),也交給大模型呢?

讓大模型學(xué)會自己出題

開源數(shù)據(jù)到底夠不夠難?

在方法設(shè)計(jì)之前,研究團(tuán)隊(duì)先調(diào)研了一下已有開源數(shù)據(jù)(包括開源方法)的問題難度。

由于“難度”是一個相對主觀的指標(biāo),研究團(tuán)隊(duì)考慮了三個指標(biāo):

大模型在問題上的跑分:相當(dāng)于找個“好學(xué)生”來做題,好學(xué)生都不會做,說明題目難。

深度思考模型完成題目所需的推理長度:類似的,如果“好學(xué)生”需要思考很久才能解一題,說明題目難。

用該數(shù)據(jù)精調(diào)一個大模型能帶來的收益。

開源數(shù)據(jù)(方法)問題難度研究

上表給出了一些典型數(shù)據(jù)和方法的對比。

從前兩列可以看到,和AIME相比,已有數(shù)據(jù)(或方法)的問題在Qwen2.5-Math-72B-Instruct這樣強(qiáng)模型下是比較容易解決的,同時也不需太長的推理。

與之相對,PromptCoT給出的問題無論在跑分上還是在推理長度上都更接近AIME。

同時,PromptCoT也是唯一能讓Qwen2.5-Math-7B的base模型在精調(diào)后可以超過其Instruct版本的數(shù)據(jù)(第三、四列,Δ代表精調(diào)后和Instruct的差)。

怎樣才能合成難題?

在已有方法中,不乏用大模型合成問題的工作(如KPDDS、OpenMathInstruct等),但問題難度上不去,研究團(tuán)隊(duì)認(rèn)為是缺乏一個深入思考的過程。

就像一位經(jīng)驗(yàn)豐富的老師,不假思索可以給出一些問題,但這些問題要么耳熟能詳,要么過于直接。

如果想要出一些有挑戰(zhàn)的問題,就需要仔細(xì)思考。

因此,研究團(tuán)隊(duì)考慮將思維鏈“倒過來”用于合成“難題”上。具體來說,PromptCoT包含三個步驟:

概念抽取;

出題邏輯生成;

問題生成模型訓(xùn)練。

PromptCoT方法概覽

先看第一步,概念抽取。

PromptCoT是以一些數(shù)學(xué)相關(guān)的概念為生成起點(diǎn)的(比如組合數(shù)學(xué)、概率論等)。

首先從AoPS上抓取6000多個競賽級數(shù)學(xué)題作為種子數(shù)據(jù),然后通過Prompt一個大模型從中抽取概念,最后將這些概念去重過濾得到概念池。

抽取完成后,就是邏輯生成。

具體來說,給定一組概念以及一個問題,問題生成的目標(biāo)是最大化,其中對應(yīng)一個出題邏輯。

通過一些簡單的推導(dǎo),可以得出的最優(yōu)后驗(yàn)概率是與以及成正比的。那么一個“好”的應(yīng)該能同時讓和最大。

在這樣的理論指導(dǎo)下,本工作通過Prompt大模型的方式生成邏輯,具體如下圖所示。

邏輯生成Prompt

確定邏輯之后,就可以對模型進(jìn)行訓(xùn)練。

首先利用邏輯生成為每條種子數(shù)據(jù)構(gòu)造一個問題合成的思考邏輯,得到數(shù)據(jù)集。

在這些數(shù)據(jù)基礎(chǔ)上,通過模型精調(diào)和拒絕采樣的方式來訓(xùn)練一個問題生成模型。

其中模型精調(diào)(SFT)可以看作是預(yù)熱階段,讓模型初步掌握合成問題的能力;

而拒絕采樣(rejection sampling)可以看作是質(zhì)檢階段,利用兩個額外的大模型給合成的問題打分,只將最高分的問題留下并用作下一輪訓(xùn)練,以讓模型在預(yù)熱階段后能進(jìn)一步自我提升,確保生成的問題質(zhì)量。

訓(xùn)練效果顯著增強(qiáng)

合成的問題有用嗎?

回答這個問題最直接的辦法就是用生成的問題數(shù)據(jù)構(gòu)造蒸餾數(shù)據(jù)集,然后觀察訓(xùn)練強(qiáng)模型的收益。

這里采用的訓(xùn)練方法是SFT,評估數(shù)據(jù)采用的是GSM8K,MATH-500,以及AIME 2024,分別代表了小學(xué)、高中、以及競賽級的數(shù)學(xué)難度。

為了公平比較,Evol-Instruct和KPDDS采用Llama3.1-70B-Instruct做底座。

評估考慮了short-CoT以及l(fā)ong-CoT兩種情形。Short-CoT用Qwen2.5-Math-72B-Instruct做教師模型,Qwen2.5-Math-1.5B和7B的base版本做學(xué)生模型;

而long-CoT則用DeepSeek-R1-Distill-Qwen-7B做教師模型,DeepSeek-R1-Distill-Qwen-1.5B和7B做學(xué)生模型。

下展示了評測結(jié)果,可以看到,無論是1.5B模型還是7B模型,PromptCoT都能帶來非常顯著的增益。

合成數(shù)據(jù)有無規(guī)模效應(yīng)?

下圖展示了隨著問題數(shù)據(jù)規(guī)模變大,Qwen2.5-Math-1.5B base模型在MATH-500上的效果變化。

可以看到,與OpenMathInstruct相比,PromptCoT合成的數(shù)據(jù)具備更加顯著的規(guī)模效應(yīng),這也側(cè)面反映了問題難度對于模型效果的作用。

PromptCoT的數(shù)據(jù)規(guī)模效應(yīng)

作者簡介

該工作第一貢獻(xiàn)者為香港大學(xué)計(jì)算機(jī)系博士生趙學(xué)亮;

螞蟻技術(shù)研究院武威、關(guān)健為共同貢獻(xiàn)者。

論文地址:

https://arxiv.org/abs/2503.02324

Github:

https://github.com/inclusionAI/PromptCoT

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章