給AI一個(gè)詞就能測出科研創(chuàng)造力?人大高瓴團(tuán)隊(duì)最新研究:模型智商高未必最有創(chuàng)意
編輯 | ScienceAI
「高智商就一定最有創(chuàng)造力嗎?」這個(gè)困擾教育界多年的問題,如今也出現(xiàn)在了 AI 領(lǐng)域。
近日,中國人民大學(xué)高瓴人工智能學(xué)院孫浩教授研究團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性研究:「只需在給 AI 的提示詞里變化一個(gè)科學(xué)關(guān)鍵詞,就能評(píng)估它的科研創(chuàng)造力。更有趣的是,研究發(fā)現(xiàn)模型的通用智能水平與創(chuàng)新能力并不總是成正比。」該文章第一作者為博士生阮愷。
這項(xiàng)名為 LiveIdeaBench 的研究已于 2024 年 12 月 23 日發(fā)布在 arXiv 預(yù)印本平臺(tái)。
為什么要「考」AI 的科研創(chuàng)造力?
當(dāng)前 AI 在數(shù)學(xué)推理、代碼生成等領(lǐng)域已達(dá)到超人類表現(xiàn)。最新的 o1 更是在各類智力測試中創(chuàng)造記錄。但一個(gè)關(guān)鍵問題是:這些模型真的具備科研創(chuàng)新能力嗎?
「現(xiàn)有的 AI 評(píng)測大多依賴大量背景信息,這可能掩蓋了模型真正的創(chuàng)造力。」論文通訊作者孫浩教授表示,「但縱觀科學(xué)史,很多重大發(fā)現(xiàn)往往源于一個(gè)簡單的靈感。我們希望測試AI是否也具備這種能力。」
令人意外的發(fā)現(xiàn):高智商不等于高創(chuàng)造力
研究團(tuán)隊(duì)對(duì)包括 OpenAI 的 o1、Google 的 Gemini、Anthropic 的Claude在內(nèi)的 20 個(gè)主流大模型進(jìn)行了測試。結(jié)果令人驚訝:
- Gemini Pro 1.5 表現(xiàn)最為均衡,在原創(chuàng)性、可行性等維度均名列前茅;
- QwQ-32B-Preview 模型雖然在通用任務(wù)評(píng)測中表現(xiàn)一般,但創(chuàng)造力測試中卻與頂尖模型不相上下;
- Claude 3.5 Sonnet 在原創(chuàng)性方面遙遙領(lǐng)先,但可行性評(píng)分相對(duì)較低。
「這說明模型的通用智能與科研創(chuàng)造力是兩個(gè)相對(duì)獨(dú)立的維度。」研究人員指出,「就像人類中 IQ 高的人不一定最有創(chuàng)造力一樣,AI 的發(fā)展也需要在『聰明』和『有創(chuàng)意』之間找到平衡。」
四個(gè)維度全面評(píng)估
LiveIdeaBench 基于經(jīng)典的 Guilford 創(chuàng)造力理論,從四個(gè)維度評(píng)估模型的科研創(chuàng)造力:
- 原創(chuàng)性(Originality):想法的新穎程度;
- 可行性(Feasibility):技術(shù)實(shí)現(xiàn)的可能性;
- 流暢性(Fluency):產(chǎn)生多樣化想法的能力;
- 靈活性(Flexibility):跨學(xué)科創(chuàng)新的能力。
測試覆蓋了從物理到生物等 18 個(gè)學(xué)科領(lǐng)域的 1180 個(gè)科研關(guān)鍵詞。為保證評(píng)測的公平性和時(shí)效性,該基準(zhǔn)采用動(dòng)態(tài)評(píng)審機(jī)制,由多個(gè)頂尖模型組成評(píng)審團(tuán),每月更新一次。
論文第一作者阮愷表示:「LiveIdeaBench 不僅是一個(gè)評(píng)測基準(zhǔn),更是探索 AI 科研創(chuàng)造力的新窗口。我們希望這項(xiàng)工作能推動(dòng) AI 在科學(xué)創(chuàng)新方面的進(jìn)步,為人工智能輔助科學(xué)發(fā)現(xiàn)開辟新的可能。」
有趣的是,測試發(fā)現(xiàn)專注于推理的 QwQ-32B-Preview 模型雖然在通用任務(wù)上表現(xiàn)平平,但在科研創(chuàng)造力測試中卻與頂尖模型不相上下。
這啟發(fā)研究團(tuán)隊(duì)基于 LiveIdeaBench 的頭腦風(fēng)暴軌跡,微調(diào)開發(fā)了一個(gè)專門面向科研創(chuàng)意生成的「點(diǎn)子王」模型(IdeaWhiz)。該模型繼承了 QwQ-32B-Preview 的推理特性,并在化學(xué)、生物、氣候和醫(yī)學(xué)等領(lǐng)域展現(xiàn)出強(qiáng)大的創(chuàng)意能力。
例如,當(dāng)要求模型針對(duì)「癌癥」提出科研創(chuàng)意時(shí),它能夠通過細(xì)致的推理過程,提出將機(jī)器學(xué)習(xí)與多組學(xué)數(shù)據(jù)結(jié)合以開發(fā)個(gè)性化癌癥疫苗的創(chuàng)新方案。這種將步步推理與創(chuàng)造性思維相結(jié)合的能力,正是AI輔助科研創(chuàng)新的重要突破。
該模型已在Hugging Face開源,研究者可以通過 Ollama 等工具輕松使用 ollama run 6cf/QwQ-32B-Preview-IdeaWhiz-v1 。「我們希望這個(gè)工作不僅能推動(dòng) AI 在科研創(chuàng)新方面的進(jìn)步,也能為科研工作者提供一個(gè)實(shí)用的頭腦風(fēng)暴助手。」
論文鏈接:https://arxiv.org/abs/2412.17596
項(xiàng)目主頁:https://liveideabench.com/
Liveideabench 數(shù)據(jù)集6cf/liveideabench · Datasets at Hugging Face
https://huggingface.co/datasets/6cf/liveideabench
模型卡:https://huggingface.co/6cf/QwQ-32B-Preview-IdeaWhiz-v1
Bartowski 量化版本bartowski/QwQ-32B-Preview-IdeaWhiz-v1-GGUF · Hugging Face
https://huggingface.co/bartowski/QwQ-32B-Preview-IdeaWhiz-v1-GGUF
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。