日本少妇人妻xxxxx18免费,中文字幕久久久,亚洲精品一区国产

首頁 > AI資訊 > 最新資訊 > 給AI一個(gè)詞就能測出科研創(chuàng)造力？人大高瓴團(tuán)隊(duì)最新研究：模型智商高未必最有創(chuàng)意

給AI一個(gè)詞就能測出科研創(chuàng)造力？人大高瓴團(tuán)隊(duì)最新研究：模型智商高未必最有創(chuàng)意

新火種 2025-01-14

編輯 | ScienceAI

「高智商就一定最有創(chuàng)造力嗎?」這個(gè)困擾教育界多年的問題,如今也出現(xiàn)在了 AI 領(lǐng)域。

近日，中國人民大學(xué)高瓴人工智能學(xué)院孫浩教授研究團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性研究：「只需在給 AI 的提示詞里變化一個(gè)科學(xué)關(guān)鍵詞，就能評(píng)估它的科研創(chuàng)造力。更有趣的是，研究發(fā)現(xiàn)模型的通用智能水平與創(chuàng)新能力并不總是成正比。」該文章第一作者為博士生阮愷。

這項(xiàng)名為 LiveIdeaBench 的研究已于 2024 年 12 月 23 日發(fā)布在 arXiv 預(yù)印本平臺(tái)。

為什么要「考」AI 的科研創(chuàng)造力？

當(dāng)前 AI 在數(shù)學(xué)推理、代碼生成等領(lǐng)域已達(dá)到超人類表現(xiàn)。最新的 o1 更是在各類智力測試中創(chuàng)造記錄。但一個(gè)關(guān)鍵問題是:這些模型真的具備科研創(chuàng)新能力嗎？

「現(xiàn)有的 AI 評(píng)測大多依賴大量背景信息,這可能掩蓋了模型真正的創(chuàng)造力。」論文通訊作者孫浩教授表示,「但縱觀科學(xué)史,很多重大發(fā)現(xiàn)往往源于一個(gè)簡單的靈感。我們希望測試AI是否也具備這種能力。」

令人意外的發(fā)現(xiàn)：高智商不等于高創(chuàng)造力

研究團(tuán)隊(duì)對(duì)包括 OpenAI 的 o1、Google 的 Gemini、Anthropic 的Claude在內(nèi)的 20 個(gè)主流大模型進(jìn)行了測試。結(jié)果令人驚訝:

- Gemini Pro 1.5 表現(xiàn)最為均衡,在原創(chuàng)性、可行性等維度均名列前茅；

- QwQ-32B-Preview 模型雖然在通用任務(wù)評(píng)測中表現(xiàn)一般,但創(chuàng)造力測試中卻與頂尖模型不相上下；

- Claude 3.5 Sonnet 在原創(chuàng)性方面遙遙領(lǐng)先,但可行性評(píng)分相對(duì)較低。

「這說明模型的通用智能與科研創(chuàng)造力是兩個(gè)相對(duì)獨(dú)立的維度。」研究人員指出，「就像人類中 IQ 高的人不一定最有創(chuàng)造力一樣，AI 的發(fā)展也需要在『聰明』和『有創(chuàng)意』之間找到平衡。」

四個(gè)維度全面評(píng)估

LiveIdeaBench 基于經(jīng)典的 Guilford 創(chuàng)造力理論，從四個(gè)維度評(píng)估模型的科研創(chuàng)造力:

- 原創(chuàng)性（Originality）：想法的新穎程度；

- 可行性（Feasibility）：技術(shù)實(shí)現(xiàn)的可能性；

- 流暢性（Fluency）：產(chǎn)生多樣化想法的能力；

- 靈活性（Flexibility）：跨學(xué)科創(chuàng)新的能力。

測試覆蓋了從物理到生物等 18 個(gè)學(xué)科領(lǐng)域的 1180 個(gè)科研關(guān)鍵詞。為保證評(píng)測的公平性和時(shí)效性，該基準(zhǔn)采用動(dòng)態(tài)評(píng)審機(jī)制，由多個(gè)頂尖模型組成評(píng)審團(tuán),每月更新一次。

論文第一作者阮愷表示：「LiveIdeaBench 不僅是一個(gè)評(píng)測基準(zhǔn),更是探索 AI 科研創(chuàng)造力的新窗口。我們希望這項(xiàng)工作能推動(dòng) AI 在科學(xué)創(chuàng)新方面的進(jìn)步，為人工智能輔助科學(xué)發(fā)現(xiàn)開辟新的可能。」

有趣的是，測試發(fā)現(xiàn)專注于推理的 QwQ-32B-Preview 模型雖然在通用任務(wù)上表現(xiàn)平平，但在科研創(chuàng)造力測試中卻與頂尖模型不相上下。

這啟發(fā)研究團(tuán)隊(duì)基于 LiveIdeaBench 的頭腦風(fēng)暴軌跡，微調(diào)開發(fā)了一個(gè)專門面向科研創(chuàng)意生成的「點(diǎn)子王」模型（IdeaWhiz）。該模型繼承了 QwQ-32B-Preview 的推理特性，并在化學(xué)、生物、氣候和醫(yī)學(xué)等領(lǐng)域展現(xiàn)出強(qiáng)大的創(chuàng)意能力。

例如，當(dāng)要求模型針對(duì)「癌癥」提出科研創(chuàng)意時(shí)，它能夠通過細(xì)致的推理過程，提出將機(jī)器學(xué)習(xí)與多組學(xué)數(shù)據(jù)結(jié)合以開發(fā)個(gè)性化癌癥疫苗的創(chuàng)新方案。這種將步步推理與創(chuàng)造性思維相結(jié)合的能力，正是AI輔助科研創(chuàng)新的重要突破。

該模型已在Hugging Face開源，研究者可以通過 Ollama 等工具輕松使用 ollama run 6cf/QwQ-32B-Preview-IdeaWhiz-v1 。「我們希望這個(gè)工作不僅能推動(dòng) AI 在科研創(chuàng)新方面的進(jìn)步，也能為科研工作者提供一個(gè)實(shí)用的頭腦風(fēng)暴助手。」

論文鏈接：https://arxiv.org/abs/2412.17596

項(xiàng)目主頁：https://liveideabench.com/

Liveideabench 數(shù)據(jù)集6cf/liveideabench · Datasets at Hugging Face

https://huggingface.co/datasets/6cf/liveideabench

模型卡：https://huggingface.co/6cf/QwQ-32B-Preview-IdeaWhiz-v1

Bartowski 量化版本bartowski/QwQ-32B-Preview-IdeaWhiz-v1-GGUF · Hugging Face

https://huggingface.co/bartowski/QwQ-32B-Preview-IdeaWhiz-v1-GGUF

Tags:

機(jī)器學(xué)習(xí) 創(chuàng)意創(chuàng)造力

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

給AI一個(gè)詞就能測出科研創(chuàng)造力？人大高瓴團(tuán)隊(duì)最新研究：模型智商高未必最有創(chuàng)意

給AI一個(gè)詞就能測出科研創(chuàng)造力？人大高瓴團(tuán)隊(duì)最新研究：模型智商高未必最有創(chuàng)意

AI驅(qū)動(dòng)科學(xué)大爆發(fā)！從蛋白質(zhì)到數(shù)學(xué)證明，2024年最值得關(guān)注的科技突破

450美元訓(xùn)練一個(gè)「o1-preview」？UC伯克利開源32B推理模型Sky-T1，AI社區(qū)沸騰了

微軟DirectX未來將支持“協(xié)作向量”，為神經(jīng)渲染鋪路

新人工智能模型可精確預(yù)測人體細(xì)胞基因表達(dá)

熱門文章