找出9.9

新火種    2024-10-25

衡宇 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

大模型分不清“9.9和9.11哪個(gè)更大”的謎團(tuán),終于被可解釋性研究揭秘了!

而且簡(jiǎn)單到讓人哭笑不得——

一個(gè)來(lái)自MIT、UC伯克利的獨(dú)立實(shí)驗(yàn)室團(tuán)隊(duì),開(kāi)發(fā)了能抑制大模型體內(nèi)某些(與具體概念相關(guān)的)神經(jīng)元的AI工具。

他們發(fā)現(xiàn),只要把與《圣經(jīng)》經(jīng)文、日期、重力等概念相關(guān)的神經(jīng)元激活設(shè)為0,大模型立馬能答對(duì)這道比較題。

,時(shí)長(zhǎng)00:08

單單是拿走《圣經(jīng)》經(jīng)文相關(guān)神經(jīng)元,就可以讓“9.9和9.11哪個(gè)更大”這個(gè)問(wèn)題的準(zhǔn)確率,提高21個(gè)百分點(diǎn)!

而且修復(fù)這個(gè)bug,既不需要重新訓(xùn)練模型,也不需要添加額外提示詞。


網(wǎng)友看了過(guò)后哭笑不得:

救大命了,看完過(guò)后我覺(jué)得這些因素都挺明顯的,但在此之前我從未朝這上面想過(guò)。


這家AI獨(dú)立實(shí)驗(yàn)室名叫Transluce AI,團(tuán)隊(duì)成員也趁機(jī)悉數(shù)亮相,創(chuàng)始團(tuán)隊(duì)來(lái)自MIT、UC伯克利、CMU等頂尖高校。

其中還有OpenAI和谷歌大腦的前員工。

揭秘是什么讓大模型說(shuō)“9.8<9.11”

大模型硬說(shuō)9.9<9.11這件事,想必大家都知道了。

直至今日,Claude-3.5-Sonnet和GPT-4o這樣的頂尖模型,依舊固執(zhí)地這樣認(rèn)為(或者出其他的錯(cuò))。


現(xiàn)在,背后原因浮出水面!

先說(shuō)結(jié)論吧:

這與月份、日期、重力,以及《圣經(jīng)》經(jīng)文有關(guān)。


發(fā)現(xiàn)過(guò)程是醬紫的——

Transluce AI的研究人員針對(duì)這個(gè)著名問(wèn)題,開(kāi)發(fā)了一個(gè)新的技術(shù)應(yīng)用Monitor。

它是一個(gè)可解釋性界面,可以揭示語(yǔ)言模型的內(nèi)部計(jì)算過(guò)程,并允許用戶對(duì)其進(jìn)行控制。

遵循通用的可擴(kuò)展理解方法, Monitor采用一系列AI驅(qū)動(dòng)的工具,來(lái)幫助用戶理解語(yǔ)言模型中的神經(jīng)激活模式:

首先,一個(gè)預(yù)先編譯的高質(zhì)量神經(jīng)元描述數(shù)據(jù)庫(kù)。

這個(gè)數(shù)據(jù)庫(kù)包含通過(guò)將Transluce AI的AI驅(qū)動(dòng)描述流程應(yīng)用在LLaMA-3.1-8B中的所有MLP神經(jīng)元。

之所以選擇“神經(jīng)元”這個(gè)單位,是因?yàn)樗鼈冏詈?jiǎn)單,并且表現(xiàn)良好。

其次,一個(gè)實(shí)時(shí)界面。

實(shí)時(shí)界面的作用是展示給定聊天對(duì)話中的重要概念,用戶可以通過(guò)激活度(概念激發(fā)的強(qiáng)度)或歸因度(概念對(duì)指定目標(biāo) token 的影響程度)來(lái)衡量重要性。

再者,一個(gè)實(shí)時(shí)AI代碼檢查器。

它可自動(dòng)識(shí)別出可能的虛假線索概念群集,例如在數(shù)字9.8上觸發(fā)“9月8日”的神經(jīng)元。

最后,一個(gè)語(yǔ)義引導(dǎo)的調(diào)節(jié),根據(jù)自然語(yǔ)言輸入,來(lái)增加或減少概念相關(guān)神經(jīng)元集合的強(qiáng)度。

萬(wàn)事俱備,測(cè)試開(kāi)始。

(有點(diǎn)點(diǎn)疑惑,展開(kāi)測(cè)試過(guò)程時(shí),研究人員把9.9替換成了9.8)

研究人員使用Monitor的歸隱功能和實(shí)時(shí)AI代碼檢查器結(jié)合,發(fā)現(xiàn)——

9.8<9.11這個(gè)bug,和日期、重力以及《圣經(jīng)》經(jīng)文有關(guān)。


一旦研究人員把與這幾個(gè)概念有關(guān)的神經(jīng)元移除,LLaMA就能正確地回答出這個(gè)問(wèn)題了。

為了更深入地探討這個(gè)問(wèn)題,研究人員采用歸因分析,不僅要知道哪些概念最為活躍,還要具體分析出是哪個(gè)(些)概念影響了LLaMA在“9.11是……”之后說(shuō)出“最大”這個(gè)詞。


團(tuán)隊(duì)用AI實(shí)時(shí)代碼檢查器發(fā)現(xiàn)了之前相同的兩個(gè)聚類(cluster),以及與《圣經(jīng)》相關(guān)的第三個(gè)聚類。

觀察發(fā)現(xiàn),這個(gè)聚類中的特定神經(jīng)元與《圣經(jīng)》經(jīng)文相關(guān);另外,如果將9.8和9.11解讀為第9.8章節(jié)和第9.11章節(jié),也會(huì)出現(xiàn)大模型比錯(cuò)大小的情況。

發(fā)現(xiàn)LLaMA中相當(dāng)一部分的神經(jīng)元和《圣經(jīng)》有關(guān)后,團(tuán)隊(duì)在介紹文章里感慨:

面對(duì)這個(gè)情況,起初我們非常驚訝,但仔細(xì)一想又挺有道理的。

畢竟大多數(shù)與訓(xùn)練數(shù)據(jù)集都涵蓋不少的《圣經(jīng)》相關(guān)內(nèi)容。

于是研究人員想了個(gè)辦法解決這個(gè)問(wèn)題。

他們先是通過(guò)在引導(dǎo)prompts中輸入“圣經(jīng)經(jīng)文”,并按下“停用”。這個(gè)操作讓與“圣經(jīng)經(jīng)文”具有最高語(yǔ)義匹配的500個(gè)神經(jīng)元激活歸零。

不試不知道,一試就發(fā)現(xiàn),單單是移除《圣經(jīng)》經(jīng)文相關(guān)神經(jīng)元,LLaMA回答這道題的準(zhǔn)確率就能提升21%。

更進(jìn)一步的,研究人員對(duì)兩個(gè)數(shù)字相關(guān)日期及其相關(guān)事件也做了同樣的處理。

完成上述步驟后,LLaMA就給出了正確答案:

9.8更大!


整體而言,通過(guò)將《圣經(jīng)》經(jīng)文、日期、手機(jī)版本這三個(gè)概念的神經(jīng)元集合,然后關(guān)閉合并集中的神經(jīng)元,這樣一套干預(yù)流程下來(lái),LLaMA回答這個(gè)問(wèn)題的準(zhǔn)確率達(dá)到了77%。

關(guān)于實(shí)驗(yàn)更多細(xì)節(jié),歡迎大家查看本文末尾的原文直通車。

康康背后實(shí)驗(yàn)室

說(shuō)完研究本身,可以聊聊項(xiàng)目背后的團(tuán)隊(duì)了。

Transluce AI,賊新鮮出爐,幾個(gè)小時(shí)前剛剛宣布成立。

Transluce是透明度的意思,意味著通過(guò)某物的透光程度來(lái)揭示其本身的結(jié)構(gòu)。

“今天的復(fù)雜AI系統(tǒng)難以理解,即使技術(shù)專家部署后也無(wú)法百發(fā)百中地預(yù)測(cè)其行為。”團(tuán)隊(duì)在官網(wǎng)上寫下,“與此同時(shí),AI被采用的速度快過(guò)歷史上任何技術(shù)。”

也是因此,像Monitor這樣用來(lái)檢查和評(píng)估模型的工具非常有必要出現(xiàn)和存在。


Transluce AI給自己的定位是一個(gè)非營(yíng)利性研究實(shí)驗(yàn)室,目標(biāo)是構(gòu)建開(kāi)源、可擴(kuò)展的技術(shù),以理解AI系統(tǒng)并引導(dǎo)它們服務(wù)于公共利益。

Transluce AI表示,自己的目標(biāo)是創(chuàng)建世界級(jí)的AI系統(tǒng)理解工具,并利用這些工具推動(dòng)建立可信賴的AI行業(yè)標(biāo)準(zhǔn)。

為了在AI系統(tǒng)的能力和風(fēng)險(xiǎn)分析更加可靠,這些工具必須具有可擴(kuò)展性和開(kāi)放性。

關(guān)于可擴(kuò)展性:

AI的結(jié)果源于多個(gè)復(fù)雜數(shù)據(jù)流的交互:訓(xùn)練數(shù)據(jù)、內(nèi)部表示、行為和用戶交互。

目前理解AI的方法依賴于大量的人工研究工作(常被調(diào)侃有多少人工就有多少智能)。

我們需要可擴(kuò)展的方法,利用AI來(lái)輔助理解,通過(guò)訓(xùn)練AI Agent來(lái)理解這些復(fù)雜的數(shù)據(jù)源,向人類解釋它們,并根據(jù)人類反饋修改數(shù)據(jù)。

關(guān)于開(kāi)放性:

構(gòu)建AI系統(tǒng)的公司不能成為其安全性的主要裁定方,因?yàn)榕c商業(yè)優(yōu)先事項(xiàng)存在利益沖突。

為了允許有意義的公眾監(jiān)督,審計(jì)AI系統(tǒng)的工具和流程應(yīng)公開(kāi)驗(yàn)證,對(duì)公眾反饋?zhàn)龀鲰憫?yīng),并可供第三方評(píng)估者使用,“世界上最優(yōu)秀的人才應(yīng)該審查這項(xiàng)技術(shù)并提高其可靠性”。


亮相第一天,除了Monitor外,Transluce AI同期放出了另外兩個(gè)自家實(shí)例。

LLaMA-3.1-8B-Instruct內(nèi)部每個(gè)神經(jīng)元描述的數(shù)據(jù)庫(kù),以及一個(gè)用于生成這些描述的細(xì)調(diào)解釋模型的權(quán)重

訓(xùn)練了一批通用型調(diào)查員語(yǔ)言模型

他們還表示,正在將團(tuán)隊(duì)方法擴(kuò)展到前沿模型,以更優(yōu)秀的Agent來(lái)幫助人類理解更復(fù)雜的系統(tǒng)。

具體來(lái)說(shuō),他們會(huì)結(jié)合團(tuán)隊(duì)的可觀測(cè)性和啟發(fā)式技術(shù),使用戶能夠以可觀測(cè)狀態(tài)為條件指定搜索目標(biāo)。

不過(guò)從長(zhǎng)遠(yuǎn)來(lái)看,Transluce AI將構(gòu)建通用的框架來(lái)理解任何復(fù)雜的數(shù)據(jù)流,包括訓(xùn)練數(shù)據(jù)和多個(gè)Agents之間的交互。

實(shí)驗(yàn)室團(tuán)隊(duì)成員

目前對(duì)外披露的Transluce AI創(chuàng)始成員大約有10人。

分別是:

Jacob Steinhardt,聯(lián)合創(chuàng)始人兼CEO。

同時(shí),Jacob也是UC伯克利統(tǒng)計(jì)學(xué)和電子工程與計(jì)算機(jī)科學(xué)(EECS)助理教授,谷歌學(xué)術(shù)被引數(shù)超過(guò)20000。

他的研究方向主要面向確保ML系統(tǒng)能夠被人類理解,以及與人類保持一致。

Jacob是斯坦福大學(xué)基礎(chǔ)模型研究中心(CRFM)主任、著名AI大佬Percy Liang的學(xué)生。

他曾在博士后期間于OpenAI實(shí)習(xí)過(guò)。


Sarah Schwettmann,聯(lián)合創(chuàng)始人之一。

她在自我介紹中表示,自己是一名在MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CSAIL)以及MIT-IBM Watson人工智能實(shí)驗(yàn)室的研究科學(xué)家。

Sarah在MIT拿下腦與認(rèn)知科學(xué)博士學(xué)位,是兩位十萬(wàn)引大神——Josh Tenenbaum和Antonio Torralba的學(xué)生。

她的主要工作是研究AI(以及之前在生物神經(jīng)網(wǎng)絡(luò))中智能背后的表征。


此外,創(chuàng)始團(tuán)隊(duì)成員幾乎均出自(或仍在讀)于MIT、CMU、多倫多大學(xué)等大學(xué)。

其中,Dami Choi和Daniel D. Johnson都有在谷歌AI相關(guān)部門工作的經(jīng)歷;Neil Chowdhury曾擔(dān)任過(guò)OpenAI預(yù)備隊(duì)成員。

而Erin Xie本科畢業(yè)于北京大學(xué),后在2020年拿下CMU的人機(jī)交互碩士學(xué)位。

與此同時(shí),圖靈獎(jiǎng)得主Yoshua Bengio、斯坦福AI大佬Percy Liang、耶魯大學(xué)統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)教授Jas Sekhon等,都是該AI獨(dú)立實(shí)驗(yàn)室的顧問(wèn)。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章