首頁 > AI資訊 > 最新資訊 > 分解大模型的神經(jīng)元!Claude團隊最新研究火了,網(wǎng)友:打開黑盒

分解大模型的神經(jīng)元!Claude團隊最新研究火了,網(wǎng)友:打開黑盒

新火種    2023-10-08
豐色 發(fā)自 凹非寺量子位 | 公眾號 QbitAI神經(jīng)網(wǎng)絡(luò)的不可解釋性,一直是AI領(lǐng)域的“老大難”問題。但現(xiàn)在,我們似乎取得了一絲進展——ChatGPT最強競對Claude背后的公司Anthropic,利用字典學(xué)習(xí)成功將大約500個神經(jīng)元分解成了約4000個可解釋特征。具體而言,神經(jīng)元具有不可解釋性,但經(jīng)過這一分解,Anthropic發(fā)現(xiàn)每一個特征都代表了不同的含義,比如有的分管DNA序列,有的則表示HTTP請求、法律文本等等,也就是具備了可解釋性。而通過人為地刺激其中任一特征,就能引導(dǎo)模型給出我們預(yù)期之內(nèi)的輸出。比如開啟DNA特征就能使模型輸出DNA,開啟阿拉伯文字特征就讓模型輸出阿拉伯文字。Anthropic激動地表示:他們這一方法很可能克服AI不可解釋性這一巨大障礙。而一旦我們能夠了解語言模型的工作原理,就能很容易地判斷一個模型是否安全,從而決定它是否應(yīng)該被社會和企業(yè)所采用。具體來看。用字典學(xué)習(xí)分解語言模型首先,光針對語言模型來說,它的不可解釋性主要體現(xiàn)在網(wǎng)絡(luò)中的大多數(shù)神經(jīng)元都是“多語義的”。即它們可以對多個不相關(guān)的事物進行響應(yīng)。例如,一個小型語言模型中的某個神經(jīng)元會同時對學(xué)術(shù)引文、英語對話、HTTP請求、韓語文字等不同內(nèi)容表現(xiàn)出強烈的激活狀態(tài)。而這會阻礙我們了解神經(jīng)網(wǎng)絡(luò)每一小部分的具體功能和交互過程,從而無法對整個網(wǎng)絡(luò)的行為進行推斷。那么,是什么原因造成了多語義性這一特征?早在去年,Anthropic就推測其中一個潛在的因素是“疊加”(superposition)。這指的是模型將許多不相關(guān)的概念全部壓縮到一個少量神經(jīng)元中的操作。同時,Anthropic也指出,字典學(xué)習(xí)——就是提取事物最本質(zhì)的特征,最終讓我們像查字典一樣獲取新知識,是解決這一問題的辦法。在此之前,他們已提出了一個疊加玩具模型,并證明:如果一個對模型有用的特征集在訓(xùn)練數(shù)據(jù)中是稀疏的,那么該神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中可以自然地產(chǎn)生疊加。基于該玩具模型,他們提出了三種策略來找到一組稀疏且可解釋的特征:一是創(chuàng)建沒有疊加的模型,然后通過鼓勵激活稀疏性;二是使用字典學(xué)習(xí)在表現(xiàn)出疊加的模型中找到超完備的特征基礎(chǔ);三是將前兩種方法混合使用。經(jīng)過實驗證明,方法一不足以杜絕多語義性,方法二則存在嚴(yán)重的過擬合問題。于是在此,團隊又采用了一種稱為稀疏自動編碼器的弱字典學(xué)習(xí)算法。它能夠從經(jīng)過訓(xùn)練的模型生成學(xué)習(xí)特征,提供比模型神經(jīng)元本身更單一語義的分析單元。總的來說,該算法建立在大量先前的成果之上,尤其是在神經(jīng)網(wǎng)絡(luò)激活上使用字典學(xué)習(xí)的相關(guān)方法,以及解耦(disentanglement)相關(guān)的內(nèi)容。最終所得編碼器在從疊加中提取可解釋性特征方面取得了“令人信服的成功”。具體來說,Anthropic采用一個具有512個神經(jīng)元的MLP單層transformer,通過在具有80億個數(shù)據(jù)點的MLP激活上訓(xùn)練稀疏自動編碼器,最終將MLP激活分解為相對可解釋的特征,擴展因子范圍可以從1x(512個特征)增長到256x(131072個特征)。Anthropic團隊將他們得到的可解釋性分析全部集中在一個稱為A/1的運行中,共包含4096個特征,每個特征都注明了含義,它們可以按照預(yù)期被人工激活。下面是它們的可視化圖表:集成長篇報告發(fā)布,7個關(guān)鍵結(jié)論現(xiàn)在,Anthropic將以上全部成果以報告的形式發(fā)布。報告題目為《邁向單義性:通過字典學(xué)習(xí)分解語言模型》(Towards Monosemanticity: Decomposing Language Models With Dictionary Learning)。篇幅非常長,共分為四部分,分別為:問題設(shè)置,闡述研究動機,以及他們訓(xùn)練的transformer和稀疏自動編碼器。特征詳細(xì)調(diào)查,即“存在性證明”,證明他們發(fā)現(xiàn)的特征確實是功能上特定的因果單元。全局分析,表明所得特征是可解釋的,并且它們能夠解釋MLP層的重要部分?,F(xiàn)象分析,描述特征的幾個屬性,包括特征分割性、普遍性等,以及它們?nèi)绾涡纬梢粋€有趣的、類似“有限狀態(tài)自動機”的系統(tǒng)??偟膩砜?,關(guān)鍵結(jié)論一共有7個:1、我們能夠用稀疏自動編碼器提取相對單一語義的特征,但大多數(shù)學(xué)習(xí)到的特征都是相對可解釋的。2、稀疏自動編碼器產(chǎn)生可解釋的特征,在神經(jīng)元基礎(chǔ)中基本是不可見的。3、稀疏自動編碼器功能可用于干預(yù)和引導(dǎo)transformer的生成。例如,激活Base64特征會導(dǎo)致模型生成Base64文本,激活阿拉伯文字特征會生成阿拉伯文本。4、稀疏自動編碼器產(chǎn)生相對通用的特征。特征彼此之間的相似性比它們與自己模型神經(jīng)元之間的相似度更高(對應(yīng)“普遍性”一節(jié))。5、當(dāng)我們增加自動編碼器的大小時,特征似乎會“分裂”。比如一個小型字典中的Base64特征在較大的字典中會分成三個,每個都具有更微妙但仍可解釋的含義(對應(yīng)“特征分割性”一節(jié))。6、僅512個神經(jīng)元就可以代表數(shù)萬個特征。7、特征可以在類似“有限狀態(tài)自動機”的系統(tǒng)中實現(xiàn)連接,從而完成復(fù)雜的行為(比如生成HTML功能)。One More Thing在評論區(qū),有網(wǎng)友評價:神經(jīng)元就像一個神秘的盒子,Anthropic這項工作就相當(dāng)于研究如何偷看盒子中的內(nèi)容。顯然,這項工作還只是一個開頭——Anthropic同時還在加緊招聘可解釋性相關(guān)的研究員和工程師。點開來看,薪資在25萬美元(約180萬元)-52萬美元之間,研究內(nèi)容跟如上報告息息相關(guān)。報告鏈接:https://transformer-circuits.pub/2023/monosemantic-features/index.html參考鏈接:https://twitter.com/anthropicai/status/1709986949711200722
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章