分解大模型的神經(jīng)元!Claude團(tuán)隊(duì)最新研究火了,網(wǎng)友:打開(kāi)黑盒
豐色 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI神經(jīng)網(wǎng)絡(luò)的不可解釋性,一直是AI領(lǐng)域的“老大難”問(wèn)題。但現(xiàn)在,我們似乎取得了一絲進(jìn)展——ChatGPT最強(qiáng)競(jìng)對(duì)Claude背后的公司Anthropic,利用字典學(xué)習(xí)成功將大約500個(gè)神經(jīng)元分解成了約4000個(gè)可解釋特征。具體而言,神經(jīng)元具有不可解釋性