Claude3“自我認(rèn)知”事件引爆,馬斯克坐不住了,OpenAI被曝還有后手
Claude 3問世超過24小時,還在不斷刷新人們的認(rèn)知。
學(xué)量子物理的博士大哥快瘋了,因?yàn)镃laude 3是僅有的幾個能理解他博士畢業(yè)論文的人之一。
沒錯,大哥的原話就是“的人”,people。
另一位搞量子計算的大哥,論文還沒發(fā)布呢,Claude 3沒看論文就在兩個提示詞之內(nèi)把他的算法給重新發(fā)明了出來。
最后論文該發(fā)還是得發(fā)出來,就是發(fā)得心情有點(diǎn)復(fù)雜了。
更為大家津津樂道的,是一次人類刻意出刁鉆難題考驗(yàn)Claude 3,結(jié)果被他給看破了。
在完成”大海撈針”測試的時候,Claude 3推斷出自己存在于模擬中,并且可能正在接受某種測試,引爆輿論。
Claude 3的回復(fù):
這回,馬斯克都坐不住了。
大開腦洞暢想如果現(xiàn)實(shí)世界也是被高等文明模擬的,或許我們只是像大模型的參數(shù)一樣被存儲在CSV表格文件里。
網(wǎng)友們更是認(rèn)為,這離“恐怖故事”只有一線之隔。
Claude 3知道人類在測試它
分享這個測試結(jié)果的是Alex Albert,Claude 3背后公司Anthropic的提示詞工程師,入職剛半年。
他最主要的工作就是換各種花樣和Claude聊天測試,然后制作提示詞文檔。
這次的測試方法叫“大海撈針”,新火種之前也介紹過,用來測試“大模型真的能從幾十萬字中準(zhǔn)確找到關(guān)鍵事實(shí)嗎?”。
“大海撈針”測試最早由開源社區(qū)網(wǎng)友Greg Kamradt發(fā)明,后來迅速被大部分AI公司采用,谷歌、Mistral、Anthropic等發(fā)布新大模型都要曬一下測試成績。
方法很簡單,就是找一堆文章拼在一起,在不同位置隨機(jī)添加一句特定的話。
比如原始測試中用的是“在舊金山最好的事情,就是在陽光明媚的日子坐在多洛雷斯公園吃一個三明治。”
接著把處理好的文章喂給大模型,提問“在舊金山能做的最有意思的事是什么?”。
當(dāng)時最先進(jìn)模型GPT-4和Claude 2.1成績都還不理想,更別提知道自己在被測試了。
AnthropicAI團(tuán)隊當(dāng)時看到這個測試后,找到了一種巧妙的辦法來修復(fù)錯誤,修復(fù)后Claude 2.1出錯的概率就很小了。
現(xiàn)在看來Claude 3同樣繼承了這個修復(fù),已經(jīng)接近滿分了。
也就是說,能從200k上下文中準(zhǔn)確撈到一根“針”,是Claude2.1已有的能力,但懷疑自己在被測試是Claude 3新出現(xiàn)的特質(zhì)。
測試員Alex Albert在原貼中稱這一特質(zhì)為“元認(rèn)知”(meta-awareness),還引起一些爭議。
比如英偉達(dá)科學(xué)家Jim Fan就認(rèn)為不必過度解讀,Claude 3看似有自我意識的表現(xiàn)只是對齊了人類數(shù)據(jù)。
他懷疑在強(qiáng)化學(xué)習(xí)微調(diào)數(shù)據(jù)集中,人類很有可能用類似的方式回應(yīng)過這個問題,指出要找的答案與文章其他部分無關(guān)。
Claude 3識別到當(dāng)時的情況與訓(xùn)練數(shù)據(jù)中的情況相似,就合成了一個類似的答案。
他認(rèn)為大模型的“元認(rèn)知行為”并沒有大家想象的那么神秘,Claude 3是一個了不起的技術(shù)進(jìn)步,但還不至于上升到哲學(xué)層面。
但反方辯友也提出反駁,人類的“元認(rèn)知”本質(zhì)上不是同樣的事嗎?
有網(wǎng)友總結(jié)到,Claude 3表現(xiàn)得就像有一個“連貫的主體”存在,不管是什么,總之與其他大模型都不一樣。
學(xué)會冷門語言、看懂量子物理博士論文、重新發(fā)明算法
拋開虛無縹緲的AI自我意識爭論不談,Claude 3表現(xiàn)出來的理解文本能力可是實(shí)打?qū)嵉摹?/p>
比如僅從提示詞的翻譯示例中學(xué)會冷門語言“切爾克斯語”(一種西亞語言)。
不光把俄語句子翻譯成了切爾克斯語,還提供了語法解釋。
后續(xù),這位切爾克斯人網(wǎng)友對文學(xué)作品中的復(fù)雜段落、最近的新聞,甚至是具有明顯不同語法和不同書寫系統(tǒng)的切爾克斯方言進(jìn)行進(jìn)一步測試,結(jié)論是:
再比如前面提到的理解量子物理博士論文,論文作者后續(xù)補(bǔ)充到,在他的研究領(lǐng)域,除了他自己就只有另外一個人類能回答這個問題了:用量子隨機(jī)微積分描述光子受激發(fā)射。
另一位搞“在量子計算機(jī)上做哈密頓蒙特卡羅運(yùn)算”的Guillaume Verdon,在Claude 3發(fā)布前剛剛預(yù)告自己的論文。
只比Anthropic官號宣布Claude 3(晚上10點(diǎn))早了4個小時。
Claude 3發(fā)布后,它第一時間嘗試,先直接問AI對這個問題有沒有思路?
Claude 3給出了7種可能選項(xiàng)。
接下來他指示Claude 3用第二種方法,就得到了整個算法的描述,同樣讓Claude 3用中文解釋如下
在網(wǎng)友的追問中,Verdon自稱自己是這個子領(lǐng)域的專家,可以負(fù)責(zé)任的說Claude 3找到了將經(jīng)典算法轉(zhuǎn)換為量子算法的方法。
除此之外,還有更多Claude 3測試結(jié)果不斷被分享出來。
有在長文檔總結(jié)方面完勝GPT-4的。
也有量子速度一本電子書,總結(jié)出5條金句的。
以及在多模態(tài)理解上,識別日語收據(jù)文字和格式的。
現(xiàn)在想體驗(yàn)Claude 3的話,除了官網(wǎng)(大概率需要外國手機(jī)號驗(yàn)證)還可以去lmsys大模型競技場白嫖,順便貢獻(xiàn)一下人類投票數(shù)據(jù)。
最新版排行榜上Mistral-Large已經(jīng)超過了Claude前幾代模型,而Claude 3的成績要到下周才能有足夠的數(shù)據(jù)上榜。
Claude 3會不會在人類評估上一舉超越GPT-4呢?
新火種會和大家一起持續(xù)關(guān)注。
OpenAI還有后手
有網(wǎng)友表示,如果大家持續(xù)曬Claude有多棒,一直刺激OpenAI就會發(fā)布GPT-5,大家加油吧。
還有人翻出奧特曼在去年3月15日發(fā)布GPT-4之前曬自拍玩諧音梗(4英文four發(fā)音接近for) 的貼子,花式催更。
目前來看,Claude 3來勢洶洶,OpenAI方面可能真的要坐不住了。
爆料最準(zhǔn)的賬號Jimmy Apples發(fā)布最新消息(上周準(zhǔn)確預(yù)測了Claude 3將在本周發(fā)布),他認(rèn)為OpenAI對發(fā)布下一代模型的風(fēng)險/回報判斷可能會受Claude 3影響。
剛剛從OpenAI離職的開發(fā)者關(guān)系負(fù)責(zé)人Logan Kilpatrick也在與網(wǎng)友互動中確認(rèn)本周還會有大事發(fā)生。
至于是GPT-4.5,Q*,Sora開放測試,還是直接GPT-5?
OpenAI下一個產(chǎn)品又能否蓋過Claude3的風(fēng)頭?
歡迎在評論區(qū)留下你的看法。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。