圖靈測試已死!ChatGPT通過人類考試也不算,超強AI評估新秀「邏輯謎題」
【新智元導讀】如何給大模型一個真正公平評價標準呢?
世界最強AI——ChatGPT可以通過各種考試,甚至輸出回答讓人難以辨別真假。
然而,它也有力所不及之處,那便是解決簡單的視覺邏輯難題。
在一項由屏幕上排列的一系列色彩鮮艷的塊組成的測試中,大多數人都能找出連接的圖案。
人工智能研究人員表示,為了找出LLM的優勢和劣勢,需要更廣泛和嚴格的審查。豐富多彩的邏輯謎題可能是其中的一個候選者。
邏輯謎題登場
2019年,在LLM爆發之前,Chollet在網上發布了,自己創建的一種新的人工智能系統邏輯測試,稱為抽象和推理語料庫(ARC) 。
解題者要看幾個方格變為另一種圖案的可視化演示,并通過指出下一個方格將如何變換來表明他們已經掌握了變化的基本規則。
Chollet表示,ARC 捕捉到了「人類智慧的標志」。從日常知識中進行抽象,并將其應用于以前從未見過的問題的能力。
當前,幾個研究團隊現在已經使用ARC來測試LLM的能力,沒有一個能實現接近人類的表現。
Mitchell和她的同事制作了一系列新的謎題——被稱為ConceptARC——它們的靈感來自ARC,但在兩個關鍵方面有所不同。
ConceptARC測試更容易。Mitchell的團隊希望確保基準測試,不會錯過機器能力的進步,哪怕是很小的進步。另一個區別是,團隊選擇特定的概念進行測試,然后為每個主題的變體概念創建一系列謎題。
性能差意味著什么
研究人員將ConceptARC任務分配給GPT-4和400名在線應征者。
人類在所有概念組中的平均得分率為91%(其中一組為97%);GPT-在一組中的得分率為33%,在所有其他組中得分不到30%。
研究人員證明,AI仍然無法接近人類的水平。然而令人驚訝的是,它能解決一些從未被訓練過的問題。
研究小組還測試了Chollet競賽中的領先聊天機器人。
總的來說,他們比GPT-4做得更好,但表現比人類差,在一個類別中得分最高,為77%,但在大多數類別中得分不到60%。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。