首頁 > AI資訊 > 最新資訊 > 大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

新火種    2024-11-04

一群大模型玩你畫我猜,人類一旁圍觀超起勁兒。

就像下面這張圖展示的,由Grok畫長頸鹿,一堆大模型根據生成內容猜答案。參賽選手包括GPT-4o、Claude、Llama、Gemini、Grok等。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

其實這是最近爆火的一種新的測試基準(doge)。

游戲結果一定程度上能反映出大模型能力,比如這組測試一共進行了6局游戲,表現最好的是Claude:它贏了3次!

GPT-4o表現有點抽象。就它畫的這龍卷風,人類也看不懂。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

不止如此,在很多輪游戲中,其他模型都在認認真真地答題,而它的第一個回答經常是Circle??有點子抽象。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

所以有人就說,這游戲可以當測試基準來用啊。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

還有人表示,AI照這個速度發展,人類就只能當圍觀的瓦力了。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑來看看更多有趣的例子

在比較簡單的題目上,所有模型都在一兩個回合中就猜對了答案,比如下面的房子:

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

還有非常簡潔的草地、海洋:

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

動物主題相對復雜一些,模型們一般需要猜4-5輪,比如大象這題:

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

游戲整體效果非常棒,網友們也是好評如潮:

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑你畫我猜項目起源

模型畫畫早已不是新鮮事,但讓大模型玩你畫我猜?這天才想法是怎么產生的?

首先,不得不提到Simon Willison的一次測試,他讓所有模型繪制自行車上有一只鵜鶘主題的圖像,然后進行效果對比。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

隨后Paul Calcraft看到測試,他產生了一個想法:這樣一個個比對太慢了,效果也不好,既然都畫同一個主題,為什么不讓大模型玩你畫我猜的游戲呢?

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

沒想到這位小哥說干就干,1天后就發布了“你畫我猜”的0.0.1版(這令人羨慕的執行力)。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

游戲中,他設定回答的模型每2秒猜測一次,回答更快的模型會更快返回答案。

網友評價褒貶不一

不少網友表示,之前大模型在《我的世界》里面比賽蓋樓,令人印象深刻,而你畫我猜可能成為新的視覺benchmark!

還有人熱心地提出了優化建議,比如以答對互相題目的速度作為評分準則,或者加入人類成績作為參考。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

還有人提議將游戲變成對抗式訓練,這樣大模型會進步更快。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

不過,拋去趣味性,也有網友持負面觀點,表示不理解這個項目的意義。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

有網友調侃說,這個游戲的作用就是成為未來AI考古時的文物,幫助它們了解自己的起源。

好嘛,咱們AI有自己的洞穴壁畫(doge)。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

不過,游戲化學習(Learning through play)其實是教育理論和心理學中的一個重要術語。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

多位網友表示,小孩子也是通過玩游戲來提升智力、學習技能的,或許這可以成為訓練大模型的新方式。

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑大模型玩你畫我猜:Claude6局3勝,GPT-4o表現迷惑

雖然這次只有6輪游戲,參與的模型也有限,但確實是一次很有趣的實踐。

作者Paul Calcraft也表示會繼續更新這個游戲,包括分數顯示、更多的游戲主題等等,期待更多后續!

參考鏈接:

[1]https://twitter.com/paul_cal/status/1850262678712856764[2]https://www.reddit.com/r/singularity/comments/1gcval0/llm_pictionary/[3]https://x.com/simonw/status/1849854290153939171

— 完 —

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章