打臉奧特曼,GPT-4今年比去年還懶!網友在線實測出爐
GPT-4變懶的問題,又有新進展。
就在今天凌晨,奧特曼發推稱,GPT-4這個毛病在新的一年應該好多了!
關于GPT-4變懶,網友的吐槽已是不計其數,其中最多的就是與代碼相關的任務:
完成度不高不說,還會被分割成一個一個小塊,使用時需要逐一復制。
對于最新版本,一位博主體驗之后表示,自己嘗試給一年級的孩子做了個學習用的小游戲,效果還不錯。
但也有人不認同,比如這位網友就發現,ChatGPT回復的長度雖然增加了,但是很多都是車轱轆話,干正事依舊擺爛。
他讓ChatGPT把一些文本翻譯成17種語言,結果嘰里呱啦說了一堆就是不翻譯。
為了消除個體差異,有網友用數據集測試了新的ChatGPT,結果……
新版反而更懶了?
這位網友用GitHub上開源的一套“lazy benchmark”測試了0125(24年1月最新版)和1106(23年11月的上一版)GPT-4模型,發現新版甚至還不如以前,變得更懶了。
這個測試數據集包含了與代碼相關的任務,用正確完成的比例間接反應“懶惰”程度,完成率越高說明“惰性”越小。
結果,對于其中的代碼比較(Unified diffs)任務,舊版能完成的比例尚且超過了一半,為57%,新版的完成率卻僅有44%,降低了近四分之一。
直觀感受上,也有人發現ChatGPT的“懶惰”變本加厲了——
以前就算偷懶至少還會糊弄一下,給出個大概的框架讓用戶自行補充,現在直接就是擺爛說自己干不了。
而針對網友們的這番發現,也有人給出了銳評:
這次,關于GPT-4變懶的原因,以及到底采用了什么優化策略,奧特曼也未做進一步說明。
“土辦法”可降低惰性
不過,之前的一項研究表明,GPT-4的惰性可能與時間相關,這一結論與GPT-4“變懶”的現象出現在年末的12月相吻合。
按照這一理論,新年伊始,模型的表現的確會有所提升,但似乎解釋不了表現不升反降的現象。
不過,網友們也總結了一些“土辦法”,能在一定程度上降低ChatGPT的惰性。
比如告訴它“我沒有手指”,就能得到相對完整的代碼,而不是一段段碎片。
又或者,告訴ChatGPT自己會“給小費”,也能激發它的工作動力。
甚至有人專門針對“小費”的金額進行了研究,發現10美元的性價比是最高的。
那么,你覺得ChatGPT是變好了還是更懶了?
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。