国产成人无码免费网站,久久青草免费视频,中文字幕精品亚洲人成在线

首頁 > AI資訊 > 最新資訊 > 首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

新火種 2024-04-18

作者|白交衡宇

首個(gè)AI程序員，演示視頻大幅度造假？？？

不久之前震撼硅谷的Devin，再度震撼硅谷——但這次是被打假。

事情是這樣的：油管程序員博主Internet of Bugs（以下簡稱光頭哥）對Devin的視頻進(jìn)行了逐幀分析，逐一舉證說明了Devin并不如演示中那般神奇。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

甚至有“自己現(xiàn)寫bug然后當(dāng)場修復(fù)”的騷操作。

其它“罪證”，包括但不限于：

號稱能解決任何Upwork任務(wù)，但演示中解決的問題并不是prompt要解決的那一個(gè)，做無用功；看起來在修復(fù)bug，實(shí)際上修復(fù)的bug人類程序員根本就不會(huì)犯；沒有意識(shí)到簡單兩步就能解決問題，花里胡哨一頓操作，其實(shí)是自己把任務(wù)搞復(fù)雜了；修改代碼的水平一言難盡。

此外，光頭哥花了半個(gè)多小時(shí)，把Devin演示視頻中的upwork任務(wù)完成了一遍——而Devin完成任務(wù)可能用時(shí)6個(gè)多小時(shí)。

啊這這這，真是好、大、一、口、瓜！

要知道，其背后公司Cognition AI手握10塊IOI金牌的活招牌，還在推出Devin當(dāng)月宣布成功融資2100萬美金。

推特和YC上已經(jīng)吵翻天了，讓這件事的討論度高居不下。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

還有人表示自己很受傷，再也不會(huì)相信各種冒出來的創(chuàng)業(yè)公司的東西了。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

完整詳情，一起接著往下看。

35年從業(yè)者逐幀驗(yàn)證

此次出來聲張正義的光頭哥，從事軟件行業(yè)已經(jīng)35年。他首先聲明自己的立場：我并不反對高科技，但我確實(shí)反對過度炒作。

他自己也經(jīng)常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。

事實(shí)上，在Devin剛推出時(shí)候，他就反對過“世界上第一個(gè)AI軟件工程師”這一說法。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

此次則主要針對的是一些更為具體的說法。

比如之前Devin號稱能夠靠處理upwork任務(wù)來賺錢的。但在真正的演示中Devin并沒有做到這一點(diǎn)。

不信？沒關(guān)系，光頭哥帶著逐幀的證據(jù)來了。

總結(jié)如下：

Devin所處理的任務(wù)并非隨機(jī)，而是精心挑選；與客戶實(shí)際需求有很大的出入；實(shí)際操作過程，數(shù)次自己創(chuàng)造bug然后再修復(fù)；很多毫無意義的操作，相當(dāng)于幾十年前在C語言中才用的方法；？？？

首先，來到了演示視頻的2.936秒處，在屏幕左上角有顯示他們搜索過這個(gè)內(nèi)容。因此，這不是所謂“隨機(jī)”選擇的任務(wù)。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

再來看客戶給到的具體需求。真正需求為“我想要利用這個(gè)庫來進(jìn)行推理。你需要提供詳細(xì)的操作指南。我不想討論完成這項(xiàng)工作預(yù)計(jì)需要的時(shí)間?！?/p>

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

但給到Devin的需求卻是：我希望利用這個(gè)模型在這個(gè)庫中進(jìn)行推理。請自己弄明白。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

最后視頻末尾出現(xiàn)的Devin生成報(bào)告中，也沒有提及客戶實(shí)際需要的內(nèi)容。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

那么，這份工作的最終交付成果應(yīng)該包括什么呢？

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

但Devin實(shí)際做了什么？

Devin第一次真正的嘗試，是它修改了一個(gè)名為requirements.txt文件,其中規(guī)定了代碼所依賴的庫版本。視頻中提到它正在更新代碼，但實(shí)際上更像是修改配置文件。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

然后根據(jù)需求，需要Devin能建立自己的推理能力，并僅需使用樣例數(shù)據(jù)即可。但實(shí)際項(xiàng)目要比這個(gè)復(fù)雜得多。

結(jié)果很快，Devin就遇到了第一個(gè)命令行錯(cuò)誤——打開圖像失敗、文件未找到、無此文件或目錄等。但在光頭哥實(shí)際復(fù)現(xiàn)時(shí)并沒有出現(xiàn)，結(jié)果研究發(fā)現(xiàn)，代碼倉庫壓根就不存在這個(gè)文件。

這相當(dāng)于Devin自己創(chuàng)建了個(gè)bug，然后再修復(fù)bug。在接下來的操作中，Devin經(jīng)歷了很多次這樣的“自建自修”。

不能說十分有用，只能說完全沒有必要。

接下來，再來看看代碼庫中這樣一個(gè)readme文件。正如視頻所展示的那樣，readme文件清晰地說明了該文件的功能和用法。在頁面右側(cè),甚至還有一個(gè)小按鈕，點(diǎn)擊它就可以復(fù)制整條命令，然后粘貼到命令行窗口中，按下回車即可運(yùn)行。

但Devin完全沒能理解，而又是自創(chuàng)了個(gè)項(xiàng)目。而寫的那段從緩沖區(qū)讀取數(shù)據(jù)的代碼十分糟糕。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

于是光頭哥發(fā)出了靈魂拷問：

這種做法顯然已經(jīng)過時(shí)，正常人用Python誰還會(huì)再寫這個(gè)代碼。這種代碼很難調(diào)試，它邏輯復(fù)雜，難以理解，很容易出現(xiàn)細(xì)微的錯(cuò)誤。

此外，代碼庫中還存在一個(gè)真正的錯(cuò)誤，但Devin既沒有發(fā)現(xiàn)也沒有修復(fù)。

然后光頭哥用谷歌搜索，按照GitHub 上一條相關(guān)評論修改了代碼，只花了1分07秒，問題就解決了。

最終光頭哥總共花了35分55秒復(fù)現(xiàn)了Devin的工作，而Devin實(shí)際花了多長時(shí)間呢？

如果細(xì)看視頻Demo，就會(huì)發(fā)現(xiàn)Devin處理工作前后有6個(gè)小時(shí)20分鐘的間隔。

視頻的前部分顯示的是3月9日下午3：25 的時(shí)間戳，但后半部分卻顯示的是當(dāng)天晚上9：41。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

而逐幀細(xì)看就有會(huì)發(fā)現(xiàn)一些奇怪且毫無意義的操作。

比如head -N 5 results.json | tail -N 5這個(gè)命令，它表示取這個(gè)JSON 文件的前五行，然后再取這些行的最后五行。

正確的做法應(yīng)該是”head-5 results.json”。那個(gè)-N 是多余的。只要說 -5 就可以，不需要那些多余的東西。

最后光頭哥銳評，AI現(xiàn)在生成的內(nèi)容有很多都十分愚蠢，反倒會(huì)讓事情變得更為復(fù)雜。

當(dāng)看到它的任務(wù)列表時(shí)，會(huì)覺得：哇，Devin做了很多事情。但實(shí)際上可能并非如此。

網(wǎng)友：至少掌握了看起來很忙的技巧

對于此次Devin造假翻車，不少網(wǎng)友對現(xiàn)階段AI產(chǎn)品炒作嗤之以鼻。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

甚至還列出了三大炒作典范：Devin、rabbit、Humane。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

也有網(wǎng)友調(diào)侃：Devin至少掌握了看起來很忙的技巧。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

嗯？打工人有被內(nèi)涵到。

不過也有一些支持的網(wǎng)友，比如這位沃頓商學(xué)院的教授Ethan Mollick。

他聲稱自己有早期訪問權(quán)，在體驗(yàn)中發(fā)現(xiàn)真的很有趣。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

他認(rèn)為現(xiàn)在將Agent視作“炒作”為時(shí)尚早，未來幾個(gè)月Agent的能力將十分強(qiáng)大。

號稱“世界首個(gè)完全自主的AI軟件工程師”

有意思的是，演示造假事件爆出來的時(shí)間，距離Cognition AI推出Devin僅過去了一個(gè)月。

咱們一起來回顧一下。

一個(gè)月前的3月13日，Cognition AI在推特上介紹了自家推出的Devin，并稱其為“世界上首個(gè)AI軟件工程師”。

只需一句指令，它可端到端地處理整個(gè)開發(fā)項(xiàng)目。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

主創(chuàng)介紹，Devin在長程推理和規(guī)劃上面下了很大功夫，可以規(guī)劃和執(zhí)行需要數(shù)千個(gè)決策才能完成的復(fù)雜軟件工程任務(wù)。

具體來說有6大功能：

端到端構(gòu)建和部署程序，可以解決的不只是代碼問題，還包括與之相關(guān)的整個(gè)工作流；

自主查找并修復(fù)bug；訓(xùn)練和微調(diào)自己的AI模型；修復(fù)開源庫；為成熟的生產(chǎn)庫做貢獻(xiàn)；超強(qiáng)學(xué)習(xí)能力，實(shí)時(shí)補(bǔ)足知識(shí)和能力短板。

Devin完整技術(shù)報(bào)告中顯示，在SWE-bench基準(zhǔn)測試中，無需人類輔助，Devin可解決13.86%的問題

——這個(gè)數(shù)據(jù)看起來不高，但其實(shí)已經(jīng)超過了此前所有AI大模型的成績。

目前數(shù)一數(shù)二的GPT-4，在同個(gè)測試中的成績只有1.74%，且必須配備一個(gè)人類，提示它要處理哪些文件。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

當(dāng)時(shí)的Devin團(tuán)隊(duì)一副沒在怕的樣子。

雖然沒開放公測，但陸陸續(xù)續(xù)給出了一些內(nèi)測名額。

在互聯(lián)網(wǎng)上搜索一番，發(fā)現(xiàn)上手體驗(yàn)過的人給的買家秀反饋是這樣的：

熱衷AI的沃頓商學(xué)院教授Ethan Molick試過后，認(rèn)為其新穎的實(shí)時(shí)交互方式是最值得關(guān)注的。

他要求Devin開發(fā)一個(gè)解釋“創(chuàng)業(yè)公司融資中的股權(quán)稀釋”的網(wǎng)站，隨后透露，AI還無法在沒有任何幫助的情況下，自主且無差錯(cuò)地完成這項(xiàng)工作。。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

但也有人直接表示，體驗(yàn)過后確實(shí)是有被震撼到。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

巧的是，截圖中的這個(gè)首批內(nèi)測體驗(yàn)者Bubna哥，是AI基礎(chǔ)設(shè)施創(chuàng)業(yè)公司Modal Labs的CTO。

后來他和Devin還聯(lián)手搞了個(gè)新聞。Devin用自家老板的賬號，潛入Modal Labs的工作群，和Bubna哥一番交流過后，根據(jù)回復(fù)調(diào)整了代碼方案，解決了一個(gè)技術(shù)問題。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上 △圖中的發(fā)言人背后其實(shí)是Devin

當(dāng)然，除了看上去

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

哄哄的技術(shù)，Devin還鍍了一層光環(huán)，那就是背后公司Cognition，雖然是個(gè)小初創(chuàng)，但在招人信息中明晃晃寫著：

我們團(tuán)隊(duì)手里握著10塊IOI金牌呢～

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

技術(shù)演示和團(tuán)隊(duì)背景都吸睛Max，直接給Devin的傳播力度添磚加瓦。

也正是因?yàn)閷evin的關(guān)注，代碼生成領(lǐng)域在過去一段時(shí)間里進(jìn)展是突飛猛進(jìn)。暫時(shí)無法在飛書文檔外展示此內(nèi)容比如，GitHub三萬Star項(xiàng)目MetaGPT就上新了“開源版Devin”，名為數(shù)據(jù)解釋器（Data Interpreter）：

阿里Qwen成員Binyan Hui等人開啟了OpenDevin項(xiàng)目，一個(gè)月過去已經(jīng)在GitHub攬星21.5k；

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

普林斯頓那邊動(dòng)作更快，用GPT-4打造了開源SWE-agent，開箱即用，可修復(fù)GitHub存儲(chǔ)庫中真實(shí)bug。

在25%的SWE-bench測試集上，它實(shí)現(xiàn)了與Devin演示視頻中相似的準(zhǔn)確度—— 解決了12.29%的問題。

還有各個(gè)大廠也開始入駐自己的AI程序員……

One More Thing

結(jié)果現(xiàn)在發(fā)生這件事兒，怎么說呢……

往好了想，真是救大命了，所有的程序員們都要松口氣了，還好還好，AI暫時(shí)還無法端到端端走我的飯碗。

往壞了想，真是要了命了，這么一個(gè)備受關(guān)注的明星項(xiàng)目居然是個(gè)只能活在視頻里的demo。

難道世界真的是個(gè)巨大的草臺(tái)班子？？？

Tags:

程序員詳解

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

代碼生成三問：如何打造24小時(shí)在線的AI程序員？

蘋果AI詳解：跟安卓有點(diǎn)不一樣

下一代AIPC旗艦平臺(tái)！英特爾全新架構(gòu)LunarLake詳解

NPU詳解：沒有就不能用AI了嗎

國內(nèi)首個(gè)48小時(shí)大模型極限挑戰(zhàn)賽落幕，四位“天才程序員”共同奪冠

熱門文章

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

代碼生成三問：如何打造24小時(shí)在線的AI程序員？

蘋果AI詳解：跟安卓有點(diǎn)不一樣

下一代AIPC旗艦平臺(tái)！英特爾全新架構(gòu)LunarLake詳解

NPU詳解：沒有就不能用AI了嗎

國內(nèi)首個(gè)48小時(shí)大模型極限挑戰(zhàn)賽落幕，四位“天才程序員”共同奪冠

熱門文章

首個(gè)AI程序員造假被抓，Devin再次“震撼”硅谷！扒皮詳解附上

代碼生成三問：如何打造24小時(shí)在線的AI程序員？

國內(nèi)首個(gè)48小時(shí)大模型極限挑戰(zhàn)賽落幕，四位“天才程序員”共同奪冠