Babel張海龍:AIAgent將鑄就一支“鋼鐵雄師”
作者:賴文昕
編輯:陳彩嫻
在剛剛結(jié)束的英偉達(dá) GTC 大會(huì)上,CEO 黃仁勛描繪了一幅在 AI 大模型影響下軟件開發(fā)的新藍(lán)圖:未來做軟件不太可能重頭開始寫一大堆代碼。
“很可能你會(huì)組建一支 AI 團(tuán)隊(duì)。”黃仁勛稱。
自大模型成為潮流起,“AI 團(tuán)隊(duì)”的藍(lán)圖便早已初見端倪, AI Agent 賽道也成為了科技巨頭與創(chuàng)業(yè)公司多方角逐的兵家必爭之地。
3月13日,由華人創(chuàng)始團(tuán)隊(duì) Cognition AI 發(fā)布的全球首個(gè) AI 程序員 Devin,徹底點(diǎn)燃了業(yè)界對(duì) AI Agent 與應(yīng)用的熱情,更掀起了一波由 AI 引發(fā)的失業(yè)焦慮與對(duì)于“AI 是否會(huì)取代人類”的終極討論。
在這場(chǎng)“風(fēng)暴”之中,Babel 團(tuán)隊(duì)站在了極靠近中心的位置——產(chǎn)品 Babel 同樣定位為 AI 程序員,是 Devin 的直接競(jìng)品,團(tuán)隊(duì)也是目前國內(nèi)唯一一個(gè)聚焦 Coding Agent 的初創(chuàng)企業(yè)。目前,Babel 瞄準(zhǔn)的是海外市場(chǎng)。
Babel 能夠根據(jù)需求自主規(guī)劃任務(wù)、編寫和調(diào)試代碼、研究新問題、進(jìn)行自動(dòng)化測(cè)試、迭代開發(fā)并在必要時(shí)尋求人類幫助。
例如,當(dāng)被要求集成新發(fā)布的 Claude 3 這一超出了大模型固有知識(shí)范圍的任務(wù)時(shí),Babel 會(huì)自主搜索SDK,找到文檔,編寫代碼,然后進(jìn)行測(cè)試和驗(yàn)證。最后,它會(huì)交付一個(gè)經(jīng)過測(cè)試且可用的 Claude 3 集成模塊。
Babel 旨在開發(fā)者的工作負(fù)擔(dān),讓開發(fā)者有更多時(shí)間處理創(chuàng)造性工作和解決復(fù)雜問題。
“我堅(jiān)持認(rèn)為 AI 會(huì)替代初級(jí)程序員。”Babel 的創(chuàng)始人兼 CEO 張海龍說。
3月初,張海龍從深圳坐早班機(jī)去北京見投資人。前一天晚上,同事說 Babel 更新了,張海龍便在五點(diǎn)半起床后輸入了 Babel 后臺(tái)管理系統(tǒng)的需求,飛機(jī)一落地,項(xiàng)目就已完成了。
那是他們第一次完整跑通如此復(fù)雜的需求。如果同一個(gè)項(xiàng)目找外包團(tuán)隊(duì)來完成,想要拿到一個(gè)可運(yùn)行的、通過測(cè)試的交付成果,大致需要一周的時(shí)間。
在決心做 Babel 前,張海龍的經(jīng)歷一直圍繞著軟件工程,并未真正進(jìn)入過 AI 領(lǐng)域。
本科就讀于復(fù)旦大學(xué)軟件工程系,研究生就讀于卡耐基梅隆大學(xué)(簡稱“CMU”)的計(jì)算機(jī)學(xué)院,張海龍畢業(yè)后便在甲骨文任職高級(jí)軟件工程師。
2010年張海龍回國創(chuàng)業(yè),聯(lián)合創(chuàng)辦了開源中國社區(qū)。2014年,他又創(chuàng)辦了國內(nèi)領(lǐng)先的開發(fā)者工具 SaaS CODING,隨后在2019年被騰訊收購。
ChatGPT 的橫空出世與底層模型的突破讓張海龍突然意識(shí)到,未來十年所有的創(chuàng)業(yè)機(jī)會(huì)都和 AI 相關(guān)。帶領(lǐng)著 CODING 時(shí)期的精銳,張海龍的第四次創(chuàng)業(yè)殺入了 Coding Agent 賽道。
以下是 AI 科技評(píng)論與張海龍的對(duì)話。
Devin發(fā)布后,投資人有信心了
AI 科技評(píng)論:你有預(yù)料到會(huì)有 Devin 這樣的競(jìng)品出現(xiàn)嗎?
張海龍:我其實(shí)沒有那么驚訝,因?yàn)檫@事我們能想到,別人也能想到。創(chuàng)業(yè)從來不是因?yàn)橛刑貏e牛的想法,關(guān)鍵是如何實(shí)現(xiàn)。
Devin 出來之前我們就確定要干 Coding Agent,但并沒有引起大的反響,很多人質(zhì)疑是不是有點(diǎn)過于超前和理想主義。我們要花很大的精力去說服投資人這個(gè)方向是對(duì)的,側(cè)面意味著中國投資人其實(shí)信心不足,對(duì)于看起來特別超前的東西,第一個(gè)問題就是海外有沒有對(duì)標(biāo)。
Devin 出來后大家發(fā)現(xiàn)很快可以看到產(chǎn)品,對(duì)于行業(yè)和賽道來講都是利好的。
AI 科技評(píng)論:那你怎么看 Devin?
張海龍:其實(shí)大家對(duì)同一個(gè)問題解決的深度不同。
類比自動(dòng)駕駛,L1是 Google 這類純搜索,需要自己去組織信息;L2 是 ChatGPT 和 Copilot 這類 Prompt,可以直接問內(nèi)置很多能力的 AI,AI 以用戶想要的方式提供信息;
L3 是 Synthetic Search 綜合搜索,相當(dāng)于把前兩者融合了,Perplexity 和 Devv.ai 就屬于這一類,只不過 Devv.ai 聚焦 Coding,是一個(gè)垂直的 Perplexity;L4 則是 Issue Level Coding,目前看來 Devin 屬于 L4,L5 是 Project Level Coding。
從語言選擇上來講,就可以看到 Devin 和我們團(tuán)隊(duì)的背景差異。Devin 選擇 Python,我們選擇 NodeJS,Python 是科學(xué)計(jì)算,但其實(shí)對(duì)軟件工程不友好,我們選擇 NodeJS 是因?yàn)闃I(yè)界做工程、做網(wǎng)站它就是最牛、用戶量最廣、生態(tài)最好的。
雖然大家的切入點(diǎn)不同,但都是先把一個(gè)語言做好。現(xiàn)在還是用 demo、演示視頻比劃,真刀真槍的競(jìng)爭還要看誰能更快地開放使用,拿到真實(shí)的用戶反饋。
AI 科技評(píng)論:那 Babel 屬于 L4 還是 L5 呢?
張海龍:Babel 是從 L5 開始探索的,現(xiàn)在在一些更窄的領(lǐng)域里面,比如只做后端、一些常規(guī)項(xiàng)目開發(fā),已經(jīng)初步驗(yàn)證可行。但要使其受眾面更廣,要先解決 L4 的問題,所以我們計(jì)劃優(yōu)先發(fā)布一個(gè) L4 的產(chǎn)品,叫 Gru.ai。
Gru.ai 是從 Babel 里面拆出來的一個(gè) Agent,我們是在做 Babel 這個(gè) L5 項(xiàng)目的過程中發(fā)現(xiàn) Agent Team 里面需要一個(gè) Agent 能夠解決具體的技術(shù)問題。
這個(gè)問題是抽象的、不含有業(yè)務(wù)上下文、純粹的技術(shù)問題,比如問 Claude 3 的 API 怎么調(diào),它就會(huì)給一段經(jīng)過測(cè)試的代碼。我們會(huì)先把 Gru.ai 單獨(dú)拉出來去服務(wù)客戶。
AI 科技評(píng)論:所以你們最近要開始推出產(chǎn)品了。
張海龍:我們會(huì)先開放小規(guī)模使用,現(xiàn)在要解決最后一些產(chǎn)品化問題,之前都在開發(fā)功能,沒有在搞穩(wěn)定性。
用戶對(duì)于 AI Developer 和 Agent 的容忍度還是挺高的,只要不是完全不能用或者特別傻,都還是知道潛力在哪的,所以我們沒有打算做到 100% 完美再推出,因?yàn)檫@不可能、也沒意義,還是會(huì)盡早放出來,讓大家先起碼在一小部分問題上面看到它能解決問題。
AI 科技評(píng)論:為什么選擇從 Agent 切入?目前最成功的應(yīng)該是 Copilot 模式?
張海龍:在編程這個(gè)領(lǐng)域,最大的成本是人,所有的商業(yè)都圍繞人展開,從傳統(tǒng)的培訓(xùn)、獵頭、外包,到通過提供生產(chǎn)工具提高人的生產(chǎn)效率的 VSCode, Copilot 等等工具。
開發(fā)者的日常除了造火箭,還有擰螺絲,Copilot 的邏輯就是把開發(fā)者的螺絲刀換成電鉆,讓開發(fā)者擰的又快又好,但 Babel 的邏輯是給開發(fā)者配個(gè)小弟,開發(fā)者只要造火箭就行了,擰螺絲的事兒都是小弟干。
所以 Copilot 是一個(gè)更好的工具,但 Babel Agent 就是那個(gè)生產(chǎn)力,這是兩件完全不一樣的事情。
Copilot 是一個(gè)已經(jīng)驗(yàn)證成功的商業(yè)模式,但它離模型太近,離模型太近的商業(yè)模式對(duì)創(chuàng)業(yè)公司來說,離天堂也太近。我認(rèn)為真正留給創(chuàng)業(yè)公司的機(jī)會(huì)就是 Agent。Agent 是模型能力 + 行業(yè) Know How + 復(fù)雜工程,創(chuàng)業(yè)公司還是有機(jī)會(huì)做出領(lǐng)先優(yōu)勢(shì)的。
當(dāng)然這些心得我們也是探索出來的, Stephen Wolfram 的《What Is ChatGPT Doing...and Why Dose IT Work? 》給了我很多啟發(fā)。
AI 科技評(píng)論:中國 2B 的 SaaS 創(chuàng)業(yè)企業(yè)似乎沒有成功過,所以 Babel 是要走出海戰(zhàn)略嗎?
張海龍:作為一家替代程序員的公司,自然是哪里有程序員,哪里程序員貴我們?nèi)ツ睦铮?dāng)前最大和最貴的初級(jí)程序員市場(chǎng)在美國,這當(dāng)然是我們的首選目標(biāo)。
至于國內(nèi)市場(chǎng),你提到國內(nèi) 2B 創(chuàng)業(yè)的問題,確實(shí)存在,這是由于中國的整個(gè) 2B 市場(chǎng)仍然是大 B 驅(qū)動(dòng)的,所以最終往往走向銷售型/定制化的不歸路,不少人說過再也不想趟大 B 這個(gè)坑,我們?cè)隍v訊也干了 3 年服務(wù)大 B,也干的很痛苦。
但是從另外一方面說,中國軟件的定制化程度是最高的,這是 Babel 擅長的事情,但目前國內(nèi)的大模型能力無法支撐,需要至少達(dá)到 GPT-4 的水平,我們才有希望服務(wù)國內(nèi)用戶。
AI Developer 是工程,不是算法
AI 科技評(píng)論:Babel 是基于 GPT-4 Turbo 搭建的,為什么會(huì)選擇它?當(dāng)紅炸子雞 Claude3 表現(xiàn)會(huì)更好嗎?
張海龍:我們團(tuán)隊(duì)做了個(gè)開源項(xiàng)目 LLM-RGB,用來測(cè)評(píng)當(dāng)前市面上的大模型是否達(dá)到了 Babel 需要的最低標(biāo)準(zhǔn)。LLM-RGB 并不是一個(gè)全方位的測(cè)評(píng),只關(guān)注開發(fā)領(lǐng)域。
從我們測(cè)評(píng)的結(jié)果來看,可以說在 Turbo 出現(xiàn)之前,L4 都不成立。Turbo 在上下文長度有巨大的擴(kuò)展,號(hào)稱 128K,實(shí)測(cè)可能在 50K 左右。Devin 目前信息不明朗,但目測(cè)也是 GPT-4,magic.dev 則是明確自己做模型。
Claude3 出來以后,我們測(cè)試過,不需要修改任何代碼/Prompts,Babel Agents 可以完美地基于 Claude3 Opus 運(yùn)行,并且效果比 GPT-4 更好,但是 Claude3 Opus 太貴、太慢,暫時(shí)無法實(shí)際采用。
對(duì)于 Babel 來說,底層的模型誰好用誰,切換成本并不高。把自己做到模型無關(guān),才能搭上最快的火車。
AI 科技評(píng)論:那 AI Developer 不需要自己的大模型嗎?
張海龍:這涉及了公司的路徑選擇,我認(rèn)為在 AI Developer 賽道自己做模型是錯(cuò)誤的,意味著市面上所有的模型公司都是競(jìng)品,而我們更愿意站在巨人的肩上做事情。
有人會(huì)青睞小模型或垂直模型,但我持相反意見,因?yàn)橹挥写竽P湍軒碇橇Γ橇κ遣环謱懘a寫得好還是打官司打得好,是底層的東西。
AI 科技評(píng)論:你之前的經(jīng)歷并沒有和 AI 強(qiáng)相關(guān),做 AI Developer 有遇到什么技術(shù)難題嗎?
張海龍:其實(shí)技術(shù)上的困難沒有那么多,做 AI Developer 不是個(gè)科學(xué)或算法問題,是個(gè)工程問題,科學(xué)部分 GPT 已經(jīng)幫忙做完了,工程問題是我們團(tuán)隊(duì)擅長的。
一個(gè)模型就像一個(gè)剛畢業(yè)的大學(xué)生,聰明,有知識(shí),但沒法去企業(yè)里直接創(chuàng)造價(jià)值,我們要思考的是如何把一個(gè)聰明的模型變成一個(gè)聰明的工程師。
這個(gè)過程中最難的不是碰到了技術(shù)問題,而是不知道要解什么技術(shù)問題,因?yàn)檫@件事情沒有人做過。摸著石頭過河,畢竟也沒有可以參考的對(duì)象、工程方法論。
而且可用的基礎(chǔ)設(shè)施也有限,比如當(dāng)前市面上的 Multi Agent 框架一旦深入細(xì)節(jié)就會(huì)發(fā)現(xiàn)問題,還是得自己做。
AI 科技評(píng)論:你提到工程是 Babel 團(tuán)隊(duì)擅長的,你覺得這是你們的最大優(yōu)勢(shì)嗎?
張海龍:工程能力可以幫助我們積累一些早期優(yōu)勢(shì),但 AI 公司最大的優(yōu)勢(shì)來源于“數(shù)字化的經(jīng)驗(yàn)積累”。互聯(lián)網(wǎng)上所有公開信息都是結(jié)果,比如stark overflow 上的回答,Github 上的代碼,都是結(jié)果。很少有人把思考的過程和真正的經(jīng)驗(yàn)數(shù)字化,這也是員工的價(jià)值所在。
為什么老員工寶貴?就是因?yàn)楹芏嘀R(shí)經(jīng)驗(yàn),他的命題邏輯、解題思路和解題過程在大腦里不可傳遞。很多厲害的程序員在工作的時(shí)候都恨不得自己有分身術(shù),給他多少人手都不解決問題,就是源于這種經(jīng)驗(yàn)的不可傳遞性。
但 Agent 的經(jīng)驗(yàn)可以順便傳,可以復(fù)制 100 個(gè) Agent,同時(shí)服務(wù) 100 個(gè)客戶,并行做 100 個(gè)項(xiàng)目。整合經(jīng)驗(yàn)接著做第 101 個(gè)的時(shí)候,就是質(zhì)的飛躍了。
Developer 賽道本質(zhì)是個(gè)工程問題,不是算法問題,畢竟不是搞大模型。所以 Devin 的團(tuán)隊(duì)雖然光環(huán)很大,但在這個(gè)賽道的實(shí)際表現(xiàn)有待觀察。人才的核心是團(tuán)隊(duì)的 chemistry,現(xiàn)在 AI 賽道上特別喜歡頂著各種頭銜干活。雖說絕對(duì)的智商和學(xué)術(shù)上的權(quán)威很重要,但是也沒有那么重要,不然 GPT 就是 Google 做出來的了。我們和 CodeGen,Pythagora 的團(tuán)隊(duì)基本都是干了很多年工程的人,從團(tuán)隊(duì)優(yōu)勢(shì)上,我更相信我們這個(gè)成分的團(tuán)隊(duì)更有優(yōu)勢(shì)。
同時(shí),過去創(chuàng)業(yè)踩坑過程積累的經(jīng)驗(yàn)也讓我經(jīng)常會(huì)反思,現(xiàn)在可以更好站在一個(gè)第三者視角審視我們項(xiàng)目的 vision、團(tuán)隊(duì)和狀態(tài),在一個(gè)新型的領(lǐng)域創(chuàng)業(yè),面對(duì)技術(shù)和商業(yè)的雙重不確定性,這種觀察者的視角也會(huì)讓我們少走些彎路。
AI 科技評(píng)論:那目前在 AI Developer 賽道創(chuàng)業(yè)面臨著什么挑戰(zhàn)呢?
張海龍:第一,行業(yè)競(jìng)爭非常激烈,因?yàn)樗腥硕家?L5 走,少說有 20 個(gè)競(jìng)爭對(duì)手是拿過風(fēng)險(xiǎn)投資的,所以融資能力也很重要。
但客觀來說,中國現(xiàn)在的融資環(huán)境確實(shí)差得很遠(yuǎn),對(duì)于中國團(tuán)隊(duì)的競(jìng)爭是極其不利的。但有利的地方在于中國團(tuán)隊(duì)的工程經(jīng)驗(yàn)高于外國團(tuán)隊(duì),我們各種非標(biāo)項(xiàng)目、定制化開發(fā)、私有化、端到端全都干過。
第二是大模型太貴,所以依賴底層模型的進(jìn)化,GPT-4 至少得再降價(jià) 10 倍,大規(guī)模開放才具有真正的可能性。不解決成本問題的話整個(gè)賽道都會(huì)完蛋。
Coding Agent 創(chuàng)業(yè)對(duì)所有人都挺難的,但會(huì)有一種扮演上帝的感覺,很有成就感。我們最初做一頁紙需求還做得磕磕巴巴,但現(xiàn)在已經(jīng)能處理大概四五頁紙的需求了,產(chǎn)品的每一次演進(jìn)都能帶來正反饋,這種感覺真的太爽了。
數(shù)字員工崛起,人類失業(yè)?
AI 科技評(píng)論:你提到近幾個(gè)月 Babel 的很多想象逐漸變成了現(xiàn)實(shí),那對(duì)于未來的 Babel,你的想象或者規(guī)劃是什么?
張海龍:Babel 到最后比較好的狀態(tài)是成為一個(gè)賣 Agent 人頭的外包公司。
比如我們以一個(gè)月 1, 000 美金賣出 Agent 后,客戶負(fù)責(zé)它耗費(fèi)的電力、算力各種成本,相當(dāng)于從外包招了個(gè)人進(jìn)來,讓小弟幫干活。Babel 會(huì)持續(xù)升級(jí)這個(gè)小弟,讓小弟更聰明、干活干得更好、配套上各種工具環(huán)境,就是相當(dāng)于數(shù)字員工。
AI 科技評(píng)論:那你也認(rèn)為在未來 AI 程序員會(huì)取代人類程序員吧?
張海龍:其實(shí)我現(xiàn)在已經(jīng)看到了 AI Developer取代人類這件事了。
我們團(tuán)隊(duì)只有 10 個(gè)人,沒人開發(fā)管理后臺(tái)這種非核心業(yè)務(wù),所以我變成了要去負(fù)責(zé)后臺(tái)系統(tǒng)的人。當(dāng)時(shí)我面對(duì)三種選擇,第一是自己寫代碼、從頭到尾開發(fā)系統(tǒng),但這太累了;第二是找外包;第三也就是我選擇的,用我們自己的 Agent 寫。
之前沒有 Agent 的時(shí)候,我們會(huì)找外包去處理這個(gè)問題,所以我相信對(duì)于初級(jí)程序員的替代最遲一年就會(huì)發(fā)生,我們的產(chǎn)品近期會(huì)發(fā)布,隨著后續(xù)迭代它會(huì)更成熟,在一年以后,相信可以就替代擰螺絲的初級(jí)程序員,但高級(jí)程序員是不會(huì)被替代的。
高級(jí)程序員往往擁有專業(yè)領(lǐng)域的非共識(shí)知識(shí),這些知識(shí)無法通過公開領(lǐng)域的信息獲取。
AI 科技評(píng)論:但是高級(jí)程序員也是從初級(jí)程序員成長而來的。
張海龍:以后程序員的培養(yǎng)路徑也會(huì)跟現(xiàn)在不一樣,就像高科技種地一樣,不需要真的從種地開始學(xué),以后所有低端培訓(xùn)都可能會(huì)利空了。
AI 科技評(píng)論:除了 Coding 之外,你覺得還有哪些 Agent 會(huì)成為趨勢(shì)?
張海龍:其實(shí)從最新的融資情況來看,現(xiàn)在在法律、財(cái)務(wù)、市場(chǎng)等方向上都有團(tuán)隊(duì)在做 Agent 了,程序員應(yīng)該是數(shù)字員工這個(gè)大賽道中難度最高的一個(gè)。
我個(gè)人期待看到的是音樂和影視領(lǐng)域的 Agent。音樂 Agent 能全自動(dòng)寫完整的歌曲,包括作詞、作曲,把詞和曲對(duì)上并且演繹出來。影視 agent 能全自動(dòng)生成一個(gè) 10 分鐘的帶完整情節(jié)的短劇,不是一個(gè)個(gè)片段,而包含了鏡頭切換、故事內(nèi)容和情節(jié)。
現(xiàn)在看大模型,行內(nèi)人士遙遙領(lǐng)先、各種牽頭,但對(duì)于周邊老百姓的生活影響很小,只有當(dāng)數(shù)字員工普及,人人都是 CEO,那才是真的社會(huì)性的變革。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。