首頁(yè) > AI資訊 > 行業(yè)動(dòng)態(tài) > OpenAI大佬分享ChatGPT成功的秘密:極限壓榨GPU資源

OpenAI大佬分享ChatGPT成功的秘密:極限壓榨GPU資源

新火種    2023-11-13
編輯:潤(rùn)【新智元導(dǎo)讀】OpenAI的工程團(tuán)隊(duì)經(jīng)理(Engineering Manager)Evan Morikawa在一個(gè)開(kāi)發(fā)者活動(dòng)中分享了如何帶領(lǐng)OpenAI的工程團(tuán)隊(duì)來(lái)應(yīng)對(duì)ChatGPT的爆發(fā)式增長(zhǎng),以及用貓來(lái)調(diào)戲黑客等一系列趣事。

一個(gè)30人的團(tuán)隊(duì),完成了這個(gè)地球上最受歡迎的產(chǎn)品的發(fā)布和維護(hù)。他們成功的經(jīng)驗(yàn)和失敗的教訓(xùn),簡(jiǎn)直如金子一般珍貴。

OpenAI的工程團(tuán)隊(duì)經(jīng)理(Engineering Manager)Evan Morikawa在一個(gè)開(kāi)發(fā)者社區(qū)的活動(dòng)中,分享了OpenAI發(fā)布ChatGPT以來(lái),工程團(tuán)隊(duì)從開(kāi)發(fā)和支持層面獲得的最重要的幾條經(jīng)驗(yàn)和有趣的事情。

CatGPT調(diào)戲黑客

他們貢獻(xiàn)的第一條經(jīng)驗(yàn)是:工作要有愛(ài),不要斗爭(zhēng)!

當(dāng)OpenAI的工程團(tuán)隊(duì)發(fā)現(xiàn)有人反向工程了ChatGPT的API,大量盜用ChatGPT流量時(shí),工程團(tuán)隊(duì)沒(méi)有按照慣常的做法,停掉黑客們的訪問(wèn)權(quán)限。

OpenAI的工程師們決定,先把黑客們的ChatGPT訓(xùn)成「CatGPT」,萌黑客們一臉再說(shuō)。

于是他們通過(guò)添加了一條prompt,讓黑客們?cè)L問(wèn)的ChatGPT只會(huì)回復(fù)貓叫「meow」

然后黑客們發(fā)現(xiàn),不論自己怎么和ChatGPT聊,它的回復(fù)都只是:「我不知道,我是一只貓」

而且,OpenAI的工作人員還潛伏在黑客們的Discord里,看他們的反應(yīng)。

看著黑客們一臉懵逼的感覺(jué),主講人臉上也洋溢著幸災(zāi)樂(lè)禍的笑容。

到最后,黑客們自己也發(fā)現(xiàn)暴露了,在Discord里給OpenAI的工作人員留言說(shuō),「你們本可以給我們回復(fù)一首刀郎的歌,但是卻給了我們一只貓,品味感覺(jué)不太行啊」

說(shuō)完了故事,剩下的就都是干貨了。

GPU算力有限,GPU的內(nèi)存同樣寶貴

Evan Morikawa和大家分享的ChatGPT在用戶快速增長(zhǎng)階段,團(tuán)隊(duì)獲得的最重要的經(jīng)驗(yàn)是:GPU是ChatGPT的生命線,但是GPU的供應(yīng)有限,需要深入優(yōu)化其使用以擴(kuò)大規(guī)模,包括優(yōu)化內(nèi)存緩存、批處理大小等。

為了優(yōu)化GPU的使用,ChatGPT團(tuán)隊(duì)投入大量精力分析和調(diào)整多個(gè)方面,包括內(nèi)存緩存(KV Cache)、批處理大小(batch size)、運(yùn)算強(qiáng)度比(arithmetic intensity)等。

他們發(fā)現(xiàn)GPU內(nèi)存(GPU RAM)是最寶貴的資源,經(jīng)常成為瓶頸,反而算力的壓力還沒(méi)有那么大。

而且,內(nèi)存緩存未命中會(huì)導(dǎo)致重新計(jì)算,造成巨大的非線性計(jì)算增長(zhǎng)。

因此,團(tuán)隊(duì)不單看GPU利用率,而是監(jiān)控KV緩存命中情況,以最大化使用GPU內(nèi)存。

另一方面,批處理大小決定同時(shí)處理的請(qǐng)求量,也影響算力飽和度。結(jié)合這兩項(xiàng)指標(biāo),團(tuán)隊(duì)能更準(zhǔn)確判斷服務(wù)器負(fù)載,進(jìn)而指導(dǎo)擴(kuò)容。

這需要反復(fù)調(diào)整,因?yàn)殡S著模型演變,不同的結(jié)構(gòu)、用法會(huì)改變這些約束條件之間的相互關(guān)系。所以,他們持續(xù)關(guān)注底層實(shí)現(xiàn)細(xì)節(jié),才能更好的應(yīng)對(duì)ChatGPT用戶不斷增長(zhǎng)帶來(lái)的挑戰(zhàn)。

由于GPU供應(yīng)短缺,ChatGPT不得不跨多地區(qū)(region)多云服務(wù)商部署,以獲取更多GPU。這迫使團(tuán)隊(duì)在Terraform和集群管理上不斷取得進(jìn)步,才能管理復(fù)雜的基礎(chǔ)設(shè)施。

盡管多地區(qū)部署在網(wǎng)絡(luò)延遲上不優(yōu)化,但獲取更多GPU容量是當(dāng)務(wù)之急。GPU的有限供應(yīng)也意味著ChatGPT的增長(zhǎng)被限制了。

所以,用戶感覺(jué)ChatGPT變笨了,可能只是真的OpenAI應(yīng)付不過(guò)來(lái)了。

此外,新產(chǎn)品功能的推出也因GPU不足而受到延遲。這反映出AI行業(yè)的增長(zhǎng)遠(yuǎn)超過(guò)GPU供應(yīng)鏈增長(zhǎng)。

解決GPU供應(yīng)不足的挑戰(zhàn),ChatGPT團(tuán)隊(duì)學(xué)習(xí)到的主要經(jīng)驗(yàn)有:

一是要以系統(tǒng)工程視角看待,在硬件極限內(nèi)做優(yōu)化。

二是要根據(jù)不同模型、結(jié)構(gòu)主動(dòng)調(diào)整策略,GPU規(guī)模化面臨的約束在不斷變化

三是實(shí)現(xiàn)細(xì)節(jié)非常重要,需要深入GPU使用的底層細(xì)節(jié),而不是將其視為黑盒。

團(tuán)隊(duì)管理經(jīng)驗(yàn):獨(dú)立團(tuán)隊(duì),效率為先

Evan Morikawa表示,為保持團(tuán)隊(duì)的敏捷性,ChatGPT團(tuán)隊(duì)被OpenAI設(shè)計(jì)成內(nèi)部一個(gè)獨(dú)立的10個(gè)月的創(chuàng)業(yè)公司,整合研發(fā)、設(shè)計(jì)、產(chǎn)品等職能。

這種模式有利于快速迭代和敏捷交付。

ChatGPT團(tuán)隊(duì)只有約30人,但被設(shè)計(jì)成一個(gè)獨(dú)立運(yùn)作的初創(chuàng)公司,讓它像一個(gè)10個(gè)月大的創(chuàng)業(yè)公司。

ChatGPT團(tuán)隊(duì)有自己的代碼倉(cāng)庫(kù)、集群和輕量安全控制,讓它像一個(gè)全新的項(xiàng)目。

研發(fā)、設(shè)計(jì)、產(chǎn)品都在一個(gè)內(nèi)部團(tuán)隊(duì)中高度融合。這更接近一個(gè)初創(chuàng)公司的工作節(jié)奏,狀態(tài)、溝通成本和個(gè)人責(zé)任。

此外,全員同處一個(gè)辦公室也幫助團(tuán)隊(duì)在早期更好團(tuán)結(jié)一致。

產(chǎn)品問(wèn)題也更易與研究問(wèn)題相結(jié)合。整個(gè)團(tuán)隊(duì)的工作節(jié)奏、流程狀態(tài)都更接近一個(gè)初創(chuàng)公司。

盡管會(huì)有一些技術(shù)債務(wù)或重復(fù)建設(shè)的風(fēng)險(xiǎn),但這種模式明顯提升了交付速度。

相似模式在OpenAI其他新產(chǎn)品上也被重復(fù)使用,將一個(gè)大公司按業(yè)務(wù)線分解為多個(gè)內(nèi)嵌的初創(chuàng)團(tuán)隊(duì)。這需要一個(gè)共同的遠(yuǎn)大使命和堅(jiān)定執(zhí)行力,但回報(bào)是巨大的靈活性提升。


Tags:
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章