BCG聯(lián)手哈佛,史無前例驗證GPT-4是把雙刃劍,OpenAI總裁轉(zhuǎn)發(fā)
機器之能報道
編輯:吳昕
比爾·蓋茨說 GenAI 將徹底變革人類知識工作,但終歸是一個預(yù)測。
經(jīng)驗層面,沒有人真正了解最先進的大型語言模型(如 GPT-4)的全部功能。沒有人真正知道使用它們的最佳方法,或者它們在什么條件下會失敗。我們手里沒有使用手冊。在某些任務(wù)上,GenAI 非常強大,但在其他任務(wù)上又會或完全或微妙地失敗。除非經(jīng)常使用 GenAI,否則你都搞不清楚自己遇到的到底是哪種情況。最近,OpenAI 總裁 Greg Brockman 轉(zhuǎn)發(fā)了一項被頂尖咨詢公司波士頓咨詢集團( BCG )稱為「史無前例」的實證研究,從經(jīng)驗層面證實了 GPT-4 對人類知識工作的真正影響。
「很多人一直在問 AI 是否真的對未來工作很重要。有篇新論文強烈表明答案是肯定的。」他寫道。
Greg Brockman 轉(zhuǎn)發(fā)的是一篇發(fā)表在 SSRN 上的工作論文Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality ,由一支多學(xué)科的科研團隊撰寫,包括來自頂尖商學(xué)院的教授,比如賓夕法尼亞大學(xué)沃頓商學(xué)院、哈佛大學(xué)商學(xué)院、華威大學(xué)商學(xué)院以及 MIT 斯隆管理學(xué)院等。研究團隊調(diào)研采訪了頂尖咨詢公司波士頓咨詢集團( BCG )的 758 名咨詢顧問(約占集團咨詢?nèi)藛T總數(shù)的 7%),試圖找到 GPT-4 這類大型語言模型如何影響復(fù)雜、知識密集型任務(wù)表現(xiàn)的真憑實據(jù)。
結(jié)果發(fā)現(xiàn),使用 GPT-4 的咨詢師的業(yè)績在各個維度(數(shù)量、速度和質(zhì)量)上,都比沒有使用工具的咨詢師的表現(xiàn)好得多。
仍然是一篇新的工作論文,因此可能存在錯誤或錯誤并且該論文尚未經(jīng)過同行評審,發(fā)表在了SSRN。論文作者之一沃頓商學(xué)院教授 Ethan Molick 也在自己的博客上介紹了這篇研究。參與者被分為兩組:一小組被要求想象他們在一家鞋業(yè)公司工作,他們的經(jīng)理要求他們開發(fā)一種新產(chǎn)品并在會議上展示。該小組的參與者還被要求完成其他幾項行動,包括列出從推介到發(fā)布的步驟列表、創(chuàng)建營銷口號以及撰寫一篇 2,500 字的文章,描述開發(fā)鞋子的端到端流程和經(jīng)驗教訓(xùn)。不難看出,無論是產(chǎn)品構(gòu)思(「針對服務(wù)不足的市場或運動提出至少 10 個新鞋創(chuàng)意。」)、分析(「根據(jù)用戶細(xì)分鞋類行業(yè)市場。」)還是寫作和營銷任務(wù)(「起草一份新聞稿發(fā)布你的產(chǎn)品的營銷文案。」)等,都屬于 GPT-4 能力范圍內(nèi)的任務(wù)。而另一組則被要求解決業(yè)務(wù)問題,任務(wù)被設(shè)計得足夠復(fù)雜,以至于 GPT-4 在解決它時會出錯,因此它顯然超出了 GPT-4 的能力邊界。在這兩組中,研究參與者被分為三種情況:無法使用 AI、可以使用 GPT-4 AI 以及可以使用 GPT-4 AI 并了解如何使用 GPT。
一、能力邊界之內(nèi)
研究發(fā)現(xiàn),針對「 GPT-4 能力范圍內(nèi)」的咨詢業(yè)務(wù),使用了 GPT-4 的組別工作表現(xiàn)顯著提高(平均完成的任務(wù)多了 12.2%,完成任務(wù)的速度提高了 25.1%),完成質(zhì)量也更高(與對照組相比,質(zhì)量提高了 40% 以上)。作者指出,GPT-4工具的影響非常顯著。藍色組表示沒有使用GPT-4 ,綠色組和紅色組均使用GenAI,其中紅色組接受了一些關(guān)于如何使用GenAI的額外培訓(xùn)。三組成員在具體咨詢?nèi)蝿?wù)中的表現(xiàn)結(jié)果就像三顆牙齒,對比強烈。從上述效果圖來看,使用GPT-4與否(藍色牙齒代表沒有使用、綠色和紅色的牙齒部分代表使用)在最終效果呈現(xiàn)上,如同三顆牙齒,參差不齊,Ethan Molick 稱之為 GenAI 的「鋸齒狀前沿」。
虛線代表同等難度的咨詢?nèi)蝿?wù),藍色線條代表AI的能力邊界,在這條邊界內(nèi)的任務(wù),AI可以完成的很好;落在藍色之外的任務(wù),AI 就力所不逮了。不過,藍色曲線本身也是變化不居的,例如,當(dāng) GPT-4 在 3 月份首次發(fā)布時,它非常擅長正確識別素數(shù),準(zhǔn)確率高達 98%。但到了 7 月,僅僅幾個月后, 同樣的測試得出的準(zhǔn)確率只有 2%。這也是研究人員第一次清楚勾勒出 GenAI 能力邊界(上圖藍色曲線)——落在這條曲線(邊界)內(nèi)的任務(wù),都是GPT-4擅長并能輔助人類做得更好的;面對邊界之外的任務(wù),GPT-4 愛莫能助。這一發(fā)現(xiàn)也是這篇研究的重要貢獻之一。在此之前,人們對這道邊界的感知還是混沌的或者說是主觀想象的。比如,同樣是創(chuàng)作詩歌,GPT-4可以寫出不錯的十四行詩(類似莎士比亞十四行詩)但卻無法創(chuàng)作一首好的 50 個字的詩歌,為什么?現(xiàn)在清楚了——兩個任務(wù)看似差不多,卻正好落在邊界的不同兩側(cè)——前者在能力邊界之內(nèi),后者在邊界之外。
這也解釋了一些意想不到的任務(wù) (如創(chuàng)意生成)對 GenAI 來說很容易,而諸如數(shù)學(xué)這類任務(wù)卻構(gòu)成挑戰(zhàn)。Ethan Molick 總結(jié)說,發(fā)現(xiàn)擁有 GPT-4 顧問的表現(xiàn)明顯更好,無論我們是否首先向他們簡要介紹 GenAI(圖中的紅色部分)。而且,每個緯度的表現(xiàn)——時間、數(shù)量和質(zhì)量——都是如此。有趣的是,研究人員還使用人類和 AI 兩個評分系統(tǒng)對任務(wù)質(zhì)量進行評分,結(jié)果「英雄所見略同」(如下面兩個圖所示)。
總共有54條線,因為有 18個咨詢?nèi)蝿?wù),每個任務(wù)又分別對應(yīng)3個回歸模型:使用AI(綠色)、未使用(藍色)、使用而且獲得了培訓(xùn)(紅色)。Y軸記錄了相應(yīng)得分(人類根據(jù)具體效果打分),可以清楚看到紅色的優(yōu)勢。
和上圖的區(qū)別在于,這里任務(wù)表現(xiàn)評分是機器人打的。除了上述內(nèi)容,研究人員還發(fā)現(xiàn)了一些其他有趣的東西,比如 GPT-4 還起到了技能水平調(diào)節(jié)器的作用。當(dāng)評估得分最差的顧問開始使用 GPT-4 時,他們的表現(xiàn)提升幅度最大,達到 43%。得分高于平均水平的優(yōu)秀顧問在使用工具后,表現(xiàn)仍然有所提升,只不過增幅不是很大。總體而言,GPT-4可以增強不同水平的顧問的業(yè)務(wù)表現(xiàn)。
綠色的條形圖報告他們在評估任務(wù)中的表現(xiàn),而藍色的條形圖表示他們在實驗任務(wù)中的表現(xiàn)。y軸表示平均值分?jǐn)?shù)(1-10分)。當(dāng)評估得分最差的顧問開始使用GenAI時,他們的表現(xiàn)漲幅最大,達到 43%。評估得分高于平均水平的顧問,在使用AI工具后,表現(xiàn)仍然有所提升,當(dāng)然幅度并沒有那么大。Ethan Molick 認(rèn)為,還沒有足夠多的人考慮過,當(dāng)一項技術(shù)能將所有員工業(yè)務(wù)表現(xiàn)提升到頂尖水平時將意味著什么。「這可能就像過去礦工采掘礦石,能力和水平有高有低,直到蒸汽鏟誕生,一舉抹平個人能力上的差異。AI 雖然還沒有到那種程度,但提升知識生產(chǎn)者整體業(yè)務(wù)水平將產(chǎn)生重大影響。」
二、能力邊界之外
接下來移步 GenAI 能力邊界之外,又會發(fā)生什么呢?為此,BCG 精心設(shè)計了一項任務(wù),以確保 GenAI 無法得出正確答案。這個設(shè)計并不容易,正如論文中所說,「很難在前沿邊界之外的實驗中設(shè)計一項任務(wù),讓人類始終勝過 AI。」不過,他們還是確定了一項利用 AI 盲點的任務(wù)。三組被試被要求想象在一家擁有三個品牌的公司工作,手上也有虛構(gòu)公司的財務(wù)數(shù)據(jù)和采訪記錄,他們的任務(wù)是向公司CEO 寫一份 500 到 750 字的備忘錄,向老板解釋應(yīng)該投資哪些品牌來增加收入,并建議 CEO 采取創(chuàng)新行動來改進所選品牌。結(jié)果,沒有工具幫助的人類顧問在 84% 的情況下解決了問題,使用 AI 的顧問的表現(xiàn)卻更糟——只有60-70% 的情況下解決問題。使用 GPT-4 的參與者的表現(xiàn)明顯比對照組差——約 23%。GPT-4 不僅不能幫助人類完成這項任務(wù),而且實際上會嚴(yán)重?fù)p害人類的表現(xiàn),這又是一個重大發(fā)現(xiàn)。
此圖顯示邊界外任務(wù)的平均表現(xiàn)。紅組反而倒數(shù)第一,之前倒數(shù)的藍組反而成了第一。這與甩手掌柜情況有關(guān)。那么,到底發(fā)生了什么?Ethan Molick 提到了一篇研究過分依賴 AI結(jié)果適得其反的研究Falling Asleep at the Wheel: Human/AI Collaboration in a Field Experiment on HR Recruiters。該研究發(fā)現(xiàn),使用高質(zhì)量 AI 的招聘人員變得懶惰、粗心,而且判斷能力也較差。與使用低質(zhì)量 AI 或者不用 AI 的招聘人員相比,他們錯過了一些優(yōu)秀的申請人,并做出了更糟糕的決定。論文稱,當(dāng) AI 非常優(yōu)秀的時候,人類會關(guān)閉大腦并遵循 AI 的建議,而這更有可能是錯誤的。Ethan Molick 指出,針對落在 GenAI 邊界之外的任務(wù),咨詢顧問也樂得「甩手掌柜」,也會導(dǎo)致類似的后果——事實上,那些使用 GPT-4的顧問比那些不允許使用GPT-4顧問得到的答案更不準(zhǔn)確(但他們?nèi)匀槐炔皇褂?GenAI 的顧問做得更好)。這表明,高技能腦力勞動者仍然需要繼續(xù)驗證 AI,發(fā)揮「在使用 AI 時的認(rèn)知努力和專家判斷」,而不是盲目地采用 AI 輸出。
三、半人馬和賽博格
綜上,如果要像試驗中的許多顧問在前沿內(nèi)、外任務(wù)上都做得很好——避免 AI 陷阱,又充分發(fā)揮了其所長——就要注意 GenAI 能力邊界,「知人善用」。在能力邊界內(nèi),人類給 GenAI 帶來的價值非常小,但在能力邊界外,人類在沒有 GenAI 的情況下工作可以提高性能。這份研究表明,在人類與 GenAI 融合的一系列過程中,人類成功使用 GenAI 的方式出現(xiàn)了兩種獨特的模式。一組顧問充當(dāng)「半人馬」,就像神話中的半馬/半人生物一樣,將他們的解決方案創(chuàng)建活動劃分并委托給 GenAI 或他們自己。比如,你將決定采用什么統(tǒng)計技術(shù),然后讓 GenAI 處理生成圖表。在這份 BCG 的研究中,針對 GenAI 非常擅長的任務(wù)中,需要最少的人類參與。半人馬會做他們最擅長的工作,然后將鋸齒狀邊界內(nèi)的任務(wù)交給 GenAI 。
另一組顧問的行為更像是「賽博格(半機器人)」,將他們的任務(wù)流程與 GenAI 完全集成,并不斷與技術(shù)交互。你不只是委派任務(wù),而是將自己的努力與 GenAI 交織在一起,在鋸齒狀的邊界上來回移動。使用 AI 起草文檔就是一個典型例子,先啟動一個句子讓 GenAI 完成,這樣你就會發(fā)現(xiàn)自己在與 GenAI 協(xié)同工作。
四、在前沿邊界上起舞
無論關(guān)于 GenAI 的本質(zhì)和未來的哲學(xué)之爭進展如何,技術(shù)本身已經(jīng)對我們的實際工作方式產(chǎn)生了強大的顛覆性。這不是一項需要打著「五年內(nèi)改變世界、需要大量投資」的旗號大肆宣傳的新技術(shù)——它就在這里,現(xiàn)在。精英顧問用來增強工作的工具,和每位正在閱讀這篇博文的讀者的工具,完全相同。他們使用的工具很快就會比你可以使用的工具差得多,因為技術(shù)前沿不僅是鋸齒狀,而且在不斷擴大。明年至少有兩家公司會發(fā)布比 GPT-4 更強大的模型,我對此很有信心。鋸齒狀的前沿正在往前推進,我們必須為此做好準(zhǔn)備。即使撇開這種說法可能引起的任何焦慮,也要注意 GenAI 的缺點。人們在使用 AI 時,可能真的會「甩手掌柜」,沒有注意到它的錯誤。而且,與其他研究一樣,我們還發(fā)現(xiàn),GenAI 的輸出雖然質(zhì)量高于人類,但在總體上也有同質(zhì)化傾向。這就是為什么半機械人和半人馬的合作方式很重要——它們允許人類與 GenAI 合作,產(chǎn)生比單獨依靠任何一方更多樣、更好、更正確的結(jié)果。成為其中一員并不難,只要在工作任務(wù)中使用足夠多的 GenAI,你就會開始看到這條鋸齒狀邊界,并開始了解它們在哪些方面好到可怕......以及它的不足之處。在我看來,問題不再是 GenAI 是否會重塑工作,而是我們想要它意味著什么。我們可以選擇如何使用 GenAI 來幫助使工作更有效率、更有趣、更有意義。但我們必須盡快做出這些選擇,這樣我們才能開始以合乎道德和有價值的方式積極使用它,就像機器人和半人馬一樣,而不僅僅被動地對技術(shù)變革做出反應(yīng)。與此同時,這條鋸齒狀的前沿也總是變動不居,不斷開疆?dāng)U土。
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。