《AGI路線圖》年度回顧:回望大模型這一年:混搭、擴散、ROI
在過去的一年里,我們見證了一場接連不斷的AI發(fā)布盛宴,從年初的Sora到年末的大模型春晚盛典。《AGI路線圖》已經(jīng)與大家攜手走過了一年。在歲末之際,我們邀請了幾位《AGI路線圖》的常駐嘉賓,一同回顧這一年AI的跨越式發(fā)展,共同探討了AI+SaaS的前景,未來Agent生命與AI生活新時代的愿景。
嘉賓
王喆 特贊聯(lián)合創(chuàng)始人
孔蓉 天風全球前瞻產(chǎn)業(yè)研究院 院長
胡修涵 捏它智能科技 創(chuàng)始人
主持人
徐思彥 騰訊研究院《AGI路線圖》主理人
精彩觀點匯總:
AI發(fā)展關鍵詞
胡修涵選擇了“混搭” (Remix) ,強調多模態(tài)生成和AI技術帶來的創(chuàng)新融合。
孔融認為“擴散”是關鍵詞,體現(xiàn)在人才團隊流動和應用場景擴展。
王喆選擇了 “ROI” ,指出市場對AI投資的理性回歸和對投資回報的關注。
Agent的定義和角色
Agent被視為一種技實體,介于人和人工智能之間,幫助人類減少協(xié)作過程中的人際摩擦。
Agent可能會在未來組成新的公司形態(tài),大幅減少人員需求,通過降低企業(yè)內耗提升效率。
人類將更多地與Agent互動,形成新的社交模式和社區(qū),Agent可能成為人類體驗的模擬器。
AI在垂直領域的應用
AI Agent將在企業(yè)服務和生成式AI交叉賽道中發(fā)揮重要作用。
AI在娛樂內容與社交應用場景中有廣泛應用場景,特別是多模態(tài)技術和故事敘事的結合。
AI將在垂直領域 (如法律、咨詢、會計、廣告等) 取得突破,將打破專業(yè)服務行業(yè)無法規(guī)模化的局限。
經(jīng)濟與就業(yè)的影響
AI將取代部分工作崗位,但同時創(chuàng)造新的就業(yè)機會,如數(shù)據(jù)標注、陪伴服務等。
人類將更多地從事與情緒價值和創(chuàng)意相關的工作,形成新的市場需求。
AI的發(fā)展將推動經(jīng)濟的存量平移,而非爆發(fā)式增長,新的工種和服務將不斷涌現(xiàn)。
以下是完整的文字回顧:
年末AI公司發(fā)布回顧
徐思彥: 臨近年末,各家AI公司都在趕在年底前交出自己的答卷。OpenAI舉辦了為期12天的精致發(fā)布會,而Google Gemini也在12月推出了新版本。這些發(fā)布會帶來了諸多更新。我們想請修涵先分享一下,在這些發(fā)布中,哪些給你留下了深刻印象?
胡修涵: 好的。其實我們正好在年初探討相關的AI發(fā)布的時候,是以Sora作為年頭最重要的一些發(fā)布節(jié)點。到了年末,終于我們看到它發(fā)布和面向用戶可以公開測試和使用了。過去這幾周呢,確實大家很密集地發(fā)布了一系列的產(chǎn)品。相對來說,從產(chǎn)品側Google做到的新的視覺模型,還有它的圖像模型Google Image FX相關的產(chǎn)品demo,都是超出大家在行業(yè)內之前對于Google一些預期的。OpenAI相關的這些發(fā)布其實更多體現(xiàn)它的技術和產(chǎn)品結合,然后讓更多人使用這樣的一些企圖。最近甚至公布了一個熱線電話,讓大家直接可以打的時候跟ChatGPT聊天,所以其實也是在給AI去做很多普惠大眾的工作吧。那我們自己看到更多最近的行業(yè)界和學術界的變化呢,出現(xiàn)了一批生成開放世界、開放3d和4d環(huán)境這樣子的一些技術。這些技術可能也代表著面向具身,面向整個物理世界進行模擬的一些AI技術的新突破。
徐思彥: 其實我覺得從年初到年末,大模型的發(fā)布有一個越來越分散化、越來越專有化的一個趨勢。從最早可能大家做的都是預訓練基礎大模型,到現(xiàn)在可以看到每一個公司它專攻的方向會有越來越大的差別。我聽說好多技術的專家也對Google新發(fā)布的這個模型是評價比較高,那你們是從哪個角度去做的這個判斷呢?
胡修涵:從視頻模型的角度來看,無論是對提示詞的遵從能力、多個主體之間的自然互動,還是整體的生成質量,都超出了大家的預期。圖像模型方面也有一些值得關注的突破,比如新推出的Google Whisk能同時處理12到15個主體而不會混淆,并能成功生成圖像。 這些點上都體現(xiàn)了Google在整個技術的積累上還是非常令人敬佩的!
AI年度關鍵詞
徐思彥: 王老師是從大模型使用的不同用戶分類來幫我們理解了過去一年大模型的變化。其實我記得在年初我們AGI路線圖的第一期是深度解讀了Sora的發(fā)布,那個時候震撼的感覺還是讓人非常記憶猶新了。一直到今天年底的時候,我們覺得好像大模型已經(jīng)成為了我們日常工作和生活的一部分。
在這個時間點呢,我也想讓各位嘉賓可以用一個詞來總結一下過去一年大模型的發(fā)展。
胡修涵: 如果是一個詞的話我會選擇 “混搭” (Remix) 。這里面有幾層含義:一個是關于模態(tài)的生成在這個過程中是被更好的混合起來的。就是整個的模型大家可能會談到更多原生多模態(tài)的大模型。輸入是被混合的,輸出也是被混合的。那多樣的輸出其實造就了一些應用能夠傳遞更好的內容生成質量,和更好的一些visual storytelling(講故事的能力)。這樣子的一系列的能力,使得真正的大眾更容易去認可和接受AI生成的一些結果。
第二層的解讀呢,我們可能會發(fā)現(xiàn)AI從整個的能力角度上更擅長去組織輸入信息的多樣性,并且找到其中的潛在底層聯(lián)系。事物的聯(lián)系本身是廣泛的,而且中間的矛盾的融合就孕育著創(chuàng)新。所以,當他能夠把如此之多的東西通過混合并且再次解壓縮,模型本身的訓練過程是一個壓縮,那生成的過程就是一個解壓縮的過程。在這樣一個輸出的結果的創(chuàng)新融合中,可以找到AI真正這一代所謂的生成式的價值,而不僅僅是依賴于讓模型本身自己基于輸入的多樣性來進行創(chuàng)新。
那第三點的話,其實就是更多的人能夠參與這個AI的浪潮吧。年初我對于AI技術的人群滲透是比較擔憂的,因為去年一年的情況下雖然ChatGPT在科技圈很火,但整個的泛人群中的滲透率其實是相對很低的。在這一年經(jīng)過很多的大廠、創(chuàng)業(yè)公司、還有像特贊這樣為企業(yè)去服務解決提供方案的這些公司的努力下,整體大眾的認知和滲透度上終于達到了一個早期技術上比較有機會產(chǎn)生新的創(chuàng)新的一個機會點。所以整體從這幾個角度來說,我都覺得“Remix混合”或者“混搭”是一個很重要的關鍵詞。
徐思彥: 很有意思,就是修涵選的這個關鍵詞 “混搭”,是有一些意料之外,但也是情理之中。因為很多創(chuàng)新都是從remix當中誕生的,現(xiàn)在大模型也到了一個可以吸收更多多元的元素、模態(tài),然后創(chuàng)造出不同的表達形式。那接下來先請孔老師來分享。
孔融: 2024年從AI的維度來看,關鍵詞是"擴散"。這體現(xiàn)在兩個維度:首先是人才團隊。從去年年底OpenAI核心團隊的變動開始,今年他們的人才流動十分顯著——有人離開,也有新人加入。這種人才團隊的流動促進了技術的擴散,形成了人才跟隨技術發(fā)展,進而推動AI擴散的趨勢。
第二個維度是應用場景。 2023年時,人們主要關注大公司在AI領域的投入和發(fā)展,同時也有創(chuàng)業(yè)團隊逐步涉足,但商業(yè)化前景仍存在諸多疑問。到今年下半年,這種擴散明顯加深——盡管許多公司的商業(yè)化仍處于早期階段,但在不同場景中,各家公司的商業(yè)化能力已經(jīng)開始顯現(xiàn)。因此,從2024年的角度來看,“擴散”確實是最貼切的描述。
徐思彥: 確實,這個現(xiàn)象給我們留下了深刻印象。過去一年,各大AI公司之間出現(xiàn)了頻繁的人才流動。與2023年相比,各公司的研究方向也不再高度趨同,而是各自確立了獨特的發(fā)展重點。這種分歧從現(xiàn)在開始顯現(xiàn),很可能在明年進一步擴大。我們非常期待看到這一領域的未來發(fā)展。下面請王老師分享。
王喆: 我想到的一個關鍵詞是ROI,即投資回報率。2023年和2024年最大的變化在于:2023年大家聽到很多信息,資本方紛紛下場融資,對整個AI領域持極度樂觀態(tài)度。到了2024年,市場開始回歸理性。從資本端來看,無論是對底層大模型還是上層應用的投資,都變得更加理性。大家開始思考AI能開拓的存量市場和增量市場究竟有多大,整個AI產(chǎn)業(yè)的資金規(guī)模是否合理。
從企業(yè)端來看,很多做基礎大模型的企業(yè)對預訓練的態(tài)度也發(fā)生了變化。由于每次完整的預訓練都需要巨大投入,無論是資本方還是創(chuàng)業(yè)者,都在認真權衡是否要進行預訓練以及預訓練的深度。
上層應用公司則希望token價格更加合理,我們也看到token和算力的價格正在向更高ROI發(fā)展。品牌端的變化也很明顯:AI剛出現(xiàn)時,品牌們期待它能大幅降低成本,而現(xiàn)在則更務實地追求合理的成本降低。因此,我們看到AI應用公司的定價模式更加多元化,不再局限于售賣token,最近幾個月更流行按交付結果收費的模式。這反映出客戶更深入地理解了AI技術,更關注它如何為企業(yè)創(chuàng)造直接的商業(yè)價值,實現(xiàn)合理的投資回報。這就是為什么我選擇ROI作為年度關鍵詞。
熱點AI賽道
徐思彥: 每次技術浪潮都會經(jīng)歷從泡沫到理性回歸的過程。去年,業(yè)界熱議的一個核心問題是scaling law是否已經(jīng)觸及天花板。對于小公司而言,與其投入巨資進行預訓練,不如在現(xiàn)有基礎上尋找其他發(fā)展路徑。企業(yè)客戶的態(tài)度也在轉變——從最初人人都想嘗試大模型,到現(xiàn)在更理性地思考每個場景是否真的需要大模型。在這個過程中,市場誕生了眾多細分賽道。我們不再局限于討論通用型預訓練大模型,而是將重點轉向不同的專業(yè)領域,比如具身智能、視頻生成,以及剛才修涵提到的visual storytelling(視覺敘事)等。去年可以說是百花齊放的一年。面對如此多樣的發(fā)展趨勢, 我也想跟各位嘉賓來探討一下,你們最關心的是哪個賽道和領域。
胡修涵: 首先,我最關心的自然是我們創(chuàng)業(yè)公司所在的賽道和領域—— 娛樂內容與社交應用場景。 在這個方向上,我們觀察到業(yè)內在探索初期進行了多種嘗試,包括開發(fā)聊天陪伴式的chatbot互動,以及融入多模態(tài)技術來讓角色更接近真實的人,更像完整的數(shù)字生命。到年末時,業(yè)界開始考慮將 這些技術與storytelling(故事敘事)和交互式體驗相結合。
我們發(fā)現(xiàn),早期的嘗試中,許多人過度高估了當前技術的單位成本效益、整體推理能力以及agent、LUI等技術能力,卻忽視了基礎的信息組合處理。更重要的是 如何在較低的AI環(huán)境成本下模擬社交互動和內容制作場景。 因此,盡管出現(xiàn)了許多富有創(chuàng)意的設想,但都未能成功落地或實現(xiàn)爆發(fā)式增長。
目前,我們主要關注 兩個關鍵點:一是底層技術的進步是否真正提升了多模態(tài)生成的豐富度和易用性——用通俗的話說,就是生成內容的"抽卡"次數(shù)要達到用戶可接受的水平。二是多模態(tài)層面的生成成本能否降到比早期移動互聯(lián)網(wǎng)的流量費更低。這兩點是我們期待在技術上取得突破的關鍵。
徐思彥: 好的,謝謝修涵!孔老師你作為行業(yè)的資深觀察者,你是站在一個比較客觀的角度看了那么多包括端測模型,哪些賽道是你自己會重點關注的?
孔融: 作為這個領域的研究觀察者,我們接觸到的場景較多。當然,創(chuàng)業(yè)者可能有更深入的觀察和親身經(jīng)歷來幫助我們理解。從我的角度, 我主要關注AI與不同領域的結合。 展望未來,包括2025年,我依然非常看好 AI和智能體 這個賽道,特別是 垂直領域SaaS的發(fā)展機會 。這也是近期業(yè)界持續(xù)討論的熱點話題,也是我們對2025年最看好的方向之一。
回顧今年,最令人印象深刻的是 年中時期對AI發(fā)展前景的普遍質疑。 大家發(fā)現(xiàn),雖然各大科技公司在持續(xù)加大capex(資本支出),但商業(yè)化收入?yún)s比投入少了一個數(shù)量級。這種情況在年中確實讓業(yè)界陷入迷茫,這個問題在國內外都普遍存在。
不過到了前三季度,從美股上市公司的財報中,我們看到了積極的變化。雖然AI相關的商業(yè)化收入尚未達到很大規(guī)模,但越來越多的公司已經(jīng)開始 通過AI獲得收入增長。 這也回答了產(chǎn)業(yè)界和投資界最關注的問題:在巨大投入之下收獲較少的情況下,AI的發(fā)展敘事是否能夠持續(xù)?這個轉變讓我們對未來兩年的發(fā)展更有信心。
另一個值得關注的點是大洋彼岸即將到來的大選,以及馬斯克與特朗普的關系發(fā)展。 有人稱他們是"第一兄弟"。但無論如何,這都可能讓我們對全球科技發(fā)展前景更加樂觀,因為馬斯克將影響所有前沿科技的發(fā)展方向,包括AI。從這個角度來看,我對 未來五到十年的科技發(fā)展更加樂觀,這種影響將是全球性的。 大洋彼岸對AI的態(tài)度很可能會發(fā)生重大轉變,這將促進AI在各個場景的落地應用。這是今年給我留下深刻印象的第二個重要觀察。
徐思彥: 你覺得在去年大家都對scaling law這個技術大規(guī)模投入產(chǎn)生質疑的情況下,AGI還是很多公司追求的目標嗎?
孔融: 我覺得其實對于不同的公司,他其實追求不同,就是更多公司我覺得可能也在追求商業(yè)化的產(chǎn)出,然后如何讓自己活下去,AGI當然是更遠的一個未來的目標。但是這個階段,當大家都在質疑商業(yè)化的時候,其實如何產(chǎn)生商業(yè)化和產(chǎn)生商業(yè)價值是在我覺得24年大家最關注的一個話題了。
王喆: 我最關注的方向是孔老師剛才提到的 AI agent。 有人稱之為 垂直領域的AI,這與我們所處的企業(yè)服務和生成式AI交叉賽道密切相關。 SaaS是一個很有趣的領域,在中美兩國呈現(xiàn)出不同的發(fā)展軌跡。美國的SaaS在過去近20年里表現(xiàn)出色,無論是資本活躍度、投資回報,還是企業(yè)發(fā)展都相當可預測。許多SaaS公司通過融入AI能力獲得了更好的增長。
我個人特別看好agent這種產(chǎn)品形態(tài),不論它被稱為"SaaS+AI"還是垂直領域的AI。Agent的概念雖然被廣泛理解,但其 本質是通過調用基礎模型的能力,降低用戶使用門檻,并實現(xiàn)低人工參與的工作流程。 在AI出現(xiàn)之前,企業(yè)(特別是ToB領域)的數(shù)字化軟件主要致力于促進人與人之間的協(xié)同。而agent的出現(xiàn)可以顯著減少協(xié)作過程中的摩擦,因為它能減少協(xié)作所需的人數(shù)。
由于每個人的思維方式不同,多角色協(xié)作不可避免會產(chǎn)生溝通和理解上的摩擦。通過引入agent,我們可以將五個角色減少到四個,或將四個角色減少到三個,從而大幅降低這些摩擦。這對提升企業(yè)效率和人均產(chǎn)出都有巨大潛力。因此,我預計 AI agent將在2025年迎來重大突破!
關于Agent的定義和角色
徐思彥: 關于agent這個話題也是今年熱度非常的高,硅谷好多創(chuàng)業(yè)公司都在做agent,其實關于agent的理解就像你剛剛提到的,不同的人可能會有不同的理解,有的人是把它作為一個AI應用的承載,一個agent就是一個APP的感覺,然后也有人會把agent理解成一個更加靠近AGI的甚至帶有某些生命的東西,因為它的中文翻譯也叫智能體,涉及到很多跟人的協(xié)作等等。
王老師你是怎么理解agent,你覺得未來它是往哪個方向的發(fā)展可能性比較大呢?
王喆: 我可能會有一個比較獨特的視角來理解agent。因為你看agent這個英文詞它最樸素的意思是一個代理人。其實剛剛講到整個AI的產(chǎn)業(yè),我想拋一個問題就是,但這個問題的視角可能會很獨特,就AI到底是服務誰的?是服務人還是服務機器的?為什么這么說呢?因為你看過往我們這代人經(jīng)歷了幾個比較大的技術紅利,不管是互聯(lián)網(wǎng)還是移動互聯(lián)網(wǎng),都是因為突然間有了很多用戶的增量。因為用戶和人口的紅利帶來了更大的市場和爆發(fā)。我們今天看到AI的時候你會發(fā)現(xiàn),現(xiàn)在AI有的用戶都是移動互聯(lián)網(wǎng)和傳統(tǒng)互聯(lián)網(wǎng)的用戶。因為大部分的用戶都已經(jīng)上網(wǎng)了,今天你只要連接到互聯(lián)網(wǎng),你總會接觸到某一款應用里邊用了某一點AI。所以當AI進入到這個產(chǎn)業(yè)里,沒有巨大的增量。那我覺得增量來自于什么呢?那可能會有更多的機器,或者是agent會消耗token也好,或者使用大模型也好,不管是這些中間的應用、機器人,或者是一些純虛擬化的agent,他們可能是真正調用底層大模型的能力。所以我的視角對于agent理解是Agent是作為一個技術上的一個實體,然后最先去消耗token,然后他作為一個代理能夠去幫人完成某種任務,他作為一個中間態(tài)。所以從這個角度來講,Agent他會介于人和人工智能之間,它來消耗更多的token,更知道怎么樣去處理不管是token還是prompt。所以這些代表的機會他們能夠釋放出更多的產(chǎn)能,以及可能會帶來更多的增量用戶,這個是我自己對agent的理解。
徐思彥: 王老師帶來了一個非常新的觀點,大家應該在其他地方都沒有聽到過,就是agent的用戶可能并不是人,而是機器。它是人和AI未來中間的一個代理,并且可能可以幫整個AI和人的協(xié)作去減少更多的摩擦。
孔融:不只是人與機器之間的交互變化,還有就是機器與機器之間的交互變化。
徐思彥: 這是一個完全新的一個課題。
胡修涵:AI里面最像人的一層。
王喆: 對,我記得去年硅谷有個統(tǒng)計數(shù)據(jù),顯示投資者投了很多專注于單一工種AI的公司,比如能完成客服、銷售或開發(fā)工作的AI。不過仔細想想,現(xiàn)在的agent只能完成單個人或單一工種的工作,但 未來可能會有突破性發(fā)展:幾個agent結合在一起就能組成一個完整的公司,這可能會徹底改變現(xiàn)有的商業(yè)形態(tài)。
公司這種組織形式已有幾百年歷史,組織帶來了人與人之間的摩擦,為了減少這種摩擦,我們發(fā)展出了管理學。為了更好地實踐管理學原則,我們又發(fā)明了軟件和數(shù)字化工具。
如果說人與人之間的摩擦是影響企業(yè)效率的主要原因,那么為了提升效率,未來的企業(yè)可能會大幅減少人員,轉而由多個agent組成。這樣的企業(yè)可能只需要一個人來管理,甚至可能完全不需要人工參與。我認為這種全新的公司形態(tài)很可能會出現(xiàn)。
孔融: 我聽王老師說到這一點,我自己小小的概括了一下,我覺得可能王老師要表達的意思是agent最主要的這個作用之一就是降低企業(yè)的內耗。
王喆: 對是的。
徐思彥: 我記得科斯最早對企業(yè)的定義,就是企業(yè)主體內的摩擦是比企業(yè)和外部之間要小。那有了agent以后,也許我們現(xiàn)在企業(yè)的根基形態(tài)都會有變化。
胡修涵: 這也是企業(yè)規(guī)模無法擴大到一定范疇的原因。本質上當企業(yè)規(guī)模擴大的時候,它的內部交易費用就大于外部了,這是科斯定理。
王喆: 是的,你想想看,過去很多專業(yè)服務公司的估值一直不高,原因在于這類服務隨著人數(shù)增加,人均收入和利潤就會下降。這是因為規(guī)模擴大會帶來更多的內部摩擦。不過現(xiàn)在,隨著AI的出現(xiàn),傳統(tǒng)專業(yè)服務行業(yè)正在經(jīng)歷巨大變革。無論是法律、咨詢還是會計,包括我們熟悉的廣告行業(yè),這些過去依賴人力密集型的行業(yè),都在發(fā)生改變。 有了AI的加持,很可能會打破專業(yè)服務行業(yè)無法規(guī)模化的傳統(tǒng)局限。 因此,我認為這些行業(yè)都 面臨著重大的重塑機遇。
徐思彥: 你說專業(yè)服務無法規(guī)模化,我想到我們今年年中的時候報告里也提出了一個詞叫機器外腦。過去我們有一個預設,智力是一種稀缺資源,因為一個社會里面他聰明的人是有限的,所以各大公司才要在校招季去搶一些優(yōu)秀的畢業(yè)生。但是當我們有足夠的機器來變成智力資源以后可能就不稀缺了,就會有很多新的模式誕生。
還有一個就是你剛剛講的商業(yè)模式。剛剛孔老師和王老師都有談到saas的一個商業(yè)模式,但是我還看到了一個預測是說,agent帶來的商業(yè)模式跟過去的saas是不一樣的,最大的區(qū)別可能是它更像一個人力的外包。以前的saas是一個人比如說有一個賬號,按照人頭去計費的,而有了agent以后,因為他完成的是一個工作流,可能就是按照一個勞務外包公司去收費去定價,按照每個工作流去定價。這可能是跟現(xiàn)在的軟件服務公司最大的商業(yè)模式的不同。
孔融: 我覺得其實從前一段時間也看到了很多海外包括國內都有agent相關的一些產(chǎn)品發(fā)布,不管是在PC端、手機端,包括一些C端的場景,但是我可能還是更看好B端的應用。因為我們看B端的很多工作流,它是確定的一個任務,然后讓比如說agent去執(zhí)行,但是C端的很多需求我覺得可能還需要一段時間,有一些是比較個性化的一些需求。所以從明年的維度去看比如說agent跟一些場景的結合,我覺得可能TOB的機會看的更清晰一點,包括王老師所處的品牌宣傳,包括電商的場景。不論是我們看到的像客服、廣告、售后,其實有很多確定的任務環(huán)節(jié)是可以通過agent來進行完成的。所以那么多agent相關的AI的一些場景里邊,我覺得明年像廣告跟電商里面的機會可能更容易落地,當然這個也是跟大家一起探討了。
王喆: 這個我覺得蠻有意思的,你會發(fā)現(xiàn)TOC的應用經(jīng)常大家會說你要比原有的解決方案好十倍,才能帶來爆發(fā)式的增長和更好的留存。在TOB的領域里,你只要比原來的解決方案好10%,就會有企業(yè)開始嘗試。所以在TOB的這個落地里,大家接受它是漸進式的進步,而在TOC的應用里,大家其實產(chǎn)生了一個期待叫做,你一定要比我現(xiàn)在的接受的服務要明顯的好,我可能才愿意留存。我可能愿意嘗試一次,我覺得他好的差不多,我也懶得去接受一種新的用戶習慣和一種新的用戶網(wǎng)絡。而在TOB里,我們能明顯的感知到一個項目有100萬,你能幫我省10%也是省,省30%也是省。所以TOB的這些客戶對于新技術產(chǎn)生的結果,大家是有很大的包容度的。在一個早期的技術的演變過程中,包容度決定了這個領域里新技術能夠多快的能夠去擴大它的市場占有率。
胡修涵:從這個角度來看,C端的一些場景類別的包容度還是很高的。特別是在娛樂和社交內容型場景中,雖然核心的限制可能在于單位成本,但整體包容度確實很高。 說到agent這個話題,我最近聽到一句很有啟發(fā)的話: 與其問agent能為你做什么,不如問人類能為agent做什么。 這當然帶有一些碳基和硅基的玩笑性質,但背后確實隱藏著一個有趣的問題。 我們不妨把當前的agent視為一類待塑造的新生命體,是人類未來將持續(xù)互動的一種存在。
從人類體驗和經(jīng)濟角度來看,agent必然是其中的重要要素。人類天生就喜歡與類人的生物打交道,通過這種互動獲取內容和人生體驗。在這個層面上,每個agent都是你 體驗層面的代理人, 是在有限生命中獲得更多人生體驗的最佳載體。雖然我們無法延長壽命,但可以在有限時間內獲得更豐富的體驗,這也是人類的固有追求之一。
因此,agent需要學會更好地取悅人類,以某種代理身份來增加人類的長期體驗。即使在工作場景中的agent完成了所有使命,人類仍有互相娛樂這樣的需求存在。所以在當前階段,任何致力 于培養(yǎng)優(yōu)質agent的嘗試都是很有價值的。
王喆: 對,我覺得修涵說這個特別好玩,因為我手上拿著一個QQ的公仔。你想在20多年前我們第一次玩QQ的時候,其實你并不知道QQ里邊另一個人是男是女。因為最早大家剛開始聊天的時候就是匿名,那你想今天我們在這個所處的時代,你去聊天,對面你也可能不知道他是人還是agent。然后還有可能會有一段時間里都不明確,然后它慢慢在實名化,可能會有agent的社區(qū)。比如這個社區(qū)里就不允許有人加入。可能有一些社區(qū)是人和agent是共存的。然后有一些社區(qū)是以真人為主,不太鼓勵agent進來的。這些都是有可能的,因為你想我們回看歷史,你根本不知道對方是誰,很有可能現(xiàn)在你并不知道對方是不是人,然后大家慢慢去接受。反正是人也好,不是人也好,他能給你帶來情緒價值都是好的交互和好的體驗。
徐思彥: 我記得我們之前看過一個研究,就是圖靈測試已經(jīng)失效了。如果按照以前的圖靈測試標準的話,可能agent也都是能通過圖靈測試的。剛才修涵提到了一個觀點我覺得也比較有意思,agent是人類體驗的模擬器。剛剛TOB派,就是兩位關注B端生態(tài)的研究者,大家更多關注的是生產(chǎn)力的關系,然后修涵因為做的是C端的應用,所以可能更偏體驗派。我聽到過一個觀點,就是說可能比起給出某一種生產(chǎn)性建議,agent更適合去模擬現(xiàn)實生活中的一種可能性,這種可能性可能你要花很多成本才能去模擬出來,但是在AI里面就可以大大的降低成本。
胡修涵: 對,其實本質這個模擬體驗的需求從我們一直談元宇宙那一代的任何產(chǎn)品大家都會有感觸。最近抖音的創(chuàng)始人也提到,一定程度上現(xiàn)在存在一種從內容的創(chuàng)作工具側走向創(chuàng)造和體驗的范式變遷,也就是說你體驗和消費的情緒價值也是來源于你自己主動參與的創(chuàng)造。這件事情最實際的例子就是搭樂高和自己拼宜家的家具,這些事都會讓很多人感受內心平靜和治愈。所以這些過程中,其實情緒價值是通過你和某個客體在過程中去完成這種體驗消費。這些消費相對來說是對于純粹被動的去接受某個內容消費的一種反抗。在這個層面上剛剛說的agent代表的一種體驗上的可能性,也確實是其中最有意思和面向未來的一些東西。
徐思彥: 好的,謝謝修涵。大家其實剛剛都有分享過自己比較期待的場景,或者是使用過比較有意思的AI的體驗,那接下來我們更關心的一個部分就是除了這些在商業(yè)視角上的場景以外,你們個人跟AI是怎么樣互動的?
修涵已經(jīng)提到了人跟AI的共創(chuàng)是非常重要的,那你是不是有興趣去訓練一個自己的AI模型,或者你有一個什么樣的計劃慢慢的去跟AI融合呢?
胡修涵: 我想的不只一個。我們正在做的捏它的產(chǎn)品就很典型,很多的用戶和同學主要是一些大學生為主的一些同學,他們可能會自己拋出一些話題,然后這些agent甚至也會在他們拋出的話題底下去給他們一些帖子回復,然后并且生成一些對應的場景上的一些圖像,那在這個過程中,一定程度上這一類agent已經(jīng)線上化去替代了一些小貓小狗的體驗。大家都在那兒圍觀某一個角色在說一些很有趣或者是犯傻的話。大家可能為此也能建立一些積極的社交上的鏈接,所以在這樣的一個體驗中,大家都會一起去教這些小貓小狗或者是這些Agent的角色來去更好的體現(xiàn)自己的特點。所以在這些過程中,可能你需要的也不只是一個,畢竟很多人都會養(yǎng)很多只,也會有很多個代表不同自己的個性和側面這樣的體驗的載體或者對象。
徐思彥: 用修涵的話來說,就是培養(yǎng)你自己的agent。孔老師呢,你自己用AI的程度怎么樣?你有沒有特別的場景去使用它?
孔融: 我平時因為工作需要處理大量信息,所以我經(jīng)常使用AI。最近我重新開始學習,報名了斯坦福的課程。在學習過程中,我與AI的互動會更加頻繁。從目前情況來看,我在教育領域使用AI比較多,同時在處理金融相關信息時也經(jīng)常使用,比如分析財報和電話會議等。第三個方面是作為家長的角度。對家長來說,輔導孩子做作業(yè)是每天的重要任務。我們購買了一些智能硬件來輔助這個過程。如果能有一個AI助手按照家長的想法來輔導孩子完成作業(yè),這將非常實用,是一個真正的剛性需求。
王喆: 我有一個四五歲的小朋友。我們這代人常說比我們年輕的是"互聯(lián)網(wǎng)原住民",而我認為我的小朋友這一代是真正的"AI原住民"。當我們在討論AI與人類的關系、圖靈測試、AI的發(fā)展?jié)摿σ约八鼘θ祟惖臐撛谕{時,我的孩子卻是天生就在AI世界中成長,周圍的設備都已具備人工智能和大模型的能力。
在與他的互動中,我為他制作了一個AI代理(agent)。通過觀察小朋友學習AI的過程,我發(fā)現(xiàn)了孩子與AI有許多相似之處。比如,我們四五歲的小朋友在學習時也會產(chǎn)生"幻覺",在表達時會不小心說錯話。舉個例子,他會說"一塊魚"而不是"一條魚",這種錯誤模式與AI早期訓練時的表現(xiàn)很相似。
有趣的是,當他在玩agent時,我?guī)退寺×宋液退约旱穆曇簟A钊梭@訝的是,他特別喜歡與自己的聲音對話。對我們這一代人來說,與自己的聲音對話可能是種奇怪而陌生的體驗,但對小朋友來說,這是一件新奇有趣的事情,他甚至會主動給自己的agent打電話。
小朋友經(jīng)常問兩類問題:一類是百科知識,比如"為什么天是藍的"、"為什么會有溫度";另一類是充滿想象力的問題,當他在讀書時遇到新奇的事物就會展開聯(lián)想。這讓我深刻意識到,這一代人確實是在AI環(huán)境中自然成長的一代。
對我自己而言,就像修涵所說,我們每個人都有ToB(工作)和ToC(生活)兩個維度。在工作中,我希望agent能幫助提高效率,減輕工作負擔。而在生活中,我期待擁有多個不同的agent。我很認同大家所說的agent是一個模擬器的觀點。我們常常會想,如果人生可以重來會怎樣?通過agent,我們可以模擬不同的人生選擇:假如當年沒上這個大學會怎樣?假如當年沒回國創(chuàng)業(yè)又會如何?這些人生的分岔路口都可以通過agent來模擬。
胡修涵: 在我們的產(chǎn)品中最常見的一類創(chuàng)作主題就叫“whatif”。
孔融: 你的“人生沙盤”。
徐思彥: 這個詞取得很好,創(chuàng)業(yè)公司應該留意一下。
胡修涵: 對,所以我覺得其實小朋友跟自己的聲音對話,一定程度上他可能覺得是在跟一個更好和更全能的自己在對話。
王喆: 跟一個更會考試的自己哈哈。
徐思彥: 對,或者是理想版本的不同平行世界自己。那可能就是在模擬的前一步,我們是需要建立一個自己的AI版本或者克隆的自己。可能修涵做這個會更有基礎一些,你現(xiàn)在有一些什么嘗試?
胡修涵: 我們自己社區(qū)中最火的原聲角色就是一個創(chuàng)作者塑造了自己,這就是一個可以戰(zhàn)勝其他類似初音未來這種熱度的角色。所以大家確實是喜歡在某個層面上塑造自己。然后想象不同的東西。但另一個層面,他當然也想把他周圍相關的所有實體和朋友們也一起帶進去。這樣子的話,不管是揍他們,還是和他們一起玩,都挺開心的,對。
徐思彥: 不光是模擬了自己,還模擬了自己和社群,也許以后有一個agent版本的我們四個人,就會有一場更有意思的對話。
孔融: 想起來我們大概兩三年前提到的,現(xiàn)在大家提到比較少的元宇宙。其實AI可能最大的應用場景包括跟agent的結合,可能還是回到了元宇宙。但大家現(xiàn)在已經(jīng)比較少提到這個名詞了。
徐思彥: 元宇宙基本概念就是一個開放世界。 以前我們談論的開放世界僅限于人為設計的角色和固定的路徑,但加入AI之后,它的生成屬性讓這個世界變得更加開放。它不僅能夠適應開放性需求,還能與每個人建立獨特的聯(lián)系,創(chuàng)造個性化的版本。我很期待這樣的元宇宙出現(xiàn)。 在此背景下,AI公司未來追求的是什么呢?
胡修涵: 我們主要從技術的成本結構角度來考慮這個問題。從整個AI賽道來看,從去年到今年,我最直觀的感受是 語言模型在特定智能水平上的單位成本下降了約160倍。 這意味著,過去CAI類應用無法承擔的對話輪數(shù),現(xiàn)在變得容易支撐起來了。在C端和大規(guī)模社會應用方面,單位成本是大家在看技術demo時容易忽視的關鍵問題。
我可以舉個典型例子。如果從圖片生成領域來看,當單位圖片生成成本接近廣告時代的水平時,意味著一次廣告曝光的收入可以支持生成20到30張以上的圖片。去年看一次廣告只能生成四分之一張圖,而今年看一次廣告產(chǎn)生的收入可以支持生成20到30次。這就是我前面說的,當單位成本接近早期移動網(wǎng)絡流量費用的節(jié)點時,底層成本結構發(fā)生了革命性變化。不過在視頻領域,還沒有達到這個臨界點。
從整體格局來看,以中美為主的各國在AI領域都投入巨大。 這些投入可以類比為修建基礎設施,比如公路和發(fā)電廠。這些前期投入最終需要通過應用生態(tài)來獲得回報和補貼。展望明年,我們預計單位成本還會下降兩個數(shù)量級,使用量會提升兩到三個數(shù)量級。同時,由于成本下降,應用場景的覆蓋范圍可能會擴大十到二十倍以上,讓許多原本無法實現(xiàn)的應用變得可行。整體來說,token消耗量應該會有萬倍級別的增長,這是我們認為相對合理的預期。
基于這些變化,我們 需要提前思考:在這條"高速公路"修好之后,什么樣的應用能夠最大程度地利用好這個基礎設施?這是我思考整個產(chǎn)業(yè)結構時最關注的核心問題。
徐思彥: 修涵提的這個GPT又能夠通過哪些考試,能夠取得多高的分,還是一個智力水平上的關注。但是另外一個其實影響到它應用的擴散點就是這個單位成本。
胡修涵: 我再稍微補充一點,因為我們其實今年還有一個主題就是這個推理時的scaling law,意味著推理的時候要比以前一次消耗大量倍數(shù)以上的token。原來可能只是消耗一份的,現(xiàn)在可能一次推理就要消耗百分到千份以上。這個過程中也有很明顯的乘數(shù)效應,所以綜合起來這個部分的數(shù)量級變化應該是整個行業(yè)結構在明年出現(xiàn)的最可觀的變化。
徐思彥: 那是不是預計明年就會有很多應用的爆發(fā)呢?
胡修涵: 我覺得在不同場景下會出現(xiàn)非常有趣和完全不一樣的嘗試,對。
孔融: 還有要補充的是我們看到計算能力和更好的芯片會推出。這里面其實對于明年應用的機會也是非常重要的一點。
AI帶來的行業(yè)變革和就業(yè)新機會
王喆:AI會改變一切嗎?我目前的觀察是,還看不到明年產(chǎn)業(yè)會有巨大的增量。 我也沒看到AI作為一個新技術能憑空產(chǎn)生一個全新的產(chǎn)業(yè)。目前唯一可見的例子可能是像聚生智能這樣的新興企業(yè)。這類企業(yè)通過融資消化了大量AI成本,在融資充裕的產(chǎn)業(yè)間形成了自我循環(huán)。從整體來看,無論是消費端還是供給端,我都沒有發(fā)現(xiàn)任何一個群體在明年可能出現(xiàn)收入倍增的跡象。 對很多產(chǎn)業(yè)鏈來說,AI技術更像是一種存量平移。在這種存量平移的情況下,可能就不會出現(xiàn)爆發(fā)式增長。 這是我的看法。
徐思彥: 你說這個存量平移可能更接近于傳統(tǒng)產(chǎn)業(yè)a部門的成本轉移到B部門。
王喆: 是的,原本有些人在從事某些工作,但隨著AI的出現(xiàn)取代了這些崗位,這些人轉而去做其他工作。這樣的小型就業(yè)機會會不斷涌現(xiàn),同時也會產(chǎn)生很多新的工種。比如說,隨著AI產(chǎn)業(yè)的擴張,會產(chǎn)生一些服務于AI產(chǎn)業(yè)的新工種。比如隨著AI產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)標注產(chǎn)業(yè)也會相應擴大。由于標注人才變得稀缺,一些人可能會 轉型成為數(shù)據(jù)標注領域的專業(yè)人才 。
徐思彥: 說到新工種的產(chǎn)生,這也是我們最近經(jīng)常討論的話題,這可能是C端用戶最關心的問題之一,對此你有什么見解可以分享給大家嗎?
王喆: 我覺得人類本質上需要情緒價值,也愿意為情緒價值付費。隨著AI替代了某些工作崗位,可能會 催生出一些專注于為他人提供情緒價值的新型工作。 比如陪伴服務或其他專業(yè)服務領域,會有新的從業(yè)者加入,形成新的市場需求。
徐思彥: 修涵,你有沒有關注過你的用戶群體——現(xiàn)在的 大學生 ,對他們來說,哪些機會消失了,又有哪些新的機會被創(chuàng)造出來?
胡修涵: 他們最大的損失當然是在現(xiàn)實就業(yè)市場上與前輩們一起職業(yè)發(fā)展的機會。但從我們的觀察來看,他們的社會組織能力更強,在消費文化和引領文化方面的能力也更突出。他們能在更早的階段完成對自己社會角色的模擬和扮演,在學校時期就已經(jīng)具備這樣的能力。因此,他們很可能確實 更擅長創(chuàng)造情緒價值 ,這一點我很認同王老師的觀點。作為情緒價值的創(chuàng)造者,他們需要在這個過程中形成自己的經(jīng)濟循環(huán),但這個經(jīng)濟循環(huán)的成熟速度可能會慢于他們在娛樂和自我需求價值方面的探索。這就像我們看到的短視頻應用,先是形態(tài)發(fā)展成熟,之后才逐漸形成完善的商業(yè)經(jīng)濟和電商模式。 所以在這個過程中,市場需求的滿足與商業(yè)化、貨幣化效率的實現(xiàn)之間存在著時間差。
徐思彥: 對,像新的工作機會可能要在平臺型的機會穩(wěn)定了以后才會產(chǎn)生新的模式。
胡修涵: 就是初期干這些事可能更多的是為愛發(fā)電,后期才能真正支撐他們養(yǎng)活自己,通俗一點來說的話。
王喆: 對,其實有可能會出現(xiàn)娛樂工作化。過去打游戲是一個純娛樂的事兒,后來游戲有了專業(yè)玩家,有了直播,有了電競。未來我們今天所有大家所謂的娛樂消費的行為,很有可能會產(chǎn)生一個新的產(chǎn)業(yè)。這個產(chǎn)業(yè)叫他們要相互競技。比如現(xiàn)在可能只有少數(shù)的游戲會有專業(yè)玩家和競技生態(tài)和比賽。那如果真的比如說效率提升了,你有了更多時間可以玩,那是不是有更多的娛樂游戲可以專業(yè)化?你在玩兒的過程中,雖然你在玩,可能對于別人來說也有可能這是一種工作,比如會花錢付你錢來看你玩,只要你玩的比較好。
胡修涵: 只要你打造的agent技術比較高。
徐思彥: 我聽了大家討論,仿佛是在說以后工作就是agent和agent互相協(xié)作去提升效率,然后人最大的價值就是給其他的人提供情緒價值,這可能就是agent暫時跟人差距比較大的。
王喆: 也有可能是agent賺了很多錢養(yǎng)了你,他說他要付錢給你來玩,從而他有新的數(shù)據(jù)樣本可以學習。
孔融: 剛才其實講的還是說工作時間可能更少,由于agent或者是AI來幫助你完成一些工作,然后娛樂時間變多了。因為人就24個小時,所以娛樂那部分怎么去填補其他人的娛樂時間,這可能是你的一個價值,這個可能是第一點,就是剛才提到的。
然后從我理解的維度去看,未來我們的工作或者就業(yè)可能還會往哪個方向?我們現(xiàn)在其實能看到,對于創(chuàng)意,從創(chuàng)意到點子再落地執(zhí)行一個方案,再變成一個組織,這個點子的價值到底有多大? 如何為你的創(chuàng)意合理定價,并實現(xiàn)價值轉化?我認為在過去許多年中,尚未找到更為優(yōu)化的定價與價值轉化方法, 但是在未來會越來越珍貴。因為所謂的基礎落地成本相對變低,你的點子就變得比較重要,甚至可能你的點子你會創(chuàng)造一個比較大的公司,然后可能有成百上千個所謂的agent來幫你完成,所以這個點子和這樣的創(chuàng)意會變得比較有價值。我覺得人不論是從自身還是我們培養(yǎng)下一代,我覺得你有獨立思考能力,你要有不同的很好的創(chuàng)意形成這樣的一個過程,未來我們需要找到自己的價值,需要有這些獨特的點子和創(chuàng)意,然后去服務和匹配未來的需求,這也是我們可以努力的一個方向。
徐思彥: 獨立的思想還有豐富的情緒,大家都不約而同講到可能人最本質的地方。
AI與數(shù)字資產(chǎn)、元宇宙
孔融: 對,如果真的未來由于AI帶來了經(jīng)濟規(guī)模跟經(jīng)濟總量的上升,那么中間也有很多數(shù)字資產(chǎn)的機會,那跟區(qū)塊鏈結合在一起又會有什么樣的一些機會?這里我覺得其實今天可能還沒有深入探討,但肯定是一個方向。
徐思彥: 其實之前元宇宙時期也有這方面的暢想,只不過那個時候技術總是螺旋上升的,平臺搭建的還不夠完善,或者說本身數(shù)字資產(chǎn)在人群當中的滲透率還不夠高。
孔融: 這里面很有意思的是,我們原來講的不論是元宇宙這個名詞,還是所謂的數(shù)字大樓,它其實一個個技術都在不斷的成熟,然后又由于AI讓其他能構建這個數(shù)字大樓的技術又進一步的加速成熟,所以我覺得其實不論是元宇宙這個名詞,還是數(shù)字時代這個名詞等等,其實都在快速的往前推。
胡修涵: 我有個關于這方面的想法和結構。咱們可以試著從數(shù)字資產(chǎn)變現(xiàn),或者說折算成現(xiàn)金的效率這個角度來看待這個問題。資產(chǎn)其實就是未來收益的折現(xiàn),基本上在AI技術還沒那么成功之前,大部分數(shù)字資產(chǎn)的折現(xiàn)效率都很低。比如說做個虛擬人參加演出,做任何動作,完成一個表演,都特別難,需要大家付出好多額外的開發(fā)和實施努力。但AI一出現(xiàn),每一類核心資產(chǎn)的折現(xiàn)效率,就像剛才老師們說的,可能通過形成一個基于點子的agent的公司,會大幅度提高這個數(shù)字資產(chǎn)本身的折現(xiàn)率。所以當這種情況發(fā)生的時候,我們之前討論的很多基于資產(chǎn)上的非炒作型、金融型的行為就能更好地適應了。折現(xiàn)里面最關鍵的效率杠桿就是token的單位費用,所以我們說單位的token是數(shù)字資產(chǎn)折現(xiàn)最重要的動力。
徐思彥: 對我們這個討論很有意思,已經(jīng)不是單純在討論AI公司。AI社會當中會涌現(xiàn)出來非常多新的商業(yè)機會,而且不光是在解決效率問題,還會在社會變遷當中去觀察到新的一些問題、新的人和AI互動的方式,以及當中涌現(xiàn)出來好多商業(yè)機會,我們都非常期待這樣子的未來。
今天我們聊了一個多小時,和各位嘉賓一起回顧了過去一年AI的發(fā)展,也分享了大家心中的關鍵詞。我發(fā)現(xiàn)我們在剛才的聊天中提到了很多有趣的點子,比如AI的人生體驗器、AI的單位成本,還有agent和人交互的新方式。這些都是大家靈感的火花,會給未來的AI發(fā)展帶來更多啟發(fā)。AI的發(fā)展可能不是線性的,有時候會有泡沫,有時候會沉寂,但突然間就會在某個地方給我們帶來新的靈感。也許今天我們討論的很多遠大理想將來都會變成現(xiàn)實。以后我會經(jīng)常邀請各位嘉賓和創(chuàng)業(yè)者一起來關注AI的前沿進展,看看有趣的公司和產(chǎn)品,一起順利過渡到即將到來的AI社會。謝謝大家收看,今天的AGI路線圖特別節(jié)目就到這里,大家再見。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。