首頁(yè) > AI資訊 > 最新資訊 > 對(duì)話聯(lián)匯科技趙天成:被動(dòng)智能正走向主動(dòng)智能,一切都將被顛覆

對(duì)話聯(lián)匯科技趙天成:被動(dòng)智能正走向主動(dòng)智能,一切都將被顛覆

新火種    2023-12-26

作者 | 北方

編輯 | 靖宇

歷史上從來(lái)沒(méi)有哪一個(gè)時(shí)刻,比 2023 年更緊密地將 AI 與人類未來(lái)聯(lián)系在一起。

僅僅剛剛過(guò)去的幾個(gè)月,AI 行業(yè)就上演了 OpenAI 開發(fā)者大會(huì)、Humane 推出 AI Pin、微軟 Ignite 大會(huì)、xAI 發(fā)布 Grok、OpenAI「宮斗劇」等行業(yè)大事件,不僅一次次引發(fā) AI 圈密集討論,也讓更多人開始密切關(guān)注 AI 商業(yè)化與自身的未來(lái)發(fā)展。

作為「大模型元年」,AI 大模型的落地也出現(xiàn)不同走向。面向 C 端,以 OpenAI 為代表,將 GPT Store、人人可定制的 GPT 等切入人類生活變成新的主題;而在 B 端,「技術(shù)如何落地」「應(yīng)用的可能性」這類更實(shí)際的問(wèn)題,從沒(méi)有如此頻繁地出現(xiàn)在創(chuàng)業(yè)者的話語(yǔ)中。

卡耐基梅隆大學(xué)(CMU)「學(xué)霸」、聯(lián)匯科技首席科學(xué)家趙天成,現(xiàn)在還記得當(dāng)年在大學(xué)攻讀博士時(shí),看到谷歌的 AlphaGO 戰(zhàn)勝人類頂尖圍棋選手帶給自己的震撼。當(dāng)時(shí)已經(jīng)看清傳統(tǒng)「列規(guī)則」式的 AI 開發(fā)方式的弊端,轉(zhuǎn)而研究「AI 智能體」的他,選擇了一條「前 GPT 模式」的 AI 之路,早在幾年之前,已經(jīng)預(yù)判大模型才是 AI 快速進(jìn)化的正確路徑。

回國(guó)加盟聯(lián)匯科技后,趙天成和團(tuán)隊(duì)就開始打磨基礎(chǔ)模型,將重心放在了多模態(tài)大模型領(lǐng)域,并在 2021 年就推出了首個(gè)自研的多模態(tài)大模型,與當(dāng)下創(chuàng)業(yè)者仍在疲于「卷」文字大模型形成鮮明對(duì)比。

技術(shù)上的創(chuàng)新和務(wù)實(shí)的產(chǎn)品開發(fā),讓聯(lián)匯科技利用多模態(tài)大模型的超強(qiáng)能力,先后獲得廣電、運(yùn)營(yíng)商、國(guó)家電網(wǎng)等多個(gè)領(lǐng)域的 B 端客戶,成為大模型創(chuàng)業(yè)者中少見的功落地者。

在商業(yè)路徑上,趙天成看到當(dāng)年「AI 四小龍」當(dāng)下的窘境,認(rèn)識(shí)到「小模型定制死路一條」的真理,堅(jiān)持聯(lián)匯科技在大模型領(lǐng)域的不斷研發(fā)和創(chuàng)新。

對(duì)于當(dāng)下的「百模大戰(zhàn)」,趙天成認(rèn)為單純的「卷參數(shù)」,嘗試復(fù)現(xiàn) ChatGPT 的能力,對(duì)很多創(chuàng)業(yè)公司來(lái)說(shuō),可能并不是唯一正確的打法。而已經(jīng)在 B 端積累了相當(dāng)經(jīng)驗(yàn)的他,認(rèn)為大模型并不止 LLM 一種形式,相比而言,多模態(tài)大模型能落地的場(chǎng)景更多。

「GPT 只是大模型的一個(gè)路徑,但 OpenAI 的方法論可以在更多場(chǎng)景中做嘗試。」趙天成告訴極客公園。在他看來(lái),在 AI 的 B 端落地上,競(jìng)爭(zhēng)并非是「百團(tuán)大戰(zhàn)」,而更像「叢林狩獵」,最終能獲得獵物的,并非一定是大公司。

以下為聯(lián)匯科技首席科學(xué)家趙天成采訪實(shí)錄,由極客公園整理:

01 傳統(tǒng) AI 研究有上限,要做沒(méi)人敢做的事情

極客公園:你之前在加州大學(xué)攻讀計(jì)算機(jī)專業(yè),為什么后來(lái)又去了 CMU 進(jìn)行語(yǔ)言技術(shù)方面的研究?

趙天成:我在 UCLA 電子工程系加計(jì)算機(jī)雙修,差不多三年時(shí)間就修完本科專業(yè)課程,第四年主要攻讀了一系列研究生課程,并且在 UCLA 語(yǔ)音技術(shù)實(shí)驗(yàn)室做語(yǔ)音處理相關(guān)研究,開始接觸到人工智能和機(jī)器學(xué)習(xí)等前沿課題,激發(fā)了我很大的興趣。

選擇去 CMU 攻讀計(jì)算機(jī)博士學(xué)位,是因?yàn)?CMU 在 AI 領(lǐng)域全球排名第一,去那里是所有 AI 研究人員的夢(mèng)想。而去 CMU 計(jì)算機(jī)學(xué)院的 LTI(語(yǔ)言技術(shù)研究所)是因?yàn)榻佑|到語(yǔ)音處理技術(shù)之后,我感覺(jué)到這項(xiàng)技術(shù),已經(jīng)開始慢慢從學(xué)術(shù)界往工業(yè)界轉(zhuǎn)移了,它本身的技術(shù)部分相對(duì)來(lái)說(shuō)已經(jīng)比較成熟了,我想去做更前沿的基礎(chǔ)人工智能理論研究工業(yè)工程化相關(guān)的研究。

我當(dāng)時(shí)判斷既然語(yǔ)音識(shí)別作為語(yǔ)音感知層已經(jīng)相對(duì)成熟,那后續(xù)的行業(yè)趨勢(shì)肯定會(huì)做更深度的認(rèn)知智能,比如理解語(yǔ)義,智能對(duì)話,甚至具有超出語(yǔ)言本身之外的推理與決策能力。CMU 的 LTI 是這個(gè)領(lǐng)域全球最好的研究機(jī)構(gòu),那里的科學(xué)家研發(fā)了全球最早的語(yǔ)音識(shí)別引擎、機(jī)器翻譯系統(tǒng)、人機(jī)對(duì)話系統(tǒng)等等,我相信在那里可以誕生出未來(lái)新一代的突破性人工智能技術(shù)。

極客公園:2014 年你選擇去做語(yǔ)音和語(yǔ)言研究的時(shí)候,當(dāng)時(shí)的學(xué)術(shù)界是什么狀態(tài)?

趙天成:NLP(自然語(yǔ)言處理)領(lǐng)域那時(shí)屬于一個(gè)交接期。當(dāng)時(shí)有一批人在做偏規(guī)則型研究,也有人在做偏機(jī)器學(xué)習(xí)型的研究,或者把機(jī)器學(xué)習(xí)和規(guī)則進(jìn)行結(jié)合。

在 2016 年,我發(fā)表了業(yè)內(nèi)最早的一篇端到端人機(jī)對(duì)話論文,講如何用神經(jīng)網(wǎng)絡(luò)解決整個(gè)對(duì)話系統(tǒng)的問(wèn)題。當(dāng)時(shí)通常的做法是多個(gè)規(guī)則模塊的拼接,而用一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)完成全部的對(duì)話還是很前沿的想法,和現(xiàn)在的 ChatGPT 很像。這個(gè)工作也提名了當(dāng)年 SIGDIAL 最佳論文獎(jiǎng)。

我當(dāng)時(shí)提出的就是,應(yīng)該用一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的學(xué)習(xí)來(lái)實(shí)現(xiàn)智能對(duì)話,而不是用很多 AI 規(guī)則模塊來(lái)做人機(jī)交互系統(tǒng)。

極客公園:這種靈感來(lái)源是什么?

趙天成:當(dāng)時(shí)我分析了傳統(tǒng)的對(duì)話系統(tǒng),發(fā)現(xiàn)通過(guò)人工建立規(guī)則或者人工建立專家系統(tǒng),雖然能在短期內(nèi)對(duì)系統(tǒng)的能力會(huì)有一些提升,但這個(gè)提升是不可持續(xù)的,因?yàn)槲覀儾豢赡芨F舉所有的對(duì)話場(chǎng)景,因此從長(zhǎng)遠(yuǎn)看,要實(shí)現(xiàn)大的 AI 飛躍,正確的路線應(yīng)該是減少人工干預(yù),依靠更強(qiáng)的算力,讓機(jī)器能更好地進(jìn)行自學(xué)習(xí)來(lái)達(dá)到智能的提升。而不能陷入有多少「人工」,才有多少「智能」的怪圈,那樣做只能讓「人工智能」變成「人工智障」。

但是要實(shí)現(xiàn)機(jī)器自我學(xué)習(xí),這個(gè)過(guò)程中有很多挑戰(zhàn),因?yàn)橐粋€(gè)人機(jī)交互系統(tǒng)會(huì)有很多復(fù)雜模塊,需要做自然語(yǔ)言理解,把它解釋成實(shí)體,在對(duì)話層面又要去做很多邏輯以及規(guī)劃,這些都要通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)去解決。

機(jī)器人小歐對(duì)畫面深度理解 | 小程序搜索「機(jī)器人小歐」體驗(yàn)

但當(dāng)時(shí)業(yè)界沒(méi)有現(xiàn)在這么多的工具,在做的過(guò)程中,我們考慮的是從怎樣的點(diǎn)入手,把最基本的閉環(huán)走通,然后以它為基礎(chǔ)再去做擴(kuò)展。這是我當(dāng)時(shí)覺(jué)得比較容易實(shí)現(xiàn)、成為真正智能的 AI 的方向和路徑。

極客公園:你在 CMU 讀博期間,業(yè)內(nèi)還沒(méi)有大模型這個(gè)概念出現(xiàn)?

趙天成:當(dāng)時(shí)還沒(méi)有大模型這個(gè)概念,甚至連生成式模型都是少見的概念。

在碩博期間,我做了兩件事情。我在碩士期間承接了一個(gè)美國(guó)科研自然基金 NSF 的項(xiàng)目,當(dāng)時(shí)還沒(méi)有智能音箱,我提出做一個(gè)智能體,其智能大腦可以融合各種各樣的單任務(wù)智能體能力,可能是訂餐,也可能是推薦地圖,通過(guò)一個(gè)統(tǒng)一的智能體和用戶交流。這在當(dāng)時(shí)還是很前沿的課題,類似于現(xiàn)在 ChatGPT 的插件系統(tǒng)。我和團(tuán)隊(duì)在 2014 -2016 年從 0 到 1 把整個(gè)平臺(tái)做出來(lái),作為基礎(chǔ)科研平臺(tái),支撐了后續(xù)超過(guò) 100 多篇科研論文的發(fā)表。這個(gè)成果得到了亞馬遜、谷歌等多位人工智能專家的充分肯定。

做這個(gè)智能體的過(guò)程中,我發(fā)現(xiàn)靠傳統(tǒng)的方式去做智能體其實(shí)能力上限很低。這啟發(fā)我在博士課題中去做端到端的生成式模型,我認(rèn)為只有這樣才能真正從根本上解決這個(gè)問(wèn)題。所以從 2016 年之后,我基本上所有的論文都是圍繞怎樣去做更好的生成式模型,把數(shù)據(jù)「注入」進(jìn)去之后,它就可以完成更復(fù)雜的任務(wù)。

極客公園:當(dāng)時(shí)做的就已經(jīng)是大模型,只是沒(méi)有像現(xiàn)在這種幾百億參數(shù)這么大?

趙天成:對(duì),只是在規(guī)模上不一樣,在核心算法這一塊非常接近,幾乎沒(méi)有差別。比如當(dāng)時(shí)我訓(xùn)練的是 1 億參數(shù)的模型,現(xiàn)在可能是 100 億參數(shù)或者 1000 億參數(shù)的模型。

極客公園: 2016 年 AlphaGo 出現(xiàn)了,當(dāng)時(shí)也引起了非常大的反響,你當(dāng)時(shí)有什么感受?

趙天成:當(dāng)時(shí)觸動(dòng)很大。因?yàn)槲耶?dāng)時(shí)做的就是生成式模型過(guò)程中最大的兩個(gè)技術(shù)棧:偏神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)、訓(xùn)練和強(qiáng)化學(xué)習(xí)。

當(dāng)時(shí) AlphaGo 是強(qiáng)化學(xué)習(xí)一個(gè)很好的應(yīng)用場(chǎng)景和成果。所以我們也考慮怎樣讓這種能力應(yīng)用在現(xiàn)實(shí)場(chǎng)景中,因?yàn)?AlphaGo 本身的規(guī)則是固定的。但實(shí)際上我們?cè)诟藱C(jī)交互、自然語(yǔ)言、圖像打交道的時(shí)候有無(wú)限的可能性,難度遠(yuǎn)遠(yuǎn)超出下圍棋這個(gè)任務(wù)。所以我們花了很多精力去研究,怎樣將 AlphaGo 級(jí)別的端到端的機(jī)器學(xué)習(xí)應(yīng)用在更廣領(lǐng)域,在 2018 年我們就提出了通過(guò)基于隱變量的強(qiáng)化學(xué)習(xí),讓智能體學(xué)會(huì)從人類反饋中獲得更好的人機(jī)交互策略,大幅度提高任務(wù)完成的成功率,達(dá)到了當(dāng)時(shí)的 SOTA 性能。

極客公園:在 2019 年和 2020 年左右,國(guó)內(nèi) AI 行業(yè)尚處于波谷期,為什么會(huì)選擇回國(guó)創(chuàng)業(yè)做 AI?

趙天成:因?yàn)槲野l(fā)現(xiàn)不管什么模型、什么技術(shù),都需要有一些匹配的應(yīng)用場(chǎng)景,去實(shí)現(xiàn)它的迭代和本身價(jià)值的體現(xiàn)。當(dāng)時(shí)我們和國(guó)內(nèi)有很多交流,發(fā)現(xiàn)其實(shí)國(guó)內(nèi)不管是視頻還是多媒體,有很多應(yīng)用場(chǎng)景在美國(guó)可能很少見,國(guó)內(nèi)反而機(jī)會(huì)更多。

一方面,國(guó)內(nèi)做 AI 會(huì)有更大的應(yīng)用空間,有更多的機(jī)會(huì)。另一方面,回國(guó)也是我的個(gè)人選擇,我個(gè)人還是比較有家國(guó)情懷的一個(gè)人,在美國(guó)留學(xué)這么多年,我希望能把時(shí)間與精力放在建設(shè)自己的國(guó)家,綜合決定之后,我選擇回國(guó)實(shí)現(xiàn)我的理想。

02 做小模型定制,是死路一條

極客公園:當(dāng)時(shí)國(guó)內(nèi) AI 行業(yè)處于什么狀態(tài),聯(lián)匯科技如何選擇切入市場(chǎng)的角度?

趙天成:當(dāng)時(shí)國(guó)內(nèi)大模型幾乎是未開啟狀態(tài)。很多大廠,包括華為、百度等也訓(xùn)練過(guò)一些模型,但當(dāng)時(shí)大家還沒(méi)有發(fā)現(xiàn)什么實(shí)際的價(jià)值。

我回來(lái)后分析了國(guó)內(nèi) AI 行業(yè)的痛點(diǎn)。當(dāng)時(shí)很多行業(yè)都在做 AI,比如零售 AI、客服 AI 等,這些基本上都是用傳統(tǒng)的小模型方式在做的,定制化程度極高,而對(duì)小模型定制來(lái)說(shuō),他的瓶頸在于每個(gè)模型不能泛用,每個(gè)場(chǎng)景都要從頭做起,無(wú)法沉淀積累,使得定制成本很高。這就導(dǎo)致了當(dāng)時(shí)做 AI 商業(yè)化落地成為一件很累、很虧錢的事情。

經(jīng)過(guò)研究分析,我們發(fā)現(xiàn)雖然市場(chǎng)有很多中長(zhǎng)尾應(yīng)用場(chǎng)景,但功能要求非常分散,這種情況和我們之前做智能體平臺(tái)差不多。如果用小模型方式去做的話,很難走遠(yuǎn)。所以我覺(jué)得我們既然要做,就要去做有「未來(lái)」的東西,摒棄小模型的思路,專心于大模型。而且我們根據(jù)學(xué)術(shù)界的研究成果,判斷大模型的行業(yè)爆發(fā)不會(huì)太遠(yuǎn)。

歐姆視覺(jué)語(yǔ)言大模型擁有主動(dòng)思考分析能力

極客公園:當(dāng)時(shí)你怎樣讓客戶認(rèn)識(shí)到這種技術(shù)案例的先進(jìn)性?說(shuō)服對(duì)方在這個(gè)方向投入?

趙天成:非常困難。當(dāng)時(shí)還沒(méi)有大模型的概念,我們嘗試了很多方法去做科普,但幾乎沒(méi)人聽得懂。我們就嘗試通過(guò)和其他產(chǎn)品 PK 來(lái)說(shuō)明我們的路線優(yōu)勢(shì),因?yàn)榇竽P秃托∧P鸵粚?duì)比就能看到效果。比如在介紹跨模態(tài)搜索能力時(shí),我們就和對(duì)方說(shuō)以前的搜索都是需要打標(biāo)簽的,但我們的搜索只要通過(guò)自然語(yǔ)言說(shuō)一句話,就能把東西搜出來(lái),我們不用標(biāo)簽,或者說(shuō)我們是「無(wú)限標(biāo)簽」。

這種概念其實(shí)很多客戶也還是不理解,我們只能用更具象的方式去介紹。比如雖然我們是無(wú)限標(biāo)簽,但有時(shí)候不得不說(shuō)我們有幾萬(wàn)個(gè)標(biāo)簽,因?yàn)檫@樣能給他們一個(gè)具象的概念。這些都是我們?cè)趪L試落地時(shí)碰到的困難。

極客公園:有沒(méi)有給你印象很深的客戶,你展示前他并不相信這些,展示后他被震驚到了?

趙天成:比如某廣電集團(tuán),他們也是我們比較大的一個(gè)客戶。他們有很多視頻媒體資料,比如新聞播報(bào)類節(jié)目等,以前一年要花幾百萬(wàn)進(jìn)行人工編目、打標(biāo)簽,來(lái)實(shí)現(xiàn)資產(chǎn)管理和檢索。當(dāng)時(shí)我們說(shuō)可以通過(guò)機(jī)器學(xué)習(xí),自動(dòng)生成無(wú)限標(biāo)簽,可以實(shí)現(xiàn)任意檢索,對(duì)方不太相信,我們就給他們做測(cè)試系統(tǒng),讓客戶自己去驗(yàn)證。然后我們?cè)購(gòu)募夹g(shù)底層去講解這個(gè)原理。經(jīng)過(guò)幾次使用和講解之后,他們內(nèi)部一些專業(yè)的技術(shù)專家也認(rèn)識(shí)到這個(gè)技術(shù)路線的先進(jìn)性,后續(xù)合作就比較順暢了。

極客公園:這樣的一個(gè)商業(yè)化方向是團(tuán)隊(duì)經(jīng)過(guò)很長(zhǎng)時(shí)間碰出來(lái)的嗎?還是說(shuō)你早就已經(jīng)想到了場(chǎng)景和方向,只是根據(jù)客戶不同來(lái)去提供支持?

趙天成:雖然我們當(dāng)時(shí)認(rèn)為大模型一定是一個(gè)方向,而且我們也一直在致力于提高大模型的基礎(chǔ)能力,但在商業(yè)化方向上,還是通過(guò)不斷的市場(chǎng)探索,慢慢摸出來(lái)的。在尋找具體應(yīng)用場(chǎng)景時(shí),我們當(dāng)時(shí)嘗試了很多行業(yè),也碰過(guò)很多壁。最終發(fā)現(xiàn),最終我們聚焦在媒體視覺(jué)和 IoT 視覺(jué)這兩大應(yīng)用場(chǎng)景。

極客公園:從回國(guó)到成功落地這樣的大客戶,大概花了多長(zhǎng)時(shí)間?

趙天成:差不多一年多時(shí)間。雖然在技術(shù)方面,我們之前在美國(guó)已經(jīng)有了一些積淀,并不是回來(lái)之后從零開始做起。但在真正落地應(yīng)用時(shí),還是有很多需要改進(jìn)。實(shí)際上要真正做到應(yīng)用落地,需要大模型能力提升、工具鏈開發(fā)、應(yīng)用場(chǎng)景確定、應(yīng)用閉環(huán)開發(fā)以及商業(yè)模式確定等一系列因素結(jié)合起來(lái)才能實(shí)現(xiàn),并不僅僅是技術(shù)問(wèn)題。

極客公園:你回國(guó)的時(shí)候,國(guó)內(nèi)「AI 四小龍」很受關(guān)注,經(jīng)過(guò)這些年,從這些公司的起伏中能學(xué)到什么經(jīng)驗(yàn)?

趙天成:我認(rèn)為這些公司都很優(yōu)秀,他們?cè)谛∧P蛻?yīng)用落地方面,做了很多嘗試,在高頻領(lǐng)域也有很多成功案例,但在中長(zhǎng)尾領(lǐng)域都不太順利。這也反過(guò)來(lái)驗(yàn)證了我的判斷——如果用小模型方式去服務(wù)中長(zhǎng)尾場(chǎng)景,貌似是死路一條。

這樣的判斷,更加堅(jiān)定了我們做大模型的決心。我們看到只要把大模型的商業(yè)道路走通的話,將具有巨大的市場(chǎng)價(jià)值。

歐姆視覺(jué)語(yǔ)言大模型擁有四大核心能力

03 被動(dòng)智能正走向主動(dòng)智能,一切都將被顛覆

極客公園:在 ChatGPT 出來(lái)之前,你已經(jīng)預(yù)判到大模型技術(shù)的行業(yè)趨勢(shì),在這些年里,你對(duì)大模型的理解有什么變化?

趙天成:我是從 2016 年左右開始專注于端到端的生成式模型訓(xùn)練,其核心思想和如今的大模型訓(xùn)練如出一轍,也就是首先構(gòu)建一個(gè)上限極高的神經(jīng)網(wǎng)絡(luò)模型,然后通過(guò)對(duì)大量的無(wú)監(jiān)督數(shù)據(jù)進(jìn)行自回歸學(xué)習(xí),實(shí)現(xiàn)原本需要 N 個(gè)專家系統(tǒng)模塊組合而成的復(fù)合能力。在這些年里,對(duì)于大模型學(xué)習(xí)的最大變化在于對(duì)于這種學(xué)習(xí)方式能達(dá)到的上限與發(fā)展速度一次次地刷新了我的預(yù)期,也讓我更加堅(jiān)定這種方法論的正確性。

早年的時(shí)候,端到端模型能夠?qū)崿F(xiàn) AI 對(duì)于自然語(yǔ)言的流暢生成,到后面能夠根據(jù)用戶的問(wèn)題給出流暢的答復(fù)就已經(jīng)是非常了不起的成果了。然而現(xiàn)在 GPT-4 可以不但進(jìn)行流暢的語(yǔ)言生成與問(wèn)題回復(fù),還可以主動(dòng)地選擇不同的工具,并且產(chǎn)生思維與推理鏈條,這個(gè)在當(dāng)時(shí)是不太敢想的。當(dāng)時(shí)這個(gè)過(guò)程只能靠人工去定義,不可能靠 AI 自己做出來(lái)。

現(xiàn)在不管多模態(tài)大模型還是大語(yǔ)言模型,已經(jīng)逐步具備自己去產(chǎn)生整個(gè)推理鏈路或者決策鏈路的能力,我覺(jué)得這個(gè)是顛覆性的變化,也讓現(xiàn)在的 AI Agent 開始具備了主動(dòng)思考與決策的能力。

聯(lián)匯科技智能管家機(jī)器人看護(hù)老人

極客公園:所以這些年的改變,讓 AI 有可能實(shí)現(xiàn)大范圍的商業(yè)化?

趙天成:對(duì),這些年最大的變化是從以前的被動(dòng)智能——用戶問(wèn)一個(gè)問(wèn)題,AI 回答一個(gè)問(wèn)題,到現(xiàn)在的主動(dòng)智能——用戶問(wèn)一個(gè)問(wèn)題,AI 除了回答他的直接問(wèn)題,還會(huì)主動(dòng)聯(lián)想到其他問(wèn)題。甚至用戶不用提問(wèn),AI 自己根據(jù)它的觀察,就能主動(dòng)發(fā)現(xiàn)問(wèn)題并給出解決問(wèn)題的建議。

比如在零售場(chǎng)景下面,AI 通過(guò)視頻分析發(fā)現(xiàn)超市里的咖啡打翻了,它會(huì)自己聯(lián)想到需要做清理,或者通知誰(shuí)去打掃衛(wèi)生。這樣從觀察到行動(dòng)的決策方案,以前只有通過(guò)人工設(shè)置才可能實(shí)現(xiàn),但現(xiàn)在就可以自動(dòng)實(shí)現(xiàn),這是一個(gè)比較顛覆性的變化,從被動(dòng)智能進(jìn)化到主動(dòng)智能。

聯(lián)匯科技巡店機(jī)器人進(jìn)行店面管理

當(dāng) AI 從被動(dòng)智能發(fā)展到主動(dòng)智能后,就有了更多的商業(yè)應(yīng)用價(jià)值,就有可能實(shí)現(xiàn)大規(guī)模的商業(yè)化。

極客公園:聯(lián)匯科技團(tuán)隊(duì)在 AI 落地場(chǎng)景很早就開始嘗試,現(xiàn)在還有哪些落地場(chǎng)景可以透露?

趙天成:現(xiàn)在很多 AI 應(yīng)用主要還是基于純語(yǔ)言模型,我們的特點(diǎn)是專注在多模態(tài)大模型上,特別是視覺(jué)和語(yǔ)言兩個(gè)模態(tài)。把視覺(jué)和語(yǔ)言結(jié)合起來(lái)的應(yīng)用場(chǎng)景很多。

比如在媒體領(lǐng)域有很多內(nèi)容創(chuàng)作需求。我們正在用基于視覺(jué)語(yǔ)言大模型的智能體框架做一個(gè)產(chǎn)品,實(shí)現(xiàn)編導(dǎo)層面的自動(dòng)化和主動(dòng)智能,以解決編導(dǎo)們最頭痛的內(nèi)容創(chuàng)意問(wèn)題,這個(gè)產(chǎn)品可以根據(jù)內(nèi)容主題要求,自動(dòng)分析內(nèi)容主體是什么、需要什么素材、鏡頭怎么拆,最后要用怎樣的敘事線表達(dá),讓 AI 去做一步步推理的過(guò)程。

視頻小歐文生視頻

另外比如國(guó)內(nèi)做的比較多的智慧家居、智慧零售等場(chǎng)景。以前家庭或者小店里安裝的攝像頭只是一個(gè)觀察者,只會(huì)識(shí)別預(yù)定目標(biāo),比如有人闖入,然后通知你看視頻回放,但一旦這些攝像頭加上了主動(dòng)智能后,每個(gè)設(shè)備都能主動(dòng)思考,它就成了一個(gè)虛擬店長(zhǎng)、虛擬保姆,這些都很有想象空間。

OmBot 自主智能體:面向行業(yè)的多模態(tài)智能體系列

04 大模型 B 端市場(chǎng)是叢林,而不是大決戰(zhàn)

極客公園:聯(lián)匯科技在 AI 商業(yè)化,尤其是 B 端是很成功的,這其中有哪些經(jīng)驗(yàn)值得分享?

趙天成:B 端場(chǎng)景不像 C 端。B 端必然會(huì)有個(gè)性化的需求。因此怎樣用更低成本去滿足這些個(gè)性化需求是非常重要的。這幾年,我們一直致力于加強(qiáng)我們大模型的能力,同時(shí)開發(fā)相應(yīng)的微調(diào)工具鏈,在此基礎(chǔ)上,用戶通過(guò) Prompt(提示詞)的方式就可以完成用戶的個(gè)性化微調(diào)訓(xùn)練,這就讓定制成本變得很低,創(chuàng)造出一種全新的用戶個(gè)性化 AI 服務(wù)的方法。

我們的經(jīng)驗(yàn)在做 B 端服務(wù)時(shí),一定要考慮取舍,不能走上定制小模型的路,要學(xué)會(huì)克制,有舍有得。

極客公園:在 AI 大模型商業(yè)化落地這件事上,真正難的地方是什么?

趙天成:把 AI 技術(shù)產(chǎn)品化,讓它滿足客戶的需求有很多因素需要考慮。國(guó)內(nèi)和國(guó)外市場(chǎng)有個(gè)很不一樣的地方,美國(guó)在很多技術(shù)方面都有更明晰的分層,生態(tài)鏈中每一個(gè)環(huán)節(jié),都能發(fā)展出很優(yōu)秀的公司。

比如說(shuō)有些公司就做一個(gè)中間件,也可以活得很好。但是國(guó)內(nèi)并不存在這樣成熟的生態(tài)體系,只做中間件很難存活。因此在國(guó)內(nèi)市場(chǎng),一家 AI 公司要實(shí)現(xiàn)商業(yè)化落地,他產(chǎn)品得有「厚度」才行,意味著你必然要對(duì)客戶有更深的理解,要做成產(chǎn)品閉環(huán)。單純把某個(gè)模塊做到極致,是遠(yuǎn)遠(yuǎn)不夠的。

極客公園:前不久剛剛召開 OpenAI 開發(fā)者大會(huì),很多開發(fā)者看完覺(jué)得自己做的半年甚至一年努力都?xì)w零了,怎么看這種趨勢(shì)?

趙天成:我覺(jué)得 OpenAI 做這些商業(yè)化嘗試和我預(yù)期的差不多,他們肯定會(huì)做這些事情。Sam Altman 是很有野心的人,他肯定不會(huì)放棄這么大的潛在市場(chǎng)。

OpenAI 的商業(yè)化模式,對(duì)國(guó)外的開發(fā)者沖擊確實(shí)很大,但我認(rèn)為他們很快就會(huì)在這樣的生態(tài)中,找到新的機(jī)會(huì)。

前面我講到,國(guó)內(nèi)和國(guó)外的 AI 生態(tài)有很大的不同,特別是 2B 市場(chǎng),OpenAI 的模式很難在中國(guó)復(fù)制。國(guó)內(nèi)用戶的私有化部署、數(shù)據(jù)壁壘、個(gè)性化需求等特點(diǎn),都會(huì)影響到商業(yè)落地模式。

因此我們還是堅(jiān)持把自己的模型做好,把我們的工具鏈做好,提升自己原生的長(zhǎng)期競(jìng)爭(zhēng)力。同時(shí),我們也在根據(jù)國(guó)內(nèi)的商業(yè)環(huán)境,探索更多的應(yīng)用形態(tài),其中也會(huì)借鑒國(guó)內(nèi)外的很多模式,它山之石可以攻玉,總的來(lái)看,OpenAI 的發(fā)展對(duì)我們的成長(zhǎng)還是非常有利的。

極客公園:國(guó)內(nèi)目前卷大模型的這個(gè)現(xiàn)狀,聯(lián)匯科技是怎樣看待或者應(yīng)對(duì)的?

趙天成:我們主要從幾個(gè)方面來(lái)應(yīng)對(duì),第一,走差異化路線。回頭看「百模大戰(zhàn)」,其實(shí)大部分公司都是在想辦法復(fù)現(xiàn) ChatGPT,到現(xiàn)在為止,基本上還停留在 OpenAI 早期的大語(yǔ)言模型階段,各家的產(chǎn)品很難看出差異化。而我們一開始就是走多模態(tài)路線,很多時(shí)候客戶會(huì)說(shuō),文本 AI 我見過(guò),但是能看懂圖像的好像沒(méi)見過(guò)。圖像+文本的場(chǎng)景應(yīng)用非常豐富。因此,我們通過(guò)差異化,能夠更好滿足客戶需求,并提供市場(chǎng)想要的產(chǎn)品。

另外,相較于很多公司,聯(lián)匯有不同的定位,因?yàn)槲覀冎饕?wù)在 B 端,就和目前市面上大部分企業(yè)面向 C 端的打法也不一樣。

聯(lián)匯科技擁有豐富完整的產(chǎn)品體系

還有,相較于有些公司一味地卷模型參數(shù)的大小。我們更關(guān)注的是模型的實(shí)際落地能力。大家也都知道微軟透露 GPT 3.5-Turbo 用的大模型參數(shù)也就在 200 億左右。因此模型參數(shù)多少合適,要有一個(gè)綜合的判斷,不是越大越好。

極客公園:如果現(xiàn)在才回國(guó)創(chuàng)業(yè),大模型領(lǐng)域當(dāng)前的紅海狀態(tài)下,你還會(huì)考慮做基礎(chǔ)模型嗎?

趙天成:假如目前從 0 去做基礎(chǔ)模型,相比三年前會(huì)難很多。很多團(tuán)隊(duì)已經(jīng)入場(chǎng)。但我并不認(rèn)為現(xiàn)在大模型領(lǐng)域已經(jīng)進(jìn)入紅海階段,因?yàn)榇竽P捅旧碜C明了對(duì)于海量數(shù)據(jù)的學(xué)習(xí)和壓縮可以產(chǎn)生智能,但是 ChatGPT 也只是大模型的其中一種形式。

通過(guò)大量的預(yù)訓(xùn)練,把知識(shí)融入到一個(gè)模型里面,讓它產(chǎn)生通用能力,涌現(xiàn)出一些智能,這件事是不是只能做語(yǔ)言模型?我覺(jué)得肯定不是,別的場(chǎng)景下面還可以有,比如圖像、3D 或者分子結(jié)構(gòu)等等,因此,切準(zhǔn)某一個(gè)領(lǐng)域去做,還是有很多機(jī)會(huì)的。

比如我可以專門做 3D 大模型,或者做物理世界大模型,像 World Model 這種類型。其實(shí)三年前,做語(yǔ)言類大模型也是有很多不確定性的,因此我覺(jué)得做基礎(chǔ)大模型還是有很多機(jī)會(huì)的,關(guān)鍵是要對(duì)大模型的方法論有真正的理解,以及切入點(diǎn)的正確選擇。

極客公園:怎樣看待和大廠在 AI 領(lǐng)域的關(guān)系?是完全的競(jìng)爭(zhēng)還是說(shuō)有其他可能?

趙天成:首先,在 AI 領(lǐng)域,任何時(shí)候小公司都有機(jī)會(huì),就像美國(guó),很多 AI 創(chuàng)新都是谷歌提出的,但是 OpenAI 就比谷歌做得更好。

2017 年的時(shí)候我一些朋友也在 OpenAI 實(shí)習(xí),那時(shí)候這家公司還不到 100 人。所以在 AI 領(lǐng)域,創(chuàng)業(yè)公司并不是沒(méi)有機(jī)會(huì),但是競(jìng)爭(zhēng)肯定不可避免。每家公司要找準(zhǔn)自己的定位。

對(duì)于 C 端場(chǎng)景,競(jìng)爭(zhēng)肯定會(huì)比較激烈,大廠本身有較強(qiáng)的用戶平臺(tái),小公司可能要真正有一些比較創(chuàng)新的應(yīng)用場(chǎng)景,同時(shí)又有比較好的市場(chǎng)策略才能勝出。

不過(guò)在 B 端,我覺(jué)得不管大廠還是小廠,都不存在贏家通吃的局面,因?yàn)?B 端的行業(yè)邏輯和 C 端是不一樣的。有一個(gè)比喻說(shuō)的很好,C 端可能是一種規(guī)模戰(zhàn),大家是在比拼火力,我有 100 輛坦克,你有 1 輛坦克,我就能贏你。但是 B 端場(chǎng)景下面,大家都是叢林里的獵人,你可能拿了一個(gè)火箭筒,我拿了一把狙擊步槍,我的火力沒(méi)有你強(qiáng),但這頭鹿到底誰(shuí)能打下來(lái)不一定。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章