從第二屆百度搜索創(chuàng)新大賽優(yōu)秀成果背后,探析AI大模型未來趨勢(shì)
從去年底ChatGPT發(fā)布到現(xiàn)在,近一年的時(shí)間轉(zhuǎn)瞬即逝。而在這段時(shí)間里,不僅可以看到市場(chǎng)對(duì)大模型和生成式AI的認(rèn)知改變,同時(shí)也可以看到AI大模型正推動(dòng)世界加速擁抱AI帶來的變革。
近日,以「新搜索·新奇點(diǎn)」為主題的第二屆百度搜索創(chuàng)新大賽,歷經(jīng)3個(gè)月的角逐,完美落下帷幕。此次大賽圍繞人工智能、檢索技術(shù),面向全國(guó)高校、企業(yè)、科研機(jī)構(gòu)、項(xiàng)目團(tuán)隊(duì)及個(gè)人廣發(fā)英雄帖,旨在挖掘和培育搜索 AI 人才,促進(jìn)業(yè)內(nèi)交流、產(chǎn)教融合,推動(dòng)產(chǎn)品、算法和技術(shù)應(yīng)用創(chuàng)新,賦能AI原生時(shí)代加速高質(zhì)量推進(jìn)。
大賽如火如荼,成果亦較為亮眼。數(shù)據(jù)顯示,戰(zhàn)況激烈的五大賽道,最終吸引了2800多人報(bào)名,5萬名同學(xué)直接參與相關(guān)課程學(xué)習(xí),宣傳覆蓋100萬開發(fā)者群體。
在12月1日舉辦的第二屆百度搜索創(chuàng)新大賽頒獎(jiǎng)典禮上,NVIDIA 全球副總裁何濤表示,“在這一年里,各行各業(yè)都經(jīng)歷了從通用計(jì)算到加速計(jì)算和生成式AI的平臺(tái)轉(zhuǎn)型。初創(chuàng)企業(yè)、互聯(lián)網(wǎng)公司和云服務(wù)商,積極投資大模型、AI云和應(yīng)用落地。希望在場(chǎng)的各位參賽者,能夠順應(yīng)技術(shù)發(fā)展趨勢(shì),把握機(jī)會(huì),提升自我競(jìng)爭(zhēng)力,加速你們的職業(yè)成功。”
“因時(shí)而變,因勢(shì)而變”
并非所有企業(yè)適合AI大模型
聚力創(chuàng)新,力量正在崛起,第二屆百度搜索創(chuàng)新大賽成果印證一切。
較為直觀的體現(xiàn)是,第2屆百度搜索創(chuàng)新大賽設(shè)立了五大賽題,題目涉及搜索核心業(yè)務(wù)場(chǎng)景,如語(yǔ)義檢索、多模態(tài)、軟硬結(jié)合優(yōu)化等豐富的技術(shù)方向,并且開設(shè)了產(chǎn)品賽道,廣發(fā)英雄帖,號(hào)召參賽者“洞察用戶在搜索場(chǎng)景的需求,并通過構(gòu)建AI應(yīng)用解決”。從數(shù)據(jù)來看,五大賽道報(bào)名 2800人,比去年多1000多人,賽題各有側(cè)重,難點(diǎn)不一,成果亦較為亮眼。
以大賽為平臺(tái),引領(lǐng)大模型時(shí)代“新搜索”的未來,百度搜索創(chuàng)新大賽攜手新一代“AI未來新星”,沖向無限可能。但從賽場(chǎng)過渡到行業(yè)當(dāng)前境況來看,不禁需要思考:在創(chuàng)新力量的加持下,是不是所有企業(yè)都可以如百度一樣適合自建大模型?
這需從大模型發(fā)展現(xiàn)狀說起。從今年3月開始,國(guó)內(nèi)的AI大模型如雨后春筍般涌現(xiàn)。《中國(guó)人工智能大模型地圖研究報(bào)告》顯示,截至2023年5月底,國(guó)內(nèi)10億級(jí)參數(shù)規(guī)模以上基礎(chǔ)大模型至少已發(fā)布79個(gè)。
毫不夸張地說,“百模大戰(zhàn)”已開啟。IDC預(yù)測(cè),2026年中國(guó)AI大模型市場(chǎng)規(guī)模將達(dá)到211億美元,人工智能將進(jìn)入大規(guī)模落地應(yīng)用關(guān)鍵期。
“因時(shí)而變,因勢(shì)而變”。比較具體的就是,AI大模型在創(chuàng)作、效率工具、教育、營(yíng)銷、金融等領(lǐng)域已經(jīng)衍生了大量的創(chuàng)新業(yè)務(wù),而微軟發(fā)布的Fabric平臺(tái)開始用大模型能力打造新一代的AI數(shù)據(jù)分析平臺(tái),更給這個(gè)領(lǐng)域帶來了無限的想象力。那么在構(gòu)建AI大模型的過程中,核心要做的是什么?即要清晰認(rèn)識(shí)本企業(yè)/行業(yè)大模型應(yīng)用的需求場(chǎng)景與價(jià)值,明確公司的目標(biāo)和愿景。同時(shí),選擇適用于公司需求的最佳解決方案制定計(jì)劃實(shí)施也較為重要。據(jù)NVIDIA方面表示,“大模型應(yīng)用的建設(shè)路徑可以有很多選擇,除了上述自建專屬大模型的方案,直接使用API或插件接入、基于平臺(tái)公司的提供的基礎(chǔ)大模型行業(yè)方案,公有云或混合方案來構(gòu)建,現(xiàn)在市場(chǎng)上都有靈活的選擇。比如,直接使用API或插件接入門檻最低,對(duì)注重快速應(yīng)用上線,數(shù)據(jù)保密保護(hù)要求不高的企業(yè)可以選擇效果不錯(cuò);服務(wù)穩(wěn)定可靠的平臺(tái)公司的API或者提供有限個(gè)性化微調(diào)的公有云平臺(tái)服務(wù)實(shí)現(xiàn)快速應(yīng)用搭建;對(duì)希望能夠自己控制基礎(chǔ)設(shè)施以保護(hù)數(shù)據(jù)資產(chǎn)的企業(yè),選擇其他基礎(chǔ)大模型平臺(tái)提供的安全部署方式來做微調(diào)和部分定制,通過自有標(biāo)注數(shù)據(jù)和配置參數(shù)來訓(xùn)練自己的大模型也是不錯(cuò)的選擇。”
但不論采用哪種方式,重要的是要不斷測(cè)試和優(yōu)化,以最佳方式滿足業(yè)務(wù)需求。
競(jìng)爭(zhēng)與革新,
什么樣的企業(yè)適合AI大模型
能夠看到,構(gòu)建AI大模型,并非一蹴而就,其建立的基礎(chǔ)在于企業(yè)自身技術(shù)實(shí)力、投資預(yù)算以及需求定位等各方面的考量。
那么在這一點(diǎn)上,在人工智能領(lǐng)域深耕多年的頭部科技企業(yè)百度顯然較具代表性。以文心大模型4.0為例,在重構(gòu)AI原生應(yīng)用的底座文心大模型方面,今年10月份,百度發(fā)布文心大模型4.0,用戶可以通過文心一言體驗(yàn)文心4.0版本,企業(yè)可以通過百度智能云千帆大模型平臺(tái)調(diào)用文心4.0的API,并且百度智能云千帆大模型平臺(tái)服務(wù)企業(yè)已超過2萬家,覆蓋近500個(gè)場(chǎng)景。目前,文心一言用戶數(shù)達(dá)7000萬,覆蓋場(chǎng)景4300個(gè)。
事實(shí)上,過去幾年在搜索領(lǐng)域,百度搜索已構(gòu)建了多項(xiàng)關(guān)鍵技術(shù)。首當(dāng)其沖的就是超大規(guī)模深度語(yǔ)義匹配模型。該模型當(dāng)前每天在線可以提供萬億次服務(wù),是業(yè)界最大的在線推理系統(tǒng),讓用戶可以搜到更為精準(zhǔn)的信息。
刪格化索引亦是不容錯(cuò)過的關(guān)鍵。該項(xiàng)技術(shù)通過索引萬億網(wǎng)頁(yè)、視頻、圖片和信息,可以確保任何用戶想要的信息都能在幾百毫秒中返回。
同時(shí),百度搜索還打造了一套跨模態(tài)的問答系統(tǒng),可以將視頻、圖片中的內(nèi)容直接回答用戶的問題。此外,今年百度還創(chuàng)新打造了一套全新的搜索系統(tǒng),將大語(yǔ)言模型和搜索系統(tǒng)融合在一起,大幅提升了線上效果。比如,占搜索相當(dāng)大比例的各種長(zhǎng)尾問答需求,極致滿足的比例提升到70%,也激發(fā)用戶每天新增表達(dá)5000w問答需求。
其中,值得關(guān)注的是,為使得服務(wù)更具多元化,真正做到搜索的極致滿足體驗(yàn),百度搜索還上線了包括多答案決策系統(tǒng)、文本、圖片創(chuàng)作產(chǎn)品等,進(jìn)一步提升用戶的新場(chǎng)景滿足能力,探索新的交互形式,通過自然語(yǔ)言多輪、跨模態(tài)交互、為用戶打造AI伙伴。
創(chuàng)新從不止步,服務(wù)更是精細(xì)化向前。在百度搜索的應(yīng)用中,大模型對(duì)深度語(yǔ)義匹配、跨模態(tài)的內(nèi)容理解和問答,以及百度全新推出的搜索系統(tǒng)長(zhǎng)尾問答需求等很多領(lǐng)域效果提升明顯。我們也看到,全新百度搜索系統(tǒng)不斷推出大模型應(yīng)用融合功能,比如多答案決策系統(tǒng)、文本、圖片創(chuàng)作產(chǎn)品和對(duì)自然語(yǔ)言多輪、跨模態(tài)交互等新的交互方式的探索,不斷融入大模型能力。
不過,需要關(guān)注的是,這些應(yīng)用上線服務(wù)對(duì)于百度搜索這樣每天萬億次在線服務(wù)級(jí)別的物理系統(tǒng),在性能和吞吐上將面臨極大的壓力,如何解決?百度大模型與搜索團(tuán)隊(duì)的研究和工程團(tuán)隊(duì)不斷的探索在模型規(guī)模壓縮、量化和引擎優(yōu)化等各方面方法的結(jié)合來優(yōu)化系統(tǒng)性能,NVIDIA工程優(yōu)化專家也在系統(tǒng)性的性能分析,方案分享甚至算子融合優(yōu)化等各方面提供持續(xù)支持,通過搜索效率提升和資源節(jié)省實(shí)現(xiàn)大模型部署能力的支撐。NVIDIA工程師也在與文心大模型工程團(tuán)隊(duì)緊密合作,持續(xù)為訓(xùn)練推理的優(yōu)化提供支持。
創(chuàng)新的領(lǐng)域,從來不乏競(jìng)爭(zhēng)者。所以,更需不斷革新。NVIDIA一直致力于從硬件到軟件全棧的加速計(jì)算能力的持續(xù)改進(jìn),以滿足不斷增長(zhǎng)的模型和數(shù)據(jù)規(guī)模帶來的算力需求和壓力。
何濤在大會(huì)上表示,“今年,NVIDIA也和百度大搜在Megatron LM/Nemo FW、基于SD的內(nèi)容生成、ANN向量召回、性能優(yōu)化等方面,開展了深入合作。未來,我們期望雙方團(tuán)隊(duì)能夠進(jìn)一步加深合作,助力百度大搜在生成式AI的浪潮中取得更加輝煌的成績(jī)。”
據(jù)了解,百度作為中國(guó)人工智能技術(shù)綜合實(shí)力領(lǐng)先的互聯(lián)網(wǎng)公司,在生成式AI和大模型的新興機(jī)遇背景下,不斷強(qiáng)化技術(shù)、改進(jìn)產(chǎn)品, 重構(gòu)了消費(fèi)級(jí)、企業(yè)級(jí)產(chǎn)品及自身運(yùn)營(yíng);在為用戶帶來AI原生體驗(yàn)的同時(shí)不斷提升效率,Q3營(yíng)收同比大漲23%,實(shí)現(xiàn)了爆發(fā)式增長(zhǎng)。
NVIDIA 開發(fā)與技術(shù)部門亞太區(qū)總經(jīng)理李曦鵬在頒獎(jiǎng)典禮上表示,“從最早書籍檢索、數(shù)據(jù)檢索,到了數(shù)字化過后內(nèi)容的檢索,到現(xiàn)在如火如荼基于LLM生成式檢索,都在說明一個(gè)好的領(lǐng)域可以不斷地引領(lǐng)創(chuàng)新、不斷地產(chǎn)生創(chuàng)新、同時(shí)不斷地吸收創(chuàng)新。搜索業(yè)務(wù)本身是NLP、CV、語(yǔ)音這些最前沿Deep Learning的合集。基于此,大模型有創(chuàng)新,第一個(gè)落地場(chǎng)景就是搜索。對(duì)于大模型在搜索引擎里大放異彩,是非常值得期待的。”
未來與趨勢(shì)
技術(shù)變革時(shí)代,創(chuàng)新力量不容忽視
大模型的不斷發(fā)展和與其他技術(shù)產(chǎn)品結(jié)合的過程將是持續(xù)探索和嘗試的過程。但無論如何,大模型的出現(xiàn)都是一個(gè)革命性的突破,而隨著技術(shù)的不斷推進(jìn),未來趨勢(shì)也將更為明晰。
技術(shù)向前,創(chuàng)新從未停駐。今年10月,NVIDIA還公開發(fā)布了TensorRT-LLM,一個(gè)用于加速大語(yǔ)言模型(LLM)推理的庫(kù),是一款提升 AI 推理性能的開源軟件。為支持 AI 開發(fā)者,該公司發(fā)布的TensorRT-LLMv0.6.0?更新將帶來至高達(dá)5倍的推理性能提升,并支持更多熱門的LLM,包括全新Mistral7B和Nemotron-38B。這些LLM版本將可在所有采用8GB及以上顯存的GeForce RTX 30系列和40系列GPU上運(yùn)行,從而使便攜的WindowsPC設(shè)備也能獲得快速、準(zhǔn)確的本地運(yùn)行LLM功能。
定制的生成式 AI 需要時(shí)間和精力來維護(hù)項(xiàng)目。特別是跨多個(gè)環(huán)境和平臺(tái)進(jìn)行協(xié)作和部署時(shí),該過程可能會(huì)異常復(fù)雜和耗時(shí)。AI Workbench 是一個(gè)統(tǒng)一、易用的工具包,允許開發(fā)者在 PC 或工作站上快速創(chuàng)建、測(cè)試和定制預(yù)訓(xùn)練生成式 AI 模型和 LLM。它為開發(fā)者提供一個(gè)單一平臺(tái),用于組織他們的 AI 項(xiàng)目,并根據(jù)特定用戶需求來調(diào)整模型。這使開發(fā)者能夠進(jìn)行無縫協(xié)作和部署,快速創(chuàng)建具有成本效益、可擴(kuò)展的生成式 AI 模型。加入搶先體驗(yàn)名單,成為首批用戶以率先了解不斷更新的功能,并接收更新信息。
一切革新的背后,都離不開創(chuàng)新的力量。這股創(chuàng)新的力量就是人才。廣發(fā)英雄帖,構(gòu)建一個(gè)大型的AI舞臺(tái),百度搜索創(chuàng)新大賽所要做的就是廣泛招攬優(yōu)秀人才,為行業(yè)蓄能。而在生態(tài)建設(shè)和人才培養(yǎng)層面,NVIDIA與百度近年來也在不斷加速推進(jìn)。
“我們積極支持百度的Paddle平臺(tái)框架在NVIDIA軟硬件平臺(tái)的加速優(yōu)化,并通過技術(shù)大賽,技術(shù)社區(qū)共同推廣的方式共同推動(dòng)AI創(chuàng)新生態(tài)的發(fā)展,發(fā)掘和培育創(chuàng)新AI技術(shù)人才。” NVIDIA方面表示,“我們期待通過雙方的合作,將百度在搜索領(lǐng)域包括AI大模型應(yīng)用及各種搜索技術(shù)創(chuàng)新以最優(yōu)的性能在NVIDIA加速計(jì)算平臺(tái)上提供給客戶,助力百度搜索不斷推出創(chuàng)新服務(wù),結(jié)合在AI大模型為客戶提供多語(yǔ)言、多模態(tài)和包含更多領(lǐng)域知識(shí)的服務(wù),為用戶提供更豐富、個(gè)性化和智能化的搜索體驗(yàn)。”
此外,NVIDIA給開發(fā)者提供了許多學(xué)習(xí)交流的資源,NVIDIA 的開發(fā)者社區(qū),目前在全球已經(jīng)有450萬開發(fā)者,CUDA加速庫(kù)下載量也超過4800萬次。面對(duì)生成式AI浪潮,NVIDIA非常歡迎廣大同學(xué)們和參賽選手加入其開發(fā)者社區(qū),以提升自我競(jìng)爭(zhēng)力,加速職業(yè)成功。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。