首頁 > AI資訊 > 最新資訊 > AI發(fā)展“觸礁”?傳神語聯(lián)“雙腦”大模型開啟實(shí)時學(xué)習(xí)浪潮

AI發(fā)展“觸礁”?傳神語聯(lián)“雙腦”大模型開啟實(shí)時學(xué)習(xí)浪潮

新火種    2024-12-10

來源:數(shù)據(jù)猿

當(dāng)百度創(chuàng)始人李彥宏激動地高呼:“一個只靠想法就能賺錢的時代來了!”普通人的機(jī)會到底在哪里?每個創(chuàng)業(yè)者都有自己的答案,但是經(jīng)歷了幾代技術(shù)革命浪潮的李彥宏認(rèn)為,智能體將最先引爆。

每個人、每個企業(yè)都有自己的“AI焦慮”:如果未來智能體成為主流,每個企業(yè)都將擁有自己的數(shù)字員工,那么人類員工會不會被AI替代?

過去24個月,AI行業(yè)最大的變化是大模型基本消除了幻覺,不再一本正經(jīng)地胡說八道。大模型一大弱點(diǎn)已經(jīng)被消除,比如,百度用檢索增強(qiáng)技術(shù)解決文生圖的幻覺,我們看到越來越多大模型生成的文字、圖片不再“一眼假”“機(jī)器味兒”。

但是,普通人與大模型廠商之間存在天然信息差,“AI焦慮”自然也不同,當(dāng)普通人焦慮自己會被AI替代,還是能抓住AI致富之時,大模型廠商在焦慮:到底大模型會不會是技術(shù)泡沫?因?yàn)楸然糜X更大的問題正在到來。

近期,Scaling Law(尺度定律)撞墻的爭論甚囂塵上,國外知名科技媒體《The Information》爆料,OpenAI下一代旗艦?zāi)P蚈rion改進(jìn)大幅放緩,與GPT-4相比,Orion性能提升微乎其微,合成數(shù)據(jù)越訓(xùn)越像舊模型,編碼性能甚至還在退步。

當(dāng)全球大模型摸著ChatGPT過河之際,大模型廠商必須要思考:下一代模型的方向在哪里?

智能體將最先爆發(fā)

當(dāng)你走過家門口的連鎖理發(fā)店時,也許你不會意識到,櫥窗上精美的發(fā)型大片竟然是由智能體生成的。當(dāng)你穿行于地鐵站時,也許你不會意識到,站臺上的廣告大片竟然也是智能體生成的。以往這樣一張照片需要請模特、發(fā)型師、攝影師,還需要租場地,動輒數(shù)萬到數(shù)十萬的成本。

大模型生成的圖片接近于真實(shí)照片,從李彥宏在2024百度世界大會上展示的樣片,大模型已經(jīng)可以真實(shí)還原車型車標(biāo)等樣車、天壇等知名建筑物、愛因斯坦等名人。以前拍一組品牌宣傳海報花費(fèi)的幾十萬成本,在“數(shù)字設(shè)計師”面前接近于0。

“數(shù)字設(shè)計師”是一類智能體,“農(nóng)民院士”又是一類智能體。在云南省普洱市瀾滄拉祜族自治縣,有幾十萬農(nóng)民急需學(xué)習(xí)農(nóng)業(yè)技術(shù),但是一位農(nóng)民院士顯然分身乏術(shù),于是“農(nóng)民院士”智能體誕生了。“我想問一下旱稻什么時候種最好?”“旱地稻受到病蟲害怎么辦?”面對潮水般涌來的農(nóng)業(yè)技術(shù)問題,它都能提供及時的幫助,真正幫農(nóng)民解決實(shí)際生產(chǎn)難題。

在百度文心智能體平臺上,有15萬家企業(yè)和80萬名開發(fā)者參與,甚至有11歲的小學(xué)生在創(chuàng)造智能體。李彥宏把智能體比作AI時代的新載體,就像PC時代的網(wǎng)站,移動時代的自媒體賬號,這給了普通人一個新的致富機(jī)會。

智能體的門檻似乎已經(jīng)降低到人人都能上手的程度,但從百度展示的案例來看,目前智能體在代替?zhèn)鹘y(tǒng)PC官網(wǎng)、人工客服、咨詢律師等方面已經(jīng)較為成熟。

但是智能體真的可以解決千行百業(yè)所有的實(shí)際問題了嗎?傳神語聯(lián)董事長何恩培認(rèn)為,今天我們還不敢完全依賴智能體干活,仍然需要人類監(jiān)督,但它們正在變得越來越自主。大模型最擅長的還是處理大模型數(shù)據(jù),搬運(yùn)語言和文字,但要真正深入企業(yè)的工作流,還需要解決一個難題:在企業(yè)不愿意拿出數(shù)據(jù)的情況下,如何快速訓(xùn)練出一位足以應(yīng)對行業(yè)問題的“專家”智能體?

Scaling Law撞墻

雖然OpenAI高管多次怒斥Scaling Law撞墻論,但多種跡象表明,這將成為很多基礎(chǔ)大模型的共同難題。一直以來,Scaling Law被大模型業(yè)界公認(rèn)為“大模型時代的牛頓定律”,大模型廠商都遵循這一定律并堅定相信“大力出奇跡”會持續(xù)奏效,不斷擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)、訓(xùn)練算力,從而擴(kuò)大模型參數(shù)規(guī)模。

據(jù)不完全統(tǒng)計,宣布擁有千卡規(guī)模的中國算力集群已不少于100個。“從2024年開始,AI模型訓(xùn)練的主戰(zhàn)場,萬卡是標(biāo)配。”摩爾線程創(chuàng)始人兼CEO張建中曾在今年7月表示。2024年,模型參數(shù)量從千億邁向萬億,很多創(chuàng)業(yè)公司都沒有資本實(shí)力訓(xùn)練基礎(chǔ)大模型,畢竟GPT-4已經(jīng)使用約2萬多張顯卡,未來模型算力需求可能達(dá)數(shù)十萬甚至上百萬張顯卡,這就造成大量資源浪費(fèi)與大量成本支出。

許多大型基礎(chǔ)實(shí)驗(yàn)室都遇到了預(yù)訓(xùn)練的瓶頸,另一大原因是高質(zhì)量文本數(shù)據(jù)越來越少。有研究預(yù)計,在2028年左右,已有的數(shù)據(jù)儲量將全部用完,基于大數(shù)據(jù)的大模型發(fā)展可能放緩甚至陷入停滯。

“大模型的核心競爭,將是高質(zhì)量數(shù)據(jù)的競爭。”一年前,達(dá)觀數(shù)據(jù)CEO陳運(yùn)文就在接受《IT時報》記者采訪時表示,我們應(yīng)該意識到,中文教科書只有英文的十分之一,知識密度高的文檔資料才是大模型訓(xùn)練的優(yōu)質(zhì)數(shù)據(jù),包括教科書、論文、報告,以及經(jīng)過治理的企業(yè)數(shù)據(jù)等,但是微信聊天記錄、淘寶聊天記錄等數(shù)據(jù)有效性弱。

大模型落地最大的阻礙在于企業(yè)不愿意拿出數(shù)據(jù),大模型就很難有效學(xué)習(xí)數(shù)據(jù)并成為專家。如果將數(shù)據(jù)提供給大模型服務(wù)商進(jìn)行訓(xùn)練,數(shù)據(jù)安全難以保障。如果企業(yè)自行訓(xùn)練,不僅算力和人才成本高昂浪費(fèi),而且微調(diào)模式還可能削弱大模型通用能力,又回到了智能體落地中的兩難境地。

數(shù)推分離將成下一代模型方向

如何走出這片技術(shù)沙漠?OpenAI正在改變策略謀求出路。早在今年5月,OpenAI首席執(zhí)行官薩姆·奧特曼在對話麻省理工學(xué)院校長莎莉·科恩布魯斯時提到,GPT-4有推理速度慢、成本高昂等副作用,GPT-5或?qū)?shù)據(jù)與推理引擎分離。

“大模型正在從Scaling Law時代邁向?qū)崟r學(xué)習(xí)時代,數(shù)推分離是正是當(dāng)下我們走通的另外一條路。”傳神語聯(lián)創(chuàng)始人何恩培也對《IT時報》記者表示。

傳神的任度大模型主要切入的行業(yè)是航天、醫(yī)療、金融等對數(shù)據(jù)安全極為重視的行業(yè),企業(yè)不愿意拿出數(shù)據(jù)怎么辦?遇到的難題是基于向量檢索、數(shù)據(jù)仿真等模式都難以保證輸出結(jié)果的準(zhǔn)確性,在算力和數(shù)據(jù)不可能無限擴(kuò)大時,改進(jìn)算法成為新出路,而且基于高效算法和架構(gòu)的小參數(shù)模型更適合商業(yè)落地。但是,目前國內(nèi)走通數(shù)推分離模式的大模型廠商并不多,走這條路仿佛穿越沙漠,沒有前路可借鑒。

“數(shù)推分離更像人類學(xué)習(xí)知識的方式,人類只需要閱讀幾百本書就能獲得一定的智慧來解決各種各樣的問題。”何恩培提到,傳神的任度大模型就是以雙網(wǎng)架構(gòu)實(shí)現(xiàn)客戶數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)與推理網(wǎng)絡(luò)分離。客戶數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)如同人類左腦,在企業(yè)端實(shí)時學(xué)習(xí)歷史數(shù)據(jù)和業(yè)務(wù)運(yùn)營中的新數(shù)據(jù),讓企業(yè)數(shù)據(jù)為模型注入知識養(yǎng)分,卻不需要離開企業(yè)上傳至公有云;推理網(wǎng)絡(luò)如同人類右腦,經(jīng)過適量數(shù)據(jù)預(yù)訓(xùn)練達(dá)到良好的推理和泛化能力。

“雙腦模式”的確降低了訓(xùn)練成本和數(shù)據(jù)安全的擔(dān)憂,但是能否保證大模型“聰明”?何恩培表示,數(shù)推分離突破了常規(guī)大模型技術(shù)架構(gòu)限制,上下文輸入長度不受限,能將1億字乃至更大量多模態(tài)數(shù)據(jù)壓縮到神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)深度知識理解,等同于大模型和數(shù)據(jù)重新訓(xùn)練效果,同時企業(yè)運(yùn)營實(shí)時數(shù)據(jù),也能快速學(xué)習(xí),訓(xùn)練時間可縮短至分鐘級。

為了完全打消企業(yè)對數(shù)據(jù)不出域的疑慮,何恩培將雙網(wǎng)絡(luò)架構(gòu)的數(shù)推分離大模型植入任度“雙腦”大模型一體機(jī)中,就像一臺專屬電腦一樣配置在企業(yè)端,讓企業(yè)看到從物理上沒人拿走,也不上傳公有云,數(shù)據(jù)只在本地訓(xùn)練。

國產(chǎn)原創(chuàng)給世界第二種選擇

高端GPU芯片禁售后,國內(nèi)大模型行業(yè)已經(jīng)意識到,只有國產(chǎn)原創(chuàng)才有出路。“只有在真正自主可控的平臺上,才有真正的中國人工智能大未來,才能給世界第二種選擇。”科大訊飛董事長劉慶峰多次強(qiáng)調(diào)。

今年10月,劉慶峰曬出成績單:截至2024年10月,科大訊飛已與各頭部企業(yè)共建20多個行業(yè)大模型,300多個應(yīng)用場景,所覆蓋行業(yè)和場景數(shù)都是第一。

訊飛星火大模型能成為眾多央國企的選擇,主要?dú)w因于全國產(chǎn)化的算力平臺。2023年10月,科大訊飛與華為聯(lián)合發(fā)布首個國產(chǎn)萬卡算力集群“飛星一號”。今年10月,科大訊飛、華為、合肥市大數(shù)據(jù)資產(chǎn)運(yùn)營有限公司三方聯(lián)合打造的國產(chǎn)超大規(guī)模智算平臺“飛星二號”正式啟動。

“一年以來我們一起攻克了很多疑難雜癥,解決了500多次以上的基礎(chǔ)軟硬件問題和模型適配問題。”劉慶峰說道。

在無人區(qū)的探索無比艱難,但是中國大模型廠商終究要走國產(chǎn)原創(chuàng)之路,算力國產(chǎn)化之后,底層算法框架的根原創(chuàng)依舊難走。而傳神語聯(lián)的任度大模型實(shí)現(xiàn)了從底層算法框架到上層應(yīng)用的全技術(shù)棧自主研發(fā)“根原創(chuàng)”。

在一次內(nèi)部研討會上,一位行業(yè)專家語重心長地對傳神語聯(lián)何恩培說:“為什么國內(nèi)外大廠都不走?你們的技術(shù)路線是不是選錯了?”何恩培也曾懷疑過自己公司走的技術(shù)路線,直到看到任度大模型評測進(jìn)入第一梯隊,也看到在客戶實(shí)際場景落地并得到了客戶認(rèn)可,才認(rèn)為僥幸走通了這條技術(shù)路線。任度大模型2.1B參數(shù)版本在2024年9月的MMLU評估中,綜合評分超越了Gemma-7B、LLaMA2-34B等知名大模型,性參比(大模型能力分?jǐn)?shù)/大模型參數(shù))更是超越了包括GPT-4o、Phi-3、Qwen2-7B、Llama3.1等國際頂尖大模型。這意味著,訓(xùn)練推理過程中消耗的算力成本大大降低,僅為同等大型模型的1/5—1/10以及1/2—1/4。

傳神的任度大模型通過了中國信息通信研究院“0開源依賴”的評測,未使用任何開源代碼和框架。“在國內(nèi)外,能做到根原創(chuàng)的企業(yè)為數(shù)不多。”何恩培強(qiáng)調(diào),這也解釋了為何任度大模型能夠不受限地實(shí)踐數(shù)推分離雙網(wǎng)絡(luò)架構(gòu)。

“我也僥幸走通了國產(chǎn)原創(chuàng)之路。我們沒有從主流大模型發(fā)展遇到的問題中尋找突破機(jī)會,而是從公司誕生起就走在這條路上,走了20多年,也曾感到孤獨(dú)和不自信,但看到大家都向這個方向走來,才確信自己走的沒錯。”何恩培說道。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章