首頁(yè) > AI資訊 > 最新資訊 > 庫(kù)帕思:專注AI語(yǔ)料,以“數(shù)據(jù)煉金術(shù)”賦能大模型時(shí)代

庫(kù)帕思:專注AI語(yǔ)料,以“數(shù)據(jù)煉金術(shù)”賦能大模型時(shí)代

新火種    2025-04-16

一臺(tái)體積接近登機(jī)行李箱的語(yǔ)料終端,或許會(huì)在不久后給基層醫(yī)院帶來(lái)重要賦能。基于其內(nèi)置的醫(yī)療語(yǔ)料庫(kù)和模型,它有機(jī)會(huì)成為全科醫(yī)生的“數(shù)字副手”,不僅能完成臨床信息錄入、病歷自動(dòng)生成,遇到疑難問(wèn)題時(shí)還可以提供專科醫(yī)生級(jí)別的輔助診斷能力。

這臺(tái)設(shè)備背后的操盤(pán)者,是一家成立時(shí)間不足一年的企業(yè)——上海庫(kù)帕思科技有限公司。可以說(shuō),當(dāng)人們的關(guān)注點(diǎn)集中于算力和算法時(shí),庫(kù)帕思卻打出另一張王牌——高質(zhì)量的語(yǔ)料數(shù)據(jù),希望以“數(shù)據(jù)煉金術(shù)”,完善人工智能(AI)行業(yè)的底層邏輯。

大模型時(shí)代的戰(zhàn)略資源

所謂語(yǔ)料,某種意義上就是AI大模型的“教材”,是精心篩選、清洗和標(biāo)注的高質(zhì)量訓(xùn)練數(shù)據(jù),包括文字、圖片、聲音等形態(tài),專門(mén)用來(lái)教會(huì)AI大模型理解人的思想以及物理世界。缺乏語(yǔ)料,模型訓(xùn)練就會(huì)變成“無(wú)米之炊”;如果只有低質(zhì)量數(shù)據(jù),就可能讓訓(xùn)練成本大幅飆升。

過(guò)去兩年,AI大模型行業(yè)出現(xiàn)爆發(fā)式增長(zhǎng),其中,對(duì)模型訓(xùn)練過(guò)程中的語(yǔ)料要求也越來(lái)越高。但數(shù)據(jù)異構(gòu)、質(zhì)量參差的語(yǔ)料,就像是一鍋“亂燉”被喂給AI,某種程度上,這制約了大模型行業(yè)的發(fā)展。同時(shí),優(yōu)質(zhì)資源的稀缺、數(shù)據(jù)流通的壁壘,也使高質(zhì)量語(yǔ)料價(jià)格居高不下。有統(tǒng)計(jì)顯示,對(duì)大模型創(chuàng)業(yè)企業(yè)而言,目前花在語(yǔ)料上的成本超過(guò)企業(yè)運(yùn)營(yíng)開(kāi)銷(xiāo),僅次于算力支出。

語(yǔ)料作為戰(zhàn)略資源,其價(jià)值和短板都在大模型熱潮中越來(lái)越清晰。作為行業(yè)領(lǐng)跑者,上海也一直在思考,如何通過(guò)完善產(chǎn)業(yè)生態(tài)、完善基礎(chǔ)設(shè)施,為大模型賦能新質(zhì)生產(chǎn)力發(fā)展加一把勁。由此,在市委、市政府支持下,上海以國(guó)資牽頭、聯(lián)合11家單位共同組建庫(kù)帕思公司,它成為國(guó)內(nèi)第一家專注AI語(yǔ)料的戰(zhàn)略性功能性平臺(tái)企業(yè)。

用AI的方法制造AI燃料

此前,關(guān)于如何將數(shù)據(jù)加工成語(yǔ)料,行業(yè)認(rèn)知相當(dāng)粗放。不僅如此,語(yǔ)料生產(chǎn)加工的過(guò)程也非常原始,高度依賴人工。對(duì)庫(kù)帕思來(lái)說(shuō),用AI時(shí)代的技術(shù)和思維,將原始信息轉(zhuǎn)化為工業(yè)級(jí)的“大模型燃料”,從而為行業(yè)降低語(yǔ)料成本,讓大模型觸手可及,是他們的夢(mèng)想,也是使命。

自從去年3月運(yùn)營(yíng)以來(lái),短短幾個(gè)月,庫(kù)帕思就在行業(yè)內(nèi)首次完成語(yǔ)料戰(zhàn)略平臺(tái)“四梁八柱”的搭建。庫(kù)帕思CEO黃海清告訴記者,這個(gè)體系的核心就是一個(gè)綜合語(yǔ)料庫(kù)和若干個(gè)行業(yè)語(yǔ)料庫(kù)構(gòu)成的語(yǔ)料基座,以及一個(gè)集成數(shù)十種技術(shù)功能模塊的語(yǔ)料運(yùn)營(yíng)平臺(tái)。此外,庫(kù)帕思還形成自己的語(yǔ)料評(píng)測(cè)方法論,打造“價(jià)值對(duì)齊”體系,并積極發(fā)展生態(tài)合作伙伴。

每天,在庫(kù)帕思平臺(tái)上,數(shù)百個(gè)AI自動(dòng)算子會(huì)按照工程師們對(duì)語(yǔ)料的設(shè)計(jì),對(duì)數(shù)據(jù)進(jìn)行多道加工,目前日生成語(yǔ)料已接近1TB,預(yù)計(jì)到今年年底,可望形成1000TB的語(yǔ)料數(shù)據(jù)集。

這樣的高質(zhì)量語(yǔ)料數(shù)據(jù)供應(yīng)體系,正給行業(yè)帶來(lái)積極改變。比如,在基礎(chǔ)模型領(lǐng)域,一些創(chuàng)業(yè)公司因?yàn)閹?kù)帕思的存在,開(kāi)始精簡(jiǎn)自己的語(yǔ)料團(tuán)隊(duì),從而將有限的精力和資金集中在算法層面。在模型應(yīng)用方面,庫(kù)帕思正圍繞“模塑申城”行動(dòng)所確定的“6+5”重點(diǎn)行業(yè)和領(lǐng)域,構(gòu)建醫(yī)療、金融、制造、具身智能等垂類(lèi)語(yǔ)料庫(kù)。

正如本文開(kāi)頭提到的,其首創(chuàng)的醫(yī)療語(yǔ)料終端之所以能用遠(yuǎn)低于GPT-4o的算力消耗,展現(xiàn)出不亞于其的能力,關(guān)鍵就是因?yàn)閮?nèi)置了庫(kù)帕思首批形成的醫(yī)療行業(yè)語(yǔ)料庫(kù)。語(yǔ)料的這種能力和潛質(zhì),也初步印證了庫(kù)帕思的判斷:未來(lái),高質(zhì)量的語(yǔ)料數(shù)據(jù)集有可能成為提升大模型能力上限的決定性因素。

面向行業(yè)貢獻(xiàn)“上海智慧”

在語(yǔ)料這個(gè)新興行業(yè),的確有太多需要“摸著石頭過(guò)河”的地方。作為國(guó)資背景、市場(chǎng)化運(yùn)營(yíng)的功能性平臺(tái)企業(yè),庫(kù)帕思要做的不僅是生產(chǎn)語(yǔ)料產(chǎn)品,更要構(gòu)建和完善行業(yè)生態(tài),要充分利用自身優(yōu)勢(shì),代表行業(yè)先行先試。

不久前落幕的2025全球開(kāi)發(fā)者先鋒大會(huì)上,庫(kù)帕思聯(lián)合穹徹智能、智元機(jī)器人、國(guó)家地方共建人形機(jī)器人創(chuàng)新中心等具身智能領(lǐng)域的領(lǐng)軍企業(yè),共同開(kāi)始探索具身語(yǔ)料,希望能為人形機(jī)器人的訓(xùn)練提供支撐。據(jù)透露,其工程一期將著力打造出“生產(chǎn)伴隨”“物理場(chǎng)遙操作”“仿真合成”等語(yǔ)料數(shù)據(jù)采集模式,聚焦工廠、醫(yī)療、零售、辦公、家居等12類(lèi)場(chǎng)景,覆蓋動(dòng)作技能250余個(gè),構(gòu)建起規(guī)模達(dá)5000萬(wàn)條的具身智能語(yǔ)料數(shù)據(jù),基本形成國(guó)際一流、國(guó)內(nèi)領(lǐng)先的具身智能語(yǔ)料數(shù)據(jù)供給體系和標(biāo)準(zhǔn)規(guī)范體系。

同時(shí),庫(kù)帕思也與更多垂直行業(yè)專家合作,希望持續(xù)發(fā)掘語(yǔ)料的潛在應(yīng)用方向和場(chǎng)景。比如,如何利用語(yǔ)料讓AI客服的話語(yǔ)聽(tīng)起來(lái)更有人情味、讓AI智能體的思維更縝密、讓AI投資助手在面對(duì)多變的市場(chǎng)時(shí)反應(yīng)更加敏銳。

當(dāng)然,最大的場(chǎng)景還是要全面賦能大模型時(shí)代的創(chuàng)新。作為“模塑申城”行動(dòng)的重要一環(huán),庫(kù)帕思不久前發(fā)布“模塑申城語(yǔ)料普惠計(jì)劃”,將投入上億元,面向廣大中小AI企業(yè),一方面為他們提供開(kāi)源語(yǔ)料服務(wù),另一方面,也希望從中找到生態(tài)合作伙伴,一起打造面向未來(lái)產(chǎn)業(yè)的稀缺數(shù)據(jù)集。

很多人認(rèn)為,我國(guó)AI發(fā)展的最大優(yōu)勢(shì)在于豐富的場(chǎng)景和數(shù)據(jù)。從這個(gè)角度出發(fā),年輕的庫(kù)帕思非常需要更好發(fā)揮行業(yè)樞紐和生態(tài)催化的作用,進(jìn)一步鍛造“語(yǔ)料長(zhǎng)板”,為全國(guó)大模型發(fā)展貢獻(xiàn)“上海智慧”。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。

熱門(mén)文章