國內(nèi)首個(gè)大模型數(shù)據(jù)標(biāo)注基地落地海口!記者上崗體驗(yàn)AI訓(xùn)練師
《科創(chuàng)板日報(bào)》8月25日訊(記者 黃心怡) 近年來,由深度學(xué)習(xí)帶來的人工智能商業(yè)化應(yīng)用落地,極大地推動了AI基礎(chǔ)數(shù)據(jù)服務(wù)的需求。根據(jù)咨詢機(jī)構(gòu)IDC的數(shù)據(jù),預(yù)計(jì)2025年,AI基礎(chǔ)數(shù)據(jù)服務(wù)總市場規(guī)模將突破120億元。
日前,位于海口市秀英區(qū)的百度智能云(海口)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地正式啟動運(yùn)營。數(shù)百名大學(xué)生入駐基地,成為新興的人工智能AI訓(xùn)練師。
《科創(chuàng)板日報(bào)》記者實(shí)地走訪了基地,并親自上手體驗(yàn)了一把數(shù)據(jù)標(biāo)注。在當(dāng)前的AI大模型時(shí)代,數(shù)據(jù)標(biāo)注的質(zhì)量會影響大模型的“智商”。這些非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù),必須經(jīng)過清洗與標(biāo)注處理,才能變成機(jī)器可理解、可學(xué)習(xí)的數(shù)據(jù)。
海口市秀英區(qū)委常委、常務(wù)副區(qū)長石晟屹在采訪中表示,該基地在未來三到五年,新增就業(yè)有望突破5000人規(guī)模。“這些年海口市一直在探索,作為海南自貿(mào)港的省會城市核心區(qū),需要千億級園區(qū)、百億級產(chǎn)業(yè)、十億級的項(xiàng)目。而數(shù)字經(jīng)濟(jì)是我們找到的鑰匙,人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地的落地只是開始,后續(xù)將在海口建更大規(guī)模數(shù)字產(chǎn)業(yè)園區(qū)。”
▍AI數(shù)據(jù)標(biāo)注師對能力要求高!本科學(xué)歷100%
走進(jìn)位于海口數(shù)據(jù)標(biāo)注基地,記者看到一群大模型標(biāo)注師正在借助數(shù)據(jù)標(biāo)注平臺對大模型生成的內(nèi)容數(shù)據(jù)進(jìn)行打分、排序。
百度智能云數(shù)據(jù)標(biāo)注基地業(yè)務(wù)產(chǎn)品負(fù)責(zé)人胡馳介紹,由于大模型對同一個(gè)問題每次都生成不一樣的答案,導(dǎo)致回答的穩(wěn)定性會存疑。“有時(shí)答得很好,有時(shí)則答非所問。數(shù)據(jù)標(biāo)注師的作用就像是大模型的專業(yè)輔導(dǎo)老師,讓模型的回答更有質(zhì)量。通過不斷地人工標(biāo)注,讓大模型的表現(xiàn)與人類的價(jià)值觀、思維方式不斷地對齊,最終能像人一樣,解決很多實(shí)際的問題。”
記者在現(xiàn)場體驗(yàn)了一把數(shù)據(jù)標(biāo)注師的工作。對于每個(gè)問題,大模型生成5個(gè)不同的回答,然后數(shù)據(jù)標(biāo)注師根據(jù)一套完整的評分規(guī)則,來給回答進(jìn)行打分。滿分為5分,如果分值低于3分,就需要在回答中劃詞指出,哪些句子存在答非所問、事實(shí)性錯(cuò)誤等情況。
從記者的實(shí)操來看,大模型的數(shù)據(jù)標(biāo)注具有一定的門檻。不僅需要判斷回答有沒有跑題、有沒有事實(shí)性錯(cuò)誤,還需要判斷是否存在邏輯性問題、語義重復(fù)問題等等。涉及代碼、法律、醫(yī)療等專業(yè)領(lǐng)域的對話,數(shù)據(jù)標(biāo)注師則必須具備行業(yè)知識。
胡馳表示,相比傳統(tǒng)模型,大模型數(shù)據(jù)標(biāo)注需要一套全新的標(biāo)注組織形式,對標(biāo)注人員提出了更高的要求。這是由于傳統(tǒng)的模型標(biāo)注在規(guī)則上偏客觀,而大模型的回答偏主觀,要求標(biāo)注師具備一定理解力、邏輯思維、總結(jié)能力。
《科創(chuàng)板日報(bào)》記者在現(xiàn)場獲悉,海口標(biāo)注基地的數(shù)百名數(shù)據(jù)標(biāo)注師,學(xué)歷本科率達(dá)到100%,招聘專業(yè)包括新聞系、中文系等。傳統(tǒng)模型標(biāo)注人員學(xué)歷則普遍在中專及以上。在入職的前兩個(gè)月,數(shù)據(jù)標(biāo)注師需要進(jìn)行集體培訓(xùn)和考核,通過考核后才能正式上崗,薪酬結(jié)算方式是計(jì)件制、多勞多得。
在完成數(shù)據(jù)標(biāo)注后,百度會對大模型重新訓(xùn)練,并對更新后的大模型能力進(jìn)行評估,對不足的地方再進(jìn)行人工標(biāo)注,通過這樣的閉環(huán)把整體模型質(zhì)量不斷提升和迭代。
2020年2月,人社部《關(guān)于擬發(fā)布新職業(yè)信息公示的通告》中 “人工智能訓(xùn)練師”正式成為新職業(yè)并納入國家職業(yè)分類目錄。2022年全國約需要200萬AI訓(xùn)練師。
記者了解到,海口標(biāo)注基地在未來三到五年,新增就業(yè)有望突破5000人規(guī)模。目前百度已經(jīng)在全國與各地政府合作,共建了十多個(gè)數(shù)據(jù)標(biāo)注基地,累計(jì)為當(dāng)?shù)靥峁┏^1.1萬個(gè)穩(wěn)定就業(yè)崗位,間接帶動5萬人就業(yè)。
▍劍指百億產(chǎn)值!海口將建設(shè)更大規(guī)模數(shù)字產(chǎn)業(yè)園區(qū)
這次啟動運(yùn)營的海口數(shù)據(jù)標(biāo)注基地,坐落于秀英區(qū)濱海大道。海口市秀英區(qū)委常委、常務(wù)副區(qū)長石晟屹在接受《科創(chuàng)板日報(bào)》記者采訪時(shí)表示,去年海口的四個(gè)區(qū)里面,秀英區(qū)是數(shù)字經(jīng)濟(jì)唯一實(shí)現(xiàn)正增長的。
“如果要在海南自貿(mào)港核心區(qū)建設(shè)中走在前列的話,秀英區(qū)必須探索一些新的思路。從去年的數(shù)據(jù)來看,全球數(shù)字經(jīng)濟(jì)在經(jīng)濟(jì)總量的占比接近40%,中國數(shù)字經(jīng)濟(jì)在GDP的占比超過了55%。未來已來,特別是AI產(chǎn)業(yè)的發(fā)展堪稱日新月異。這是我們找到的鑰匙,秀英要大力發(fā)展數(shù)字經(jīng)濟(jì)。”
石晟屹透露,目前秀英區(qū)將從兩方面入手。一是產(chǎn)業(yè)數(shù)字化。“秀英區(qū)從省級重點(diǎn)園區(qū)、市級園區(qū)到區(qū)里自有的園區(qū)有將近十來個(gè),已經(jīng)孵化了一大批生物醫(yī)藥類和工程機(jī)械制造類的企業(yè),未來會為秀英區(qū)傳統(tǒng)產(chǎn)業(yè)的升級改造提供支持。”
其次是數(shù)字產(chǎn)業(yè)化。石晟屹表示,數(shù)據(jù)標(biāo)注基地的落地只是開始,后續(xù)將圍繞1平臺——海口數(shù)字科技創(chuàng)新平臺,3基地——百度智能云(海口)人工智能數(shù)據(jù)標(biāo)注基地、百度智算基地、百度元宇宙產(chǎn)業(yè)基地,5中心——飛槳產(chǎn)業(yè)賦能中心、城市數(shù)字化運(yùn)營中心、數(shù)字化展示體驗(yàn)中心、交付服務(wù)中心、數(shù)字化培訓(xùn)賦能中心,來開展建設(shè)。
在此基礎(chǔ)上,海口還將推動AI數(shù)字港在西海岸的核心區(qū)域的落地。“我們希望引進(jìn)更多的類似于百度這樣的數(shù)字企業(yè),形成更大規(guī)模的數(shù)字產(chǎn)業(yè)園區(qū)。我們的計(jì)劃是100畝地、100億產(chǎn)值,近10億稅收,在三到五年大概達(dá)到這樣的程度。五年后能實(shí)現(xiàn)500億的產(chǎn)值。” 石晟屹說。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。