百度山西數(shù)據(jù)標注基地:未來5年將培養(yǎng)5萬名AI數(shù)據(jù)標注師
8月7日,澎湃新聞記者探訪了百度位于山西省太原市的人工智能基礎數(shù)據(jù)產(chǎn)業(yè)基地,該基地是全國范圍內(nèi)人員和產(chǎn)值規(guī)模最大的單體數(shù)據(jù)標注基地,入駐數(shù)據(jù)標注企業(yè)35家,有超過2000名的AI(人工智能)數(shù)據(jù)標注師,支持無人駕駛、語音識別、人臉識別、地圖數(shù)據(jù)等多種數(shù)據(jù)標注場景。
按照百度的計劃,未來5年,百度還將培養(yǎng)數(shù)據(jù)采集、標注專業(yè)人員5萬人。

百度(山西)人工智能基礎數(shù)據(jù)產(chǎn)業(yè)基地。
“七八年前,我們是通過線上眾包的方式,讓AI數(shù)據(jù)標注師來做一些比較簡單的任務,但隨著人工智能的發(fā)展,應用場景越來越多,任務難度越來越高,再加上對數(shù)據(jù)安全、隱私、質(zhì)量和效率的要求,百度決定建立一個人工智能基礎數(shù)據(jù)產(chǎn)業(yè)基地。”百度(山西)人工智能基礎數(shù)據(jù)產(chǎn)業(yè)基地負責人尉赤告訴澎湃新聞記者,基地一方面為百度自身的人工智能發(fā)展提供服務,另一方面可以向合作伙伴輸出基地的數(shù)據(jù)能力和一整套的解決方案。
據(jù)了解,百度在2011年自建了數(shù)據(jù)采標團隊,支持內(nèi)部人工智能業(yè)務的發(fā)展。2018年9月,百度與山西省轉(zhuǎn)型綜合改革示范區(qū)達成合作,共同打造數(shù)據(jù)標注基地。目前,百度已經(jīng)幫助山西從全國各地引入35家數(shù)據(jù)標注企業(yè),通過導入百度自有的數(shù)據(jù)標注業(yè)務,為人員提供業(yè)務培訓,幫助標注企業(yè)實現(xiàn)營業(yè)收入過億元。而百度與山西數(shù)據(jù)標注基地的合作模式,未來還將拓展到更多省市,提供更多的AI就業(yè)崗位。
AI數(shù)據(jù)標注師,被稱為人工智能背后的人。2020年2月,“人工智能訓練師”正式成為新職業(yè)并納入國家職業(yè)分類目錄,數(shù)據(jù)采集和標注是人工智能訓練師的主要任務之一。他們的工作是教會AI認識數(shù)據(jù),有了足夠多、足夠好的數(shù)據(jù),AI才能學會像人一樣去感知、思考和決策,更好地為人類服務。
在基地一間間的辦公室中,每個電腦前都坐著一名AI數(shù)據(jù)標注師,他們將根據(jù)各自分配的任務對圖像、語音、視頻、文本進行標注。比如,對于戴口罩的人臉圖像,數(shù)據(jù)標注師會對人臉的眉毛、眼鏡、顴骨等人臉關鍵點進行精準的標注,標注的特征點越多,AI就越能精確地識別戴口罩場景下的人臉,讓人們在不摘口罩的情況下也能實現(xiàn)精確的體溫測量,或是通過人臉閘機。
“要教會AI,首先要把知識轉(zhuǎn)化成它能消化和吸收的‘語言’,你可以將數(shù)據(jù)想象成AI的燃料,人類對采集回來的原始數(shù)據(jù)進行加工,標注的過程就可以提取出一些數(shù)據(jù)信息。比如,在采集大量的人臉數(shù)據(jù)后,AI數(shù)據(jù)標注師會對人像進行標注,提取特征,將特征‘喂’給人工智能模型,那么模型算法相當于總結了之前人工標注出的信息,并找出通用規(guī)律,那這個人工智能模型就具備了人腦才有的認知和判斷能力。”尉赤說。
據(jù)悉,AI數(shù)據(jù)標注師技術門檻并不高,經(jīng)過一定的培訓就能上崗,招工人群范圍廣泛。在基地,大專以上學歷的數(shù)據(jù)標注師占比超過80%,一些中專或高中學歷的人員也可勝任這項工作。
在探訪中,基地AI數(shù)據(jù)標注師李宇龍告訴澎湃新聞記者,他入行做的第一個項目是車道線的標注。“比如,對車輛所行駛的車道兩側的線進行編號,包括識別這條線是實線還是虛線。剛開始不知道這項工作到底運用到什么地方,后來才知道是自動駕駛。”李宇龍說,他所做的2D/3D融合標注可助力自動駕駛模型的訓練,幫助車輛實現(xiàn)視覺和雷達的感知,主要應用于自動駕駛場景的訓練落地。
另一位AI數(shù)據(jù)標注師郭梅則向記者介紹,她原本就職于山西的傳統(tǒng)礦業(yè)單位,一開始每天只能標注兩三百張圖片,現(xiàn)在提升到每天能完成1300多張,收入高于當?shù)仄骄杖胨健D片框選是數(shù)據(jù)標注師的工作之一,它可助力圖像識別模型訓練,用于框選圖片中的識別主體目標,常見于對人臉、人體、障礙物、紅綠燈的框選,可應用于智能駕駛、智能安防、智能設備的場景落地。
對于為何要在未來5年培養(yǎng)5萬名AI數(shù)據(jù)標注師,尉赤向澎湃新聞記者表示,數(shù)據(jù)服務領域與人工智能的發(fā)展息息相關。“這是個高速發(fā)展的行業(yè),5年培養(yǎng)5萬人并不算多,我們的線上眾包注冊用戶有將近2000萬人,目前每個月在線上為我們提供服務的人將近5萬人。如果按照行業(yè)增長速度來看的話,培養(yǎng)5萬人還不一定夠。”尉赤向澎湃新聞記者介紹。
對于如何保障數(shù)據(jù)安全,尉赤說:“這也是百度要建設基地的原因,在基地,每個房間都有24小時視頻監(jiān)控,上崗之前進行人臉打卡,數(shù)據(jù)加密,作業(yè)期間若涉及數(shù)據(jù)敏感項目,會要求數(shù)據(jù)標注師們將手機放在固定的地方,而線上的數(shù)據(jù)標注師則是在處理一些敏感性不高的數(shù)據(jù)。”
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。