首頁(yè) > AI資訊 > 行業(yè)應(yīng)用 > 鳳凰衛(wèi)視發(fā)布AI數(shù)據(jù)業(yè)務(wù),豐富大模型華語(yǔ)語(yǔ)料資源

鳳凰衛(wèi)視發(fā)布AI數(shù)據(jù)業(yè)務(wù),豐富大模型華語(yǔ)語(yǔ)料資源

新火種    2023-11-20

  作為人工智能領(lǐng)域的一個(gè)重要分支,AI大模型正在帶領(lǐng)我們進(jìn)入一個(gè)充滿無限可能和驚喜的新時(shí)代,大模型通過模擬人類的學(xué)習(xí)方式,理解和處理自然語(yǔ)言,展現(xiàn)出極高的泛化能力。據(jù)不完全統(tǒng)計(jì),截止10月份國(guó)內(nèi)已經(jīng)發(fā)布了238個(gè)大模型。大模型產(chǎn)業(yè)已然進(jìn)入“百模大戰(zhàn)”模式,行業(yè)賽道熱度不斷高漲,越來越多的企業(yè)開始嘗試使用大模型來升級(jí)改造自身業(yè)務(wù)。

  鳳凰衛(wèi)視便是奔赴AI大模型領(lǐng)域的代表之一。在11月13日召開的“數(shù)聚未來——鳳凰大模型數(shù)據(jù)研討沙龍”上,鳳凰衛(wèi)視正式發(fā)布“鳳凰智媒AI數(shù)據(jù)業(yè)務(wù)”,并發(fā)布首批“中文訪談對(duì)話數(shù)據(jù)集”和“正向價(jià)值對(duì)齊數(shù)據(jù)集”。未來也將陸續(xù)發(fā)布面向財(cái)經(jīng)領(lǐng)域的評(píng)論數(shù)據(jù)集、面向視頻內(nèi)容理解領(lǐng)域的視頻問答數(shù)據(jù)集、面向數(shù)字人領(lǐng)域的談話動(dòng)作數(shù)據(jù)集和語(yǔ)音合成數(shù)據(jù)集。

  鳳凰衛(wèi)視奔赴AI星辰大海

  在人工智能領(lǐng)域,算力、算法和數(shù)據(jù)三者密不可分:算力提供了強(qiáng)有力的支持,算法決定了機(jī)器的智能水平,數(shù)據(jù)則是讓機(jī)器學(xué)習(xí)不斷進(jìn)化的源泉。作為人工智能領(lǐng)域最珍貴、最重要的資源之一,數(shù)據(jù)包含了人工智能系統(tǒng)所需要的文字、圖像、聲音信息,數(shù)據(jù)的質(zhì)量和數(shù)量決定了算法的效果和性能。

  在筆者看來,數(shù)據(jù)在人工智能發(fā)展中發(fā)揮著至關(guān)重要的效能,其短板與不足也需要得到重視。鳳凰衛(wèi)視執(zhí)行副總裁兼運(yùn)營(yíng)總裁李奇表示:“數(shù)據(jù)仍是目前人工智能發(fā)展的短板之一,數(shù)據(jù)就像是人工智能時(shí)代的石油資源,它的開發(fā)和應(yīng)用都將是一個(gè)系統(tǒng)工程,需要產(chǎn)業(yè)界無數(shù)企業(yè)共同參與。”

  鳳凰衛(wèi)視如何做?具體來看,鳳凰衛(wèi)視即將推出以數(shù)據(jù)為中心的一站式AI訓(xùn)練平臺(tái),計(jì)劃2024年5月上線。據(jù)悉,平臺(tái)將與高質(zhì)量數(shù)據(jù)集市實(shí)現(xiàn)互聯(lián)互通,確保數(shù)據(jù)在平臺(tái)的安全使用,還將提供一系列以數(shù)據(jù)為中心的服務(wù),包括豐富的數(shù)據(jù)處理工具、可視化模型訓(xùn)練和微調(diào)套件、全面的數(shù)據(jù)和模型評(píng)估框架和多云異構(gòu)的算力資源。

  除了一站式AI訓(xùn)練平臺(tái),鳳凰衛(wèi)視發(fā)布首批“中文訪談對(duì)話數(shù)據(jù)集” 和 “正向價(jià)值對(duì)齊數(shù)據(jù)集”。其中,“中文訪談對(duì)話數(shù)據(jù)集” 基于鳳凰衛(wèi)視訪談?lì)惞?jié)目生成,規(guī)模達(dá)百萬輪次,連續(xù)對(duì)話的平均輪次超 30 輪次。“正向價(jià)值對(duì)齊數(shù)據(jù)集” 的構(gòu)建則以權(quán)威學(xué)術(shù)團(tuán)隊(duì)的研究成果為指導(dǎo),由鳳凰衛(wèi)視專業(yè)內(nèi)容團(tuán)隊(duì)人工撰寫而成,規(guī)模達(dá)十萬個(gè)問答對(duì)。

  鳳凰衛(wèi)視融媒體研發(fā)副總經(jīng)理馮偉表示,高質(zhì)量的數(shù)據(jù)語(yǔ)料庫(kù)是AI時(shí)代承載中華文化的新載體,鳳凰數(shù)據(jù)的核心目標(biāo)是為AI時(shí)代的中華文化傳播奠定堅(jiān)實(shí)基礎(chǔ),讓AI與中華文化認(rèn)知對(duì)齊更簡(jiǎn)單。據(jù)悉,鳳凰衛(wèi)視還將于明年3月、7月、11月發(fā)布第2至4批數(shù)據(jù)集。

  應(yīng)對(duì)挑戰(zhàn),大模型產(chǎn)業(yè)蓄力未來

  大模型發(fā)展初期尚需要面對(duì)諸多挑戰(zhàn):首先,計(jì)算資源和時(shí)間成本高,大模型的訓(xùn)練和推理需要大量的計(jì)算資源和時(shí)間,這不僅增加了成本也限制了模型的可用性和可推廣性;其次,數(shù)據(jù)多樣性和質(zhì)量,如果數(shù)據(jù)存在問題,相應(yīng)的會(huì)影響模型的訓(xùn)練效果;再次,泛化能力和魯棒性,大模型雖然具有強(qiáng)大的學(xué)習(xí)能力和特征提取能力,但往往存在過擬合和泛化能力不足的問題。

  此外,可解釋性和透明度也是大模型發(fā)展的挑戰(zhàn)之一。通常,大模型往往非常復(fù)雜,難以解釋其決策和行為,這會(huì)影響人們對(duì)模型的信任和使用。因此,如何提高大模型的可解釋性和透明度,是未來研究的重要方向之一。

  香港科技大學(xué) (廣州) 協(xié)理副校長(zhǎng)熊輝認(rèn)為,雖然算力是行業(yè)公認(rèn)的中國(guó)大模型面臨的挑戰(zhàn)之一,但真正的挑戰(zhàn)是數(shù)據(jù)。他表示:“雖然國(guó)內(nèi)大模型在中文數(shù)據(jù)上占有優(yōu)勢(shì),但整體的中文數(shù)據(jù)在整個(gè)人類知識(shí)的數(shù)據(jù)體系中僅占很小一部分,中國(guó)大模型如何能夠真正做到跨語(yǔ)言體系、跨文化體系,構(gòu)建起高價(jià)值、高質(zhì)量、全方位的數(shù)據(jù)集,仍然面臨較大挑戰(zhàn)。”

  視覺中國(guó)創(chuàng)始人、總裁柴繼軍從版權(quán)角度對(duì)大模型帶來的挑戰(zhàn)進(jìn)行闡述,他表示:“AIGC 將會(huì)對(duì)傳統(tǒng)的版權(quán)生態(tài)形成極大挑戰(zhàn)。在他看來,人類創(chuàng)作與機(jī)器創(chuàng)作能否真正做到人機(jī)協(xié)同尚無明確答案,如何更好地保護(hù)版權(quán),讓內(nèi)容源頭的創(chuàng)作者分享人工智能再創(chuàng)作的價(jià)值,也仍然充滿挑戰(zhàn)。”

  生態(tài)協(xié)作也成為當(dāng)務(wù)之急,商湯科技數(shù)字文娛總經(jīng)理欒青指出,當(dāng)前市場(chǎng)對(duì)于大模型的未來發(fā)展及應(yīng)用暫時(shí)處在探索階段,需要各方力量共同努力。中科聞歌創(chuàng)始合伙人兼 CTO 曹家認(rèn)為,我們需要正視本土大模型與國(guó)外以 OpenAI 為首的大模型產(chǎn)品的差距,但本土大模型在中文能力仍具有一定優(yōu)勢(shì)。

  中國(guó)科學(xué)院信息工程研究所研究員張瀟丹表示,雖然大模型正處在蓬勃發(fā)展的時(shí)代,但也存在諸多風(fēng)險(xiǎn)因素,比如虛假信息的生成、語(yǔ)言偏見等,這些風(fēng)險(xiǎn)源自于訓(xùn)練數(shù)據(jù)的偏頗、模型自身邏輯缺陷及缺乏糾錯(cuò)能力等,因此亟需建立大模型的正向價(jià)值體系。

  眾人拾柴火焰高,做大做強(qiáng)AI大模型產(chǎn)業(yè)并不是單單依靠某一家企業(yè)就能夠做到的,生態(tài)的力量尤為重要。李奇表示:“鳳凰衛(wèi)視作為一個(gè)立足香港、背靠?jī)?nèi)地、面向全球發(fā)展的國(guó)際媒體,也將是人工智能時(shí)代的積極參與者,期望發(fā)揮鳳凰的媒體平臺(tái)優(yōu)勢(shì),為產(chǎn)業(yè)界建立一個(gè)共建共享的數(shù)據(jù)平臺(tái),共同推進(jìn)人工智能的快速發(fā)展。”

  微博COO、新浪移動(dòng)CEO、新浪AI媒體研究院院長(zhǎng)王巍也從媒體生產(chǎn)內(nèi)容角度闡述了生態(tài)的重要性。他表示:“圍繞大模型,目前已經(jīng)形成由基礎(chǔ)設(shè)施層、模型層、應(yīng)用層共同構(gòu)成的AIGC生態(tài)體系。對(duì)于媒體而言,AIGC將帶來內(nèi)容生產(chǎn)方式的變革,AIGC 時(shí)代的內(nèi)容質(zhì)量、效率及產(chǎn)量都將迎來高速發(fā)展。在未來,AI將創(chuàng)造出一種新型的‘人機(jī)共存消費(fèi)模式’。”

  智譜AI副總裁劉佳也從生成式AI行業(yè)落地方面分享自己的觀點(diǎn),他表示,隨著 2020 年 ChatGPT 的問世,生成式 AI 步入 “第一階段”。而在當(dāng)前,市場(chǎng)已進(jìn)入 “第二階段”,生成式 AI 開始在千行百業(yè)落地。劉佳形容說,之前我們找到了錘子,現(xiàn)在我們要發(fā)現(xiàn)更多的釘子,讓大模型的能力落地。

  華為云EI產(chǎn)品部部長(zhǎng)尤鵬表示,華為希望和鳳凰衛(wèi)視一起共建數(shù)據(jù)黑土地,共同探索產(chǎn)業(yè)界自下而上的數(shù)據(jù)合作路徑和商業(yè)模式,共同構(gòu)建大模型的“數(shù)據(jù)-算力-商業(yè)”飛輪,推動(dòng)數(shù)據(jù)產(chǎn)業(yè)發(fā)展。

  寫在最后

  如今,大模型發(fā)展勢(shì)如破竹,然而真正實(shí)現(xiàn)行業(yè)化、場(chǎng)景化落地并非易事,這需要從算力、算法、數(shù)據(jù)等方面進(jìn)行努力,同時(shí)也需要從行業(yè)場(chǎng)景需求出發(fā),將大模型進(jìn)行落地。無論哪種模式與方法,都需要產(chǎn)業(yè)上下游進(jìn)行通力協(xié)作,避免閉門造句,以更為開放的數(shù)據(jù)、算法推動(dòng)大模型產(chǎn)業(yè)的發(fā)展。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章