鳳凰衛視發布首批高質量數據集!推出AI數據業務,AI訓練平臺明年5月上線
作者 | 香草
編輯 | 李水青
智東西11月14日報道,昨日下午,鳳凰衛視于北京主辦了主題為“數聚未來”的鳳凰大模型數據研討沙龍。會上,鳳凰衛視融媒體研發副經理馮偉發布了鳳凰首批高質量數據集,包括中文訪談對話、正向價值對齊兩個數據集,標志著鳳凰衛視正式進軍人工智能(AI)領域。
馮偉稱,鳳凰衛視之后將發布包括財經評論、視頻問答、談話活動、語音合成等方面的更多數據集,旗下AI訓練平臺也即將開放內測。
馮偉還公布了鳳凰衛視2024年的行動計劃時間表,其第2至4批數據集將分別于3月、7月、11月發布,AI訓練平臺將于5月上線,還將于4月和6月分別舉辦科技峰會和AI數據挑戰賽。
▲鳳凰衛視2024年AI行動計劃
研討會上,來自智譜AI、微博、中科聞歌等企業的行業代表分享了關于大模型數據、應用落地等方面的實踐。
智東西等少數媒體對中科聞歌創始合伙人兼CTO曹家進行了采訪。曹家向智東西分享了雅意大模型的最新進展,目前中科聞歌正在將模型加速技術、語速壓縮技術、安全可控技術等應用到最新的模型架構中,預計會在下個月發布新的進展。
一、推出全新鳳凰數據業務,發布兩大中文特色數據集
馮偉談道,鳳凰衛視作為海外最大的華語傳媒集團,一直堅持傳播中華文化,覆蓋全球電視觀眾超過5億,海外新媒體受眾接近1億。
在AI革命下,以ChatGPT為代表的AI技術對傳統的媒體和傳播方式帶來了新的挑戰,也帶來了新的機遇和可能性。
鳳凰衛視經過幾個月的調研,認為高質量的數據語料庫是AI時代承載中華文化的一個新載體。
因此,鳳凰衛視正式推出全新的業務——鳳凰數據。
該業務主要包含兩個方面,一是建設基于鳳凰特色數據的高質量數據集市,二是以數據為中心的AI訓練平臺。
▲馮偉解讀鳳凰數據業務全景
鳳凰的數據有什么特色?馮偉談道,訪談和評論類的節目是其非常大的一個特色,這些節目中蘊含著大量的話題、知識和內容,尤其是針對同一話題的持續多輪問答,將為AI大模型的訓練提供優質的語料庫。此外,鳳凰每天都生產著大量的多模態內容,為多模態大模型提供了優質的數據基礎。
在版權方面,鳳凰數據集基于鳳凰自身內容進行加工生產,無論是從版權的合規,還是從內容的可持續性,都是鳳凰數據的天然屬性。而客觀、中立,始終是鳳凰作為一家媒體的核心報道原則,這也從數據源頭保證了數據集的質量。
現場,馮偉發布了首批鳳凰大模型——中文訪談對話數據集、正向價值對齊數據集。
中文訪談對話數據集基于鳳凰衛視的訪談內容加工生成,規模達百萬輪次,平均對話輪次超過30輪,包含傳統文化、財經科技等話題,并具備完整的上下文信息。
除了上下文以外,數據集中還額外補充了知識政策、第三方信息或者一些專業的概念,鳳凰也基于自有的知識體系,完善了數據集的安全合規,并持續更新。
▲馮偉發布中文訪談對話數據集
正向價值對齊數據集則是以鳳凰本身以及權威團隊的科研成果作為指導,由專業的內容團隊人工撰寫而成,規模達到10萬問答對,每個問答對中包含正向和負向的相關回答,用于提升模型訓練的魯棒性。
馮偉稱,該數據集也會定期持續更新,并豐富數據種類。面向多模態場景,鳳凰后續也會發布不同模態的正向價值對齊數據集。
▲馮偉發布正向價值對齊數據集
此外,馮偉稱公司近期正在緊鑼密鼓地準備更多數據集,包括面向財經領域的財經評論數據集,面向視頻理解領域的視頻問答數據集、面向數字人領域的談話動作和語音合成數據集等,旗下AI訓練平臺也即將開放內測。
根據公開的2024年行動計劃時間表,第2批數據集將于明年3月發布,7月、11月將依次發布第3批、第4批數據集,AI訓練平臺將于5月上線,還將舉行“Link+科技峰會”和“AI數據挑戰賽”等系列活動。
面向高校及科研院所,鳳凰衛視發布了“鳳凰智媒AI筑巢計劃”,提供部分數據集的免費授權,以助力學術研究和創新。鳳凰AI數據官網于發布會當天正式上線,為行業客戶提供數據集試用下載服務。
二、對話中科聞歌CTO曹家:大模型落地垂直領域需要行業認知,新模型架構下月發布
現場,中科聞歌創始合伙人兼CTO曹家作為嘉賓接受了智東西等少數媒體的采訪。
▲曹家接受智東西等少數媒體的采訪
當智東西問道,中科聞歌目前已經接洽了哪些領域的客戶?中科聞歌的大模型方案能為他們帶來哪些行業價值?相比于同類創企,公司的“護城河”是什么?
曹家稱,中科聞歌的雅意大模型目前在安全、媒體、金融、輿情等領域落地較多。
對于媒體行業,雅意大模型可以提供選題推薦、輔助稿件寫作以及輔助視頻播報內容的制作。
對于金融行業,可以輔助金融快報的制作,以秒為單位將上市企業十幾篇的公告轉換為幾十或百字以內的快報,如果由人來做的話,花費的時間成本將是小時級。
針對輿情場景,落地的場景包括對輿情、熱點的感知、資訊的總結以及事件脈絡的洞察,對這些內容的分析以及輿情研報的輔助撰寫。
總的來說,雅意大模型一直聚焦到垂直品類、垂直場景的應用。
而談到公司的“護城河”,曹家認為,針對這些領域應用場景的認知,是非常關鍵的一點。
通用大模型之所以很難向領域落地,很大的原因是在于“行話”的存在,領域內的專業知識需要長時間的積累。
中科聞歌現在能在安全、媒體、輿情、金融等領域直接落地,除了大量的領域知識外,還有對行業的深度認知。
此外,中科聞歌有大量的應用級平臺產品與客戶的業務進行深度綁定運作,在這種情況下,雅意大模型的能力在其中發揮的作用不再是“1+1”的結果,而是系數甚至指數級的增強。
當智東西問道,距離雅意大模型發布已5個月了,注意到官網文檔里寫道“公司正在重新設計大模型架構”,中科聞歌目前有什么可以分享的技術方面的進展或者時間表?
曹家稱,雅意大模型從6月份發布以來,中間也進行了很多迭代,目前有很多新的技術在應用到新的模型架構當中,包括模型加速技術、語速壓縮技術以及安全可控類的技術,新架構的模型預計將在下個月發布。
在語速壓縮上,中科聞歌現在新的技術采用中文語速,而不是傳統方式進行壓縮,實現了1個Token對應1.2個文字,在有限的算力下實現中文推理速度的極大提升。
關于與鳳凰數據合作的潛在可能性,曹家談道,一方面鳳凰數據集的質量很高,多輪對話、正向對齊等數據將對大模型能力有很大的提升;另一方面,雅意大模型的能力也能通過AI加速AI的方式,幫助鳳凰數據構建更高質量的數據集。
三、生成式AI進入第二階段,變革媒體等千行百業的內容生產方式
微博COO、新浪移動CEO、新浪AI媒體研究院院長王巍解讀了生成式人工智能(AIGC)對媒體行業的影響,媒體應用AIGC技術面臨的挑戰以及數據賦能AIGC在微博多場景的應用。
▲微博COO、新浪移動CEO、新浪AI媒體研究院院長王巍
王巍稱,AIGC將對媒體行業帶來內容生產方式上的變革,內容生產從最初的專業生成內容(PGC),發展到用戶生成內容(UGC),再到現在的AIGC,逐步向高質量、高效率、高產量的方向發展。
在這個過程中,AI成為重塑產業生態的關鍵環節。內容生產逐漸從AI賦能,過渡為AI原生。
但媒體應用AIGC技術也面臨挑戰,其中最為突出的便是“幻覺”和版權兩大問題。
王巍認為,應當辯證地看待“幻覺”問題。一方面,創作就是在不斷的試錯中完善和創新的,要允許大模型出錯;另一方面,在不同的應用場景中,如藝術創作,對錯誤的容忍度會更高一些。而版權問題,則需要立法機構出臺相關的監管措施。
▲王巍解讀媒體應用AIGC面臨的幻覺挑戰
王巍解讀了微博在AIGC方面的應用實踐,包括針對大V博主推出的AI創作助手、針對明星和粉絲群體推出的AI明星伴聊、針對劇綜中的虛擬角色推出的虛擬角色賬號以及基于AIGC技術構建的星座領域大模型等。
▲微博推出的AI創作助手
智譜AI副總裁劉佳分享了智譜AI的ChatGLM認知大模型在數據上的最佳實踐。
劉佳談道,隨著2020年ChatGPT的問世,AIGC步入“第一階段”。而現在,市場已進入“第二階段”,AIGC開始在千行百業落地,“之前我們找到了錘子,現在我們要發現更多的釘子,讓大模型的能力應用落地?!?/p>
▲智譜AI副總裁劉佳
劉佳稱,2020年,智譜AI開啟了大模型研發,2021年便發布了第一個自研百億大模型。在智譜AI大模型的迭代過程中,劉佳認為,其2022年8月發布的開源雙語千億大模型GLM-130B是較為重要的節點,該模型也成為后續所有模型的基座模型。
▲劉佳談智譜GLM系列模型發展歷程
上個月,智譜AI推出第三代基座大模型ChatGLM3及相關系列產品,瞄向GPT-4V進行了多模態理解能力、代碼能力、網絡搜索能力以及語義能力與邏輯能力的大幅增強。ChatGLM3還帶來了全新的Agent智能體能力,并推出可手機部署的端側模型ChatGLM3-1.5B和ChatGLM3-3B。
結語:大模型落地垂類領域,優質數據集不可或缺
數據作為大模型三要素之一,發揮著至關重要的作用。不同于網絡上抓取的數據集,可能包含廣告、冗余信息、有害信息等,鳳凰數據此次發布的數據集從數據源頭上對此類信息進行了隔絕,保障了數據質量。
隨著OpenAI上周推出自定義GPT等,AI助手的構建門檻逐漸降低。不同于C端用戶,B端用戶對大模型解決方案的需求更加注重數據安全、合規等,對領域的認知、專業知識的長期積累可能成為AI企業有力的“護城河”。
未來,我們期待看到更多優秀的國內企業在AI領域嶄露頭角。
“特別聲明:以上作品內容(包括在內的視頻、圖片或音頻)為鳳凰網旗下自媒體平臺“大風號”用戶上傳并發布,本平臺僅提供信息存儲空間服務。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。