中文在線發(fā)布全球首個(gè)萬字大模型,優(yōu)質(zhì)內(nèi)容在AI時(shí)代如何突圍?
10月13日,中文在線集團(tuán)對外公布全球首個(gè)萬字大模型“中文逍遙1.0”。這同樣是中文在線推出的首個(gè)AIGC(人工智能生成內(nèi)容)產(chǎn)品,首席技術(shù)官吳疆將它的技術(shù)優(yōu)勢總結(jié)為“三個(gè)一”:一鍵生成萬字小說,一張圖片寫一部小說,和一次讀懂一百萬字小說。中文在線創(chuàng)始人童之磊在演講中表示,中文逍遙不僅對現(xiàn)有作家賦能,還通過降低小說寫作門檻讓普通人擁有進(jìn)入內(nèi)容創(chuàng)作的入場券,此外還提高文學(xué)創(chuàng)作者的“盈收能力”。他認(rèn)為,讓創(chuàng)作者賺到應(yīng)得的體面的報(bào)酬,是內(nèi)容爆發(fā),好作品層出不窮的最大密碼,“在創(chuàng)作領(lǐng)域,能幫助創(chuàng)作者賺到錢的大模型,才是好模型。”AI創(chuàng)作與海量內(nèi)容時(shí)代,優(yōu)質(zhì)內(nèi)容價(jià)值更大童之磊提出,中文逍遙解決的第一個(gè)需求是讓作家的創(chuàng)作更容易、高效,創(chuàng)作出更好的作品。“過去也許作家一天可能只能寫幾千字,現(xiàn)在可能就寫上萬字。過去作家可能會(huì)在某個(gè)構(gòu)思上進(jìn)入到卡文的狀態(tài),但是中文逍遙大模型能夠幫助提供更多的構(gòu)思,也許可以讓作家茅塞頓開,創(chuàng)作出更好的作品,這對廣大作家來說是一次‘AI福利’。”他還提到,中文逍遙不僅面向作家,也面向普通人,讓內(nèi)容創(chuàng)作體現(xiàn)出更加繁榮的生態(tài),這對內(nèi)容創(chuàng)作來說是巨大的促進(jìn)。發(fā)布會(huì)上,中文在線產(chǎn)品經(jīng)理林昊也透露自己使用中文逍遙后的寫作收益情況。現(xiàn)場圖片顯示,截至10月11日,林昊一共寫了3萬字,累計(jì)收益403.53元,截圖當(dāng)天的日收益是218.86元。童之磊以一天100元的副業(yè)收入推算,使用中文逍遙輔助網(wǎng)文寫作的話,一個(gè)月至少能掙3000元。面對AI創(chuàng)作帶來的網(wǎng)文供給激增,甚至內(nèi)容同質(zhì)化隱憂,童之磊表示,沒有讀者能夠閱讀市面上所有的網(wǎng)文作品,甚至閱讀十分之一、百分之一的作品都很難。以中文在線頂級編輯為例,他們一年的閱讀量也只能看萬部作品。童之磊認(rèn)為,中國目前每年產(chǎn)生數(shù)以百萬計(jì)的網(wǎng)文作品,早已進(jìn)入海量內(nèi)容時(shí)代,催發(fā)出一套行之有效的內(nèi)容篩選機(jī)制,“無論是十萬、百萬,甚至更多作品,它都會(huì)通過機(jī)器和人的選擇來解決。”另外童之磊也承認(rèn),內(nèi)容大爆發(fā)之際,想要脫穎而出的確更加困難,這對優(yōu)質(zhì)內(nèi)容來說也一樣。但他表示可以從反向邏輯來理解這一內(nèi)容競爭現(xiàn)象,“如果是一個(gè)優(yōu)質(zhì)的、頭部的內(nèi)容,那么它的價(jià)值將會(huì)更大。”中文在線2022年年度報(bào)告提出“決勝IP”的戰(zhàn)略。今年6月28日,中文在線又以51%的股權(quán)宣布成為“寒木春華”控股股東,取得優(yōu)質(zhì)動(dòng)漫IP《羅小黑戰(zhàn)記》的版權(quán)。童之磊在采訪中也表示,中文在線未來會(huì)加大對優(yōu)質(zhì)內(nèi)容的投入。版權(quán)保護(hù),AI亦有責(zé)在回答貝殼財(cái)經(jīng)記者有關(guān)版權(quán)的提問時(shí),童之磊透露,今年5月中文在線與中國版權(quán)協(xié)會(huì)召開座談會(huì)討論了AI數(shù)據(jù)的知識(shí)產(chǎn)權(quán)保護(hù)問題。他表示,大模型訓(xùn)練數(shù)據(jù)的合法性是一個(gè)前沿問題,中國乃至全球都非常關(guān)注這個(gè)問題,也因此產(chǎn)生了許多司法實(shí)踐,但全世界都沒有形成百分之百的共識(shí)。童之磊表示,在建構(gòu)中文逍遙大模型過程中,中文在線把知識(shí)產(chǎn)權(quán)和數(shù)據(jù)保護(hù)放在非常重要的位置。他還表示,自誕生以來,保護(hù)知識(shí)產(chǎn)權(quán)一直都是中文在線的慣例。在AI內(nèi)容創(chuàng)作的反盜版方面,童之磊表示,中文在線此前已經(jīng)基于自有的區(qū)塊鏈技術(shù)建立起版權(quán)保護(hù)的防線,未來也會(huì)將AI技術(shù)運(yùn)用到自身的知識(shí)產(chǎn)權(quán)保護(hù)工作中。有關(guān)大模型的訓(xùn)練數(shù)據(jù),童之磊還提到,探索高質(zhì)量數(shù)據(jù)是全世界所有AI公司或大模型公司的課題,目前大家真正對標(biāo)的對象只有OpenAI。從公開的ChatGPT-3.5來看,ChatGPT的數(shù)據(jù)來源有三個(gè),一是維基百科,二是圖書,三是期刊。其中,維基百科屬于公開的數(shù)據(jù)。童之磊表示,中文逍遙的訓(xùn)練數(shù)據(jù)也主要由上述三類數(shù)據(jù)構(gòu)成,即公開數(shù)據(jù)、圖書和期刊。首先,中文在線創(chuàng)立快23年以來在圖書和期刊領(lǐng)域積累下許多有價(jià)值的、能夠滿足需要的數(shù)據(jù),包括文字和圖片內(nèi)容。其次,中文在線獲取了開放性的公有數(shù)據(jù),例如版權(quán)進(jìn)入公有階段的數(shù)據(jù)。最后還加上與中文在線合作的第三方數(shù)據(jù),包括出版社、音頻內(nèi)容提供機(jī)構(gòu)等等。據(jù)官網(wǎng),中文在線目前擁有550萬種以上的數(shù)字內(nèi)容資源,以及60TB的文字、音頻、視頻數(shù)據(jù)。童之磊在發(fā)布會(huì)和采訪中進(jìn)一步透露,中文在線的高質(zhì)量圖書出版物數(shù)據(jù)超過100萬種。吳疆也表示,從技術(shù)角度來講,大模型需要經(jīng)歷一個(gè)不斷訓(xùn)練數(shù)據(jù),不斷調(diào)試和迭代,跟好的目標(biāo)、內(nèi)容看齊的過程。新京報(bào)貝殼財(cái)經(jīng)見習(xí)記者 韋英姿編輯 覃澈校對 吳興發(fā)
Tags:
相關(guān)推薦
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。