首頁 > AI資訊 > 行業應用 > 王巍:AI創業者、從業者已經站在了時代的潮頭

王巍:AI創業者、從業者已經站在了時代的潮頭

新火種    2024-01-03

12月20日,由中國互聯網協會、微博、新浪新聞主辦的 數字力量,探索無穹 2023探索大會在北京拉開帷幕。微博COO、新浪移動CEO、新浪AI媒體研究院院長王巍分享了題為《大模型崛起 傳媒行業的機遇和挑戰》的演講。

微博COO、新浪移動CEO、新浪AI媒體研究院院長王巍-主題演講

以下是王巍演講實錄,內容經編輯略有刪減:

大家好,作為媒體行業的從業人士,跟大家分享一下、匯報一下,AIGC大語言模型對我們整體的行業,包括對整體的產業界,尤其是媒體方面的一些影響。

剛才我特別同意洪泰基金的盛希泰總說的一句話,每當有一個技術變革,科技革命來臨的時候它會對我們整體的產業界都會產生一個非常、非常大的影響。反過來我們說媒體行業。媒體行業其實一直是技術革命的嘗鮮者、實踐者,不管是信息技術革命的PC互聯網,移動互聯網還是到現在的AIGC時代,賦予我們媒體人非常大的空間、非常大的內容創作和內容想象的空間。所以對于我們來講,我們怎么樣去接受這個挑戰,同時接受這個史無前例的機遇是非常非常重要的。

我們首先可以回顧一下AIGC給我們整體行業帶來的趨勢,經過一年多的熏陶大家也都耳熟能詳了,有文生文,文生圖,文生文大家看到非常多以OpenAI、ChatGPT為代表的。文生圖看到的主要的兩大技術流派,開源的Stable Diffusion,閉源的Midjourney,都是基于Diffusion發散模型做的一些文生圖的嘗試,也非常的成功。文生視頻這個領域,其實最近的一兩個月,有了一個很大的發展。大家看到像Runway,發布的一個叫運動筆刷,可能上個月已經刷屏了,在靜態屏上涂抹一些部分的部位,馬上這個部位就變成一個視頻動起來了。涂抹一只靜態的鳥,涂抹一些交通的汽車的尾氣、煙霧,立馬就變成一個視頻。今天中午我們吃飯的時候還跟臺下坐著的新浪貝博客的前主編聊到,中國的文學對全球的影響,對海外的影響,大家知道是什么?網文,網絡小說是影響最大的,出海最多的。

大家結合文生視頻的角度看的話,我們會發現不單單是網文,可能在不久的將來,由網文構建的文生視頻、短視頻可能也會活躍在海外,也會活躍在我們的全世界。從AIGC整體的技術架構上來看的話,我們是認為分成這樣幾層,最底層的是各種基礎設施,包括各種各樣的云,各種各樣的計算平臺,各種各樣的GPU的硬件,也包括一些AI的開發工具。中間層是各種模型,模型有兩種套路,一種是剛才提到的開源模型,一種是閉源模型,在國內我們有很多大模型的研發廠商,既做開源又做閉源。最上層是百花齊放的應用了,各行業的應用,各個垂直的應用。我們也看到有一些公司是從模型到應用全都是自己做的,這里面典型的代表是Runway。還有一家公司是Character.AI,是做虛擬角色的,在海外非常有名。

這部分我多說兩句,一個我們現在講AIGC,但是大家可能看到的是最早擁抱AIGC的,其實是工程師、是技術人員。我們看到的AIGC前面還有一個叫做AIGD,D就是develop,是以技術奠定基礎的一個生態結構,在這個AIGD的過程當中,我們也看到不管是硬件的,還是軟件的,其實都是有一個非常、非常大的熱度,也有一個非常激烈的競爭環境。

第二點我想表達的是,大家都說千億模型、百億模型、十億模型、百模大戰,大家都在做百模大戰,我個人的觀點,大語言模型相當于是一個百科全書,一個國家不需要100個百科全書。從基礎大模型來講,我們哪一家先接近ChatGPT3.5或者4.0,哪一家就能夠活下來,可能在明年半年到一年之內,我們就能看到勝負結果。更多的我們要去思考的是怎么樣在基礎大模型上面構建更多的垂直應用、垂類大模型,這個其實跟今天早上和下午之前的幾個專家的觀點都是類似的。

當然話說回來,在整體的生態過程當中,如果我們從一個商業化或者是變現能力的角度去看這個問題的話,從目前來看最接近底層的商業化的能力最強,也就是當金山來的時候,賣鏟子的時候是賺到第一筆錢的。

接下來往下說,最新的AIGC,最新的趨勢我們可以先看一下ChatGPTOpenAI的趨勢,今年9月ChatGPT發布的GPT-4V模型指明了一個方向,文生文、文生圖,向多模態發展。在11月初 OpenAI的開發者日 ,又發布了GPT4的Turbo模型,Turbo模型能夠承載128K的內存。其實這128K它反映的是我們大語言模型,或者說人類思維的長記憶、短記憶的問題,承載更多的記憶,對我們的對話、對大語言模型能力的拓展至關重要。當然在這里我們也需要點名表揚一下,國內的大語言模型,今天應該有百川的專家來,我們百川二代模型在發布的時候已經支持192K的上下文環境,192K什么概念?差不多39萬字,基本上能夠裝進一部古典名著在里面了,這也是很了不起的能力,也體現出我們的工程師、我們的技術人員在追趕。

最右側GPTS也是在11月發布的,它其實是針對個性化的大語言模型,個性化的AIGC模型的部署,每個人都有一個AIGC的助手。反過來看,我們看到技術發展得非常快,前兩天已經開始有人被抽中到灰度測試GPT4.5了。中午跟微軟的韋總聊,其實GPT4的3.5和4的試用在去年就開始了,我們先知道像早期OpenAI的投資人在去年就開始試用GPT4。還有一個谷歌,谷歌在12月初發布的Gemini雙子座模型,目前來看它的能力基本上GPT4也都有,但是Gemini發表的模型里面有一個叫做(英)版,可以通過安卓的操作系統直接離線安裝在我們的手機上面,安裝在各位的安卓手機上面,所以將來隨著這個模型的普及,我們的每臺安卓手機就是一個AIGC的助理。事實上Iphone手機也不落后,Iphone手機上也有這樣的離線模型的部署,最火的就是一個APP叫做(英),離線狀態下面就能夠通過一兩分鐘把畫給畫出來,當然還有一些其他的模型。

這個是我們看到的一些最新的趨勢,講了這個行業的趨勢,我們再講講對媒體的影響。對媒體的影響很明顯我一開始也提到過,我們的媒體從信息產業革命,從PC互聯網技術發明以來,我們從PGC時代過渡到移動互聯網的UGC時代,現在毫無疑問我們面臨的其實是一個AIGC的時代。而且AIGC在內容生產、內容制造方面它的效率遠遠超過人類,所以AIGC已經成為了一個創作的主體。

更細地來看,AIGC它全程參與媒體的采集、內容的生產、內容的分發以及內容的呈現形式全階段、全領域的覆蓋。我們以前講叫AI賦能,現在我們已經進入了AI原生,AINative的時代。并且我們以前PC時代講究的是人機交互,人跟機器的交互界面,現在叫做人機共存或者人機共生,以AIGC為代表的機器已經完全成為了一個內容創作的主體、內容分發的主體。

當然了,AIGC給我們媒體帶來很多正面的影響,也有負面的影響。正面影響信息的多樣性,信息的創造力,信息的定制化、個性化,以及早上倪光南院士講的增強搜索,信息的搜索能力得到了一個非常好的提升,非常好的狀態。當然也帶來一些負面,比如說信息的焦慮內容越來越多,會給我們帶來焦慮;比如說信息的真偽,虛假信息的識別難度也加大了。

說到挑戰,很明顯有一個挑戰就是我們所說的幻覺,AIGC給我們帶來的幻覺,說白了就是一本正經的胡說八道。圖上有一個例子,周樹人和魯迅的例子,我們怎么看待這個幻覺的問題,從技術角度來講,大語言模型它其實是一個概率問題,它是通過大量的數據的訓練和人類反饋的增強學習訓練出來的模型,它其實是在猜下一個詞、下一個句子、下一段話,本質意義上來講它其實是猜謎,是個猜字游戲。從這個過程中看到,它的回答是有一定的概率性的,所以其實我們幻覺問題,它是一個與生俱來的大模型的問題,并且需要我們怎么去看這個問題。

從一個機器的角度來講,人類的創新其實是在語言的溝通過程當中不斷地去創造一些東西,不斷地去碰撞出一些火花,它本身就帶來一定的概率性,也就是說概率帶來了創造性。但從另外一個角度來看,浪費我們把大模型模型用在類似于上午百度老總講的醫療健康領域、醫療領域的話,我們可能對這個概率,對這個溫度系數的我們要調的高一點,我們對錯誤的容忍性要低一點。事實上在美國已經有很多醫生尤其是美國叫全科醫生,我們叫內科醫生,已經在用GPT4看病了,它作為一個輔助醫療的看病工具,已經在用了。

除了幻覺問題,我們再看一個問題,也是我們面臨的一個非常大的挑戰 版權問題。屏幕上面兩幅畫,左邊是人畫的,右邊是機器畫的,幾乎是難以識別這是一個非常普遍的問題。但是我們也非常有幸地看到全世界的各個國家立法機構,都在做這方面的努力。今年3月美國的版權局它有一系列的版權針對AIGC的內容,有一系列的版權的識別規定,主要的概念就是說在整個內容的創作過程當中,無論用沒用AIGC,如果用了需要披露,在用的過程當中,如果有人類的參與,它就是認可這個版權;如果完全沒有人類的參與,它其實不認可這個版權的價值貢獻。

中國北京的互聯網法院11月份的時候也做了一次全行業的判決,基本上它的理念也是認可人類在藝術創作過程當中的貢獻,而且把人類當做整個知識創作的主體。也就是說,從法學意義上來講,還是把人類當作一個創作的主體,并沒有把AIGC、并沒有把機器當作一個等同于人類的創作主體,這個很有意思。

我剛才講了,從媒體行業來講,機器已經越來越像一個獨立的創作主體,但是從一個法治的角度來講,我們還是偏向于保護人類的,這個也是對的。對于一個新的技術來講,機遇挑戰并存,但從立法的角度來講它還是需要更保護人類。當然還有更新鮮的事情,今天早上就有一條新聞,不知道大家注意到沒有。巴基斯坦今天早上發布了一條視頻是前任的總統伊姆蘭 汗,他在監獄里面寫了一個筆記,結果有人把他的筆記結合AIGC的數字人技術,做了一個視頻,做了一個非常逼真的演講視頻發布在網上。這個網上的視頻得到了500萬次的播放量,這也是一個可以令我們去思考,令我們去討論的現象。時間關系不多說了。

講講我們的微博做了哪些。我們一直在研究AIGC,一直在研究大語言模型,我們自己本身也在做一些大語言模型研發的工作,我們更多地從一個垂類應用的角度,結合微博的一些特點、社交媒體平臺的特點來應用大語言模型。幾個方面,輔助內容生產,用戶的情感陪伴,其實大語言模型里面有很大的方向就是情感陪伴,根據用戶的需求生成虛擬角色個性化的內容生產,以及部分的替代專業化的生產。

下面有幾個例子,第一個例子是我們的大V的創作助手。大家知道微博上面有很多熱點,活躍在各個領域的大V也非常愿意針對一些熱點去做一些評價,或者做一些博文。但是大V不是樣樣精通的,大V不是對所有的熱點都精通,我們提供給大V這樣一個創作助手,也就是根據微博正在發生的熱點我們用大語言模型學習大V他的語言風格,然后根據不同的熱點我們用機器自動幫大V生成符合他語言特點的博文。這個產品我們在下半年發布,在各個大V的領域已經用起來,而且獲得了正面的評價。

第二個產品是AI明星伴聊。明星擁有眾多的粉絲,粉絲非常愿意跟明星互動,通過私信的方式互動。明星太忙了,或者說他的經紀公司也太忙了,沒辦法回復粉絲的私信。我們就學習明星的語言風格,學習明星在作品里面的故事情節,學習明星在微博上發言的風格,替明星跟他的粉絲互動。這個推出來以后,這個例子應該是劉宇寧本人和他的經紀公司都給到很正面的評價,粉絲也非常喜歡。

第三個虛擬角色賬號。微博上存在非常多的電影、電視劇、綜藝節目,我們利用大語言模型學習了這些影視中節目的內容。它的交互風格,然后給每一個電影熱播劇,給部分的電影熱播劇,當然這個要得到版權方的授權。熱播劇里面的人物、主角設定一些虛擬角色,這個例子其實是今年夏天的熱播劇《長月燼明》,男主角澹臺燼、女主角黎蘇蘇,我們為這兩個角色設定了虛擬賬號,然后用這個虛擬賬號跟我們的網友互動。網友可以發微博可以發評論艾特角色,這個主角就會跟網友、跟他的粉絲互動,也得到了很好的效果。

還有一個星座大模型,這是我們講的垂類大模型之一。我們學習了全網的星座網紅、星座大V陶白白先生,全網大概6000萬粉絲,學習了他的一些語言風格、語言模型,當然他也給我們非常大的一些配合,幫助我們去精挑模型。這個模型在前兩周推出了,網友可以通過一對一的對話,讓陶白白的大語言模型回復星座問題、情感問題、個人的生活發展問題。模型一經推出,陶白白的個人鐵粉量立即翻倍,得到了一個非常好的驗證和認可。

最后有一個總結。剛才哈工大的秦院長也提到了大語言模型與情感價值觀的問題,學界對價值觀還是有一些很激烈的討論的。我們覺得大語言模型基本上現在已經有兩個步驟的訓練,第一個步驟是基于海量語料的預訓練,這個不需要人類干預。第二個過程基于人類反饋的強化學習,ROHF在這個過程當中其實作為我們人類、作為AI的訓練師我們需要去指導AI,需要去指導大模型形成一定的正確的價值觀,也就是人類社會公認的文明邊界,讓我們的大語言模型有這樣的正確的價值觀,這個我覺得我們還是會反復來強調這一點

所以總結來講,我們的AI創業者、我們的AI從業者站在了最好的時間點,我也特別希望我們一起在這樣一個AI科技的基點上面共同努力,擁抱大語言模型,為人類社會的發展、文明的進步貢獻我們的力量。

我的匯報就到這里,謝謝大家!

12月20日,由中國互聯網協會、微博、新浪新聞主辦的 數字力量,探索無穹 2023探索大會在北京拉開帷幕。微博COO、新浪移動CEO、新浪AI媒體研究院院長王巍分享了題為《大模型崛起 傳媒行業的機遇和挑戰》的演講。

微博COO、新浪移動CEO、新浪AI媒體研究院院長王巍-主題演講

以下是王巍演講實錄,內容經編輯略有刪減:

大家好,作為媒體行業的從業人士,跟大家分享一下、匯報一下,AIGC大語言模型對我們整體的行業,包括對整體的產業界,尤其是媒體方面的一些影響。

剛才我特別同意洪泰基金的盛希泰總說的一句話,每當有一個技術變革,科技革命來臨的時候它會對我們整體的產業界都會產生一個非常、非常大的影響。反過來我們說媒體行業。媒體行業其實一直是技術革命的嘗鮮者、實踐者,不管是信息技術革命的PC互聯網,移動互聯網還是到現在的AIGC時代,賦予我們媒體人非常大的空間、非常大的內容創作和內容想象的空間。所以對于我們來講,我們怎么樣去接受這個挑戰,同時接受這個史無前例的機遇是非常非常重要的。

我們首先可以回顧一下AIGC給我們整體行業帶來的趨勢,經過一年多的熏陶大家也都耳熟能詳了,有文生文,文生圖,文生文大家看到非常多以OpenAI、ChatGPT為代表的。文生圖看到的主要的兩大技術流派,開源的Stable Diffusion,閉源的Midjourney,都是基于Diffusion發散模型做的一些文生圖的嘗試,也非常的成功。文生視頻這個領域,其實最近的一兩個月,有了一個很大的發展。大家看到像Runway,發布的一個叫運動筆刷,可能上個月已經刷屏了,在靜態屏上涂抹一些部分的部位,馬上這個部位就變成一個視頻動起來了。涂抹一只靜態的鳥,涂抹一些交通的汽車的尾氣、煙霧,立馬就變成一個視頻。今天中午我們吃飯的時候還跟臺下坐著的新浪貝博客的前主編聊到,中國的文學對全球的影響,對海外的影響,大家知道是什么?網文,網絡小說是影響最大的,出海最多的。

大家結合文生視頻的角度看的話,我們會發現不單單是網文,可能在不久的將來,由網文構建的文生視頻、短視頻可能也會活躍在海外,也會活躍在我們的全世界。從AIGC整體的技術架構上來看的話,我們是認為分成這樣幾層,最底層的是各種基礎設施,包括各種各樣的云,各種各樣的計算平臺,各種各樣的GPU的硬件,也包括一些AI的開發工具。中間層是各種模型,模型有兩種套路,一種是剛才提到的開源模型,一種是閉源模型,在國內我們有很多大模型的研發廠商,既做開源又做閉源。最上層是百花齊放的應用了,各行業的應用,各個垂直的應用。我們也看到有一些公司是從模型到應用全都是自己做的,這里面典型的代表是Runway。還有一家公司是Character.AI,是做虛擬角色的,在海外非常有名。

這部分我多說兩句,一個我們現在講AIGC,但是大家可能看到的是最早擁抱AIGC的,其實是工程師、是技術人員。我們看到的AIGC前面還有一個叫做AIGD,D就是develop,是以技術奠定基礎的一個生態結構,在這個AIGD的過程當中,我們也看到不管是硬件的,還是軟件的,其實都是有一個非常、非常大的熱度,也有一個非常激烈的競爭環境。

第二點我想表達的是,大家都說千億模型、百億模型、十億模型、百模大戰,大家都在做百模大戰,我個人的觀點,大語言模型相當于是一個百科全書,一個國家不需要100個百科全書。從基礎大模型來講,我們哪一家先接近ChatGPT3.5或者4.0,哪一家就能夠活下來,可能在明年半年到一年之內,我們就能看到勝負結果。更多的我們要去思考的是怎么樣在基礎大模型上面構建更多的垂直應用、垂類大模型,這個其實跟今天早上和下午之前的幾個專家的觀點都是類似的。

當然話說回來,在整體的生態過程當中,如果我們從一個商業化或者是變現能力的角度去看這個問題的話,從目前來看最接近底層的商業化的能力最強,也就是當金山來的時候,賣鏟子的時候是賺到第一筆錢的。

接下來往下說,最新的AIGC,最新的趨勢我們可以先看一下ChatGPTOpenAI的趨勢,今年9月ChatGPT發布的GPT-4V模型指明了一個方向,文生文、文生圖,向多模態發展。在11月初 OpenAI的開發者日 ,又發布了GPT4的Turbo模型,Turbo模型能夠承載128K的內存。其實這128K它反映的是我們大語言模型,或者說人類思維的長記憶、短記憶的問題,承載更多的記憶,對我們的對話、對大語言模型能力的拓展至關重要。當然在這里我們也需要點名表揚一下,國內的大語言模型,今天應該有百川的專家來,我們百川二代模型在發布的時候已經支持192K的上下文環境,192K什么概念?差不多39萬字,基本上能夠裝進一部古典名著在里面了,這也是很了不起的能力,也體現出我們的工程師、我們的技術人員在追趕。

最右側GPTS也是在11月發布的,它其實是針對個性化的大語言模型,個性化的AIGC模型的部署,每個人都有一個AIGC的助手。反過來看,我們看到技術發展得非常快,前兩天已經開始有人被抽中到灰度測試GPT4.5了。中午跟微軟的韋總聊,其實GPT4的3.5和4的試用在去年就開始了,我們先知道像早期OpenAI的投資人在去年就開始試用GPT4。還有一個谷歌,谷歌在12月初發布的Gemini雙子座模型,目前來看它的能力基本上GPT4也都有,但是Gemini發表的模型里面有一個叫做(英)版,可以通過安卓的操作系統直接離線安裝在我們的手機上面,安裝在各位的安卓手機上面,所以將來隨著這個模型的普及,我們的每臺安卓手機就是一個AIGC的助理。事實上Iphone手機也不落后,Iphone手機上也有這樣的離線模型的部署,最火的就是一個APP叫做(英),離線狀態下面就能夠通過一兩分鐘把畫給畫出來,當然還有一些其他的模型。

這個是我們看到的一些最新的趨勢,講了這個行業的趨勢,我們再講講對媒體的影響。對媒體的影響很明顯我一開始也提到過,我們的媒體從信息產業革命,從PC互聯網技術發明以來,我們從PGC時代過渡到移動互聯網的UGC時代,現在毫無疑問我們面臨的其實是一個AIGC的時代。而且AIGC在內容生產、內容制造方面它的效率遠遠超過人類,所以AIGC已經成為了一個創作的主體。

更細地來看,AIGC它全程參與媒體的采集、內容的生產、內容的分發以及內容的呈現形式全階段、全領域的覆蓋。我們以前講叫AI賦能,現在我們已經進入了AI原生,AINative的時代。并且我們以前PC時代講究的是人機交互,人跟機器的交互界面,現在叫做人機共存或者人機共生,以AIGC為代表的機器已經完全成為了一個內容創作的主體、內容分發的主體。

當然了,AIGC給我們媒體帶來很多正面的影響,也有負面的影響。正面影響信息的多樣性,信息的創造力,信息的定制化、個性化,以及早上倪光南院士講的增強搜索,信息的搜索能力得到了一個非常好的提升,非常好的狀態。當然也帶來一些負面,比如說信息的焦慮內容越來越多,會給我們帶來焦慮;比如說信息的真偽,虛假信息的識別難度也加大了。

說到挑戰,很明顯有一個挑戰就是我們所說的幻覺,AIGC給我們帶來的幻覺,說白了就是一本正經的胡說八道。圖上有一個例子,周樹人和魯迅的例子,我們怎么看待這個幻覺的問題,從技術角度來講,大語言模型它其實是一個概率問題,它是通過大量的數據的訓練和人類反饋的增強學習訓練出來的模型,它其實是在猜下一個詞、下一個句子、下一段話,本質意義上來講它其實是猜謎,是個猜字游戲。從這個過程中看到,它的回答是有一定的概率性的,所以其實我們幻覺問題,它是一個與生俱來的大模型的問題,并且需要我們怎么去看這個問題。

從一個機器的角度來講,人類的創新其實是在語言的溝通過程當中不斷地去創造一些東西,不斷地去碰撞出一些火花,它本身就帶來一定的概率性,也就是說概率帶來了創造性。但從另外一個角度來看,浪費我們把大模型模型用在類似于上午百度老總講的醫療健康領域、醫療領域的話,我們可能對這個概率,對這個溫度系數的我們要調的高一點,我們對錯誤的容忍性要低一點。事實上在美國已經有很多醫生尤其是美國叫全科醫生,我們叫內科醫生,已經在用GPT4看病了,它作為一個輔助醫療的看病工具,已經在用了。

除了幻覺問題,我們再看一個問題,也是我們面臨的一個非常大的挑戰 版權問題。屏幕上面兩幅畫,左邊是人畫的,右邊是機器畫的,幾乎是難以識別這是一個非常普遍的問題。但是我們也非常有幸地看到全世界的各個國家立法機構,都在做這方面的努力。今年3月美國的版權局它有一系列的版權針對AIGC的內容,有一系列的版權的識別規定,主要的概念就是說在整個內容的創作過程當中,無論用沒用AIGC,如果用了需要披露,在用的過程當中,如果有人類的參與,它就是認可這個版權;如果完全沒有人類的參與,它其實不認可這個版權的價值貢獻。

中國北京的互聯網法院11月份的時候也做了一次全行業的判決,基本上它的理念也是認可人類在藝術創作過程當中的貢獻,而且把人類當做整個知識創作的主體。也就是說,從法學意義上來講,還是把人類當作一個創作的主體,并沒有把AIGC、并沒有把機器當作一個等同于人類的創作主體,這個很有意思。

我剛才講了,從媒體行業來講,機器已經越來越像一個獨立的創作主體,但是從一個法治的角度來講,我們還是偏向于保護人類的,這個也是對的。對于一個新的技術來講,機遇挑戰并存,但從立法的角度來講它還是需要更保護人類。當然還有更新鮮的事情,今天早上就有一條新聞,不知道大家注意到沒有。巴基斯坦今天早上發布了一條視頻是前任的總統伊姆蘭 汗,他在監獄里面寫了一個筆記,結果有人把他的筆記結合AIGC的數字人技術,做了一個視頻,做了一個非常逼真的演講視頻發布在網上。這個網上的視頻得到了500萬次的播放量,這也是一個可以令我們去思考,令我們去討論的現象。時間關系不多說了。

講講我們的微博做了哪些。我們一直在研究AIGC,一直在研究大語言模型,我們自己本身也在做一些大語言模型研發的工作,我們更多地從一個垂類應用的角度,結合微博的一些特點、社交媒體平臺的特點來應用大語言模型。幾個方面,輔助內容生產,用戶的情感陪伴,其實大語言模型里面有很大的方向就是情感陪伴,根據用戶的需求生成虛擬角色個性化的內容生產,以及部分的替代專業化的生產。

下面有幾個例子,第一個例子是我們的大V的創作助手。大家知道微博上面有很多熱點,活躍在各個領域的大V也非常愿意針對一些熱點去做一些評價,或者做一些博文。但是大V不是樣樣精通的,大V不是對所有的熱點都精通,我們提供給大V這樣一個創作助手,也就是根據微博正在發生的熱點我們用大語言模型學習大V他的語言風格,然后根據不同的熱點我們用機器自動幫大V生成符合他語言特點的博文。這個產品我們在下半年發布,在各個大V的領域已經用起來,而且獲得了正面的評價。

第二個產品是AI明星伴聊。明星擁有眾多的粉絲,粉絲非常愿意跟明星互動,通過私信的方式互動。明星太忙了,或者說他的經紀公司也太忙了,沒辦法回復粉絲的私信。我們就學習明星的語言風格,學習明星在作品里面的故事情節,學習明星在微博上發言的風格,替明星跟他的粉絲互動。這個推出來以后,這個例子應該是劉宇寧本人和他的經紀公司都給到很正面的評價,粉絲也非常喜歡。

第三個虛擬角色賬號。微博上存在非常多的電影、電視劇、綜藝節目,我們利用大語言模型學習了這些影視中節目的內容。它的交互風格,然后給每一個電影熱播劇,給部分的電影熱播劇,當然這個要得到版權方的授權。熱播劇里面的人物、主角設定一些虛擬角色,這個例子其實是今年夏天的熱播劇《長月燼明》,男主角澹臺燼、女主角黎蘇蘇,我們為這兩個角色設定了虛擬賬號,然后用這個虛擬賬號跟我們的網友互動。網友可以發微博可以發評論艾特角色,這個主角就會跟網友、跟他的粉絲互動,也得到了很好的效果。

還有一個星座大模型,這是我們講的垂類大模型之一。我們學習了全網的星座網紅、星座大V陶白白先生,全網大概6000萬粉絲,學習了他的一些語言風格、語言模型,當然他也給我們非常大的一些配合,幫助我們去精挑模型。這個模型在前兩周推出了,網友可以通過一對一的對話,讓陶白白的大語言模型回復星座問題、情感問題、個人的生活發展問題。模型一經推出,陶白白的個人鐵粉量立即翻倍,得到了一個非常好的驗證和認可。

最后有一個總結。剛才哈工大的秦院長也提到了大語言模型與情感價值觀的問題,學界對價值觀還是有一些很激烈的討論的。我們覺得大語言模型基本上現在已經有兩個步驟的訓練,第一個步驟是基于海量語料的預訓練,這個不需要人類干預。第二個過程基于人類反饋的強化學習,ROHF在這個過程當中其實作為我們人類、作為AI的訓練師我們需要去指導AI,需要去指導大模型形成一定的正確的價值觀,也就是人類社會公認的文明邊界,讓我們的大語言模型有這樣的正確的價值觀,這個我覺得我們還是會反復來強調這一點

所以總結來講,我們的AI創業者、我們的AI從業者站在了最好的時間點,我也特別希望我們一起在這樣一個AI科技的基點上面共同努力,擁抱大語言模型,為人類社會的發展、文明的進步貢獻我們的力量。

我的匯報就到這里,謝謝大家!

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章