書生浦語靈筆開源之后,「007作家」能否走向工位?
作者丨郭 思
編輯丨陳彩嫻
目前,開源大模型已經成為AI領域中的熱門話題。
中信所報告近期指出,目前超過一半國內發布的大模型已經實現了開源,其中開源的主力是高校和科研機構,如清華大學的ChatGLM-68、復旦大學的MOSS以及百度的文心系列大模型。在這其中,自然語言處理是大模型研發最活躍的領域。
易于使用、開放性、高質量、免費是開源大模型現階段備受追捧的顯著特征。
開源一個7B或20B的大模型成為了不那么稀奇的事件,但技術發展行至深處,人們猛然發現,同質化競爭之下,開源大模型能否從空中樓閣變成實際的生產力,成為了賽事角逐的關鍵。
近日,在開源浪潮之下,上海人工智能實驗室(上海AI實驗室)推出圖文混合創作大模型書生·浦語靈筆(InternLM-XComposer,以下簡稱“浦語靈筆”)。
目前,浦語靈筆已開源其中的智能創作和對話(InternLM-XComposer-7B)及多任務預訓練(InternLM-XComposer-VL-7B)版本,并提供免費商用。
相比起市面上千篇一律的聊天助手,浦語靈筆另辟蹊徑,沒有選擇拓寬做對話形式,而是轉向了大語言模型的長文本能力以及圖文多模態能力?,F階段,浦語靈筆能接受視覺和語言模態輸入,不僅在圖文對話方面表現優秀,更具備圖文并茂文章的“一鍵生成”能力。
簡而言之,搭載了浦語靈筆的應用,將會變得會寫長文,也會根據文章內容進行插圖,儼然一幅AI坐在工位上開始充當小編的模樣。更為重要的是,這個小編是007工作制,可以24小時不用休息。
而當書生浦語靈筆團隊打響開源大模型在實際應用的第一槍之后,幾個值得思考的問題涌入了大眾的腦海,開源大模型從技術到應用存在哪些壁壘?又該如何突破?面對同質化競爭,如浦語靈筆團隊一般走出一條創新之路需要哪些要素?
1、當大模型學會文配圖
人工智能寫文章難嗎?
其實也不難,只要輸入關鍵詞,提出需求,絕大多數的產品都能丟出一份500字的小作文。
但是一旦將需求改成1000字或者2000字,大部分產品都會顯示無法執行。
現在主流的大語言模型大都只支持短文本的輸入(LLaMa支持2k tokens、Llama2支持4k tokens)。
而日常生活中,長文其實會更加嚴肅,也更符合工作需求。
只是不斷趨近于人類的大模型也有人類普遍擁有的「懶」病。
早在今年6月份斯坦福大學、加州大學伯克利分校和 Samaya AI 的研究者發布了一篇實證研究論文,深入探討了大模型的懶病問題,如果上下文過長,LLM會更多地關注起始和末尾部分,而幾乎忽略中間部分的信息。這種現象導致模型難以找到并利用放在長文中部的相關信息。
大眾苦大模型長文本能力久矣。
長文本能力也是各家發力的重點,10月,楊植麟創業AI公司月之暗面(Moonshot AI)推出了首款大模型產品智能助手Kimi Chat,主打的就是,千億參數大模型,支持輸入的長文本首次達20萬x字。香港中文大學賈佳亞團隊聯合MIT近期也宣布了一項新研究,發布全球首個70B參數的長文本開源大語言模型——LongAlpaca。
從今年7月起,上海AI實驗室便陸續開源了書生·浦語大語言模型的7B(InterLM-7B)及20B(InternLM-20B)版本。
模型參數雖然沒有那么大,但是書生浦語20B(InternLM-20B)版本硬是憑著先進的性能以及應用的便捷性達到了當前被視為開源模型標桿的Llama2-70B的能力水平。
現階段書生·浦語——InternLM-20B最高支持16k語境長度,對長文本理解能力更強。InternLM-20B 在超過 2.3T Tokens 、包含高質量英文、中文和代碼的數據上進行預訓練。
基于書生·浦語大語言模型(InternLM),浦語靈筆也有強大的長文理解能力。
如果說長文本能力是大模型寫作各家追逐的一個卡點,那么如何讓AI更好的像人一樣掌握全流程工作技能,便是模擬一個真正的工種的關鍵。
信息化時代,一篇成品的文章,很少會只有一段文字。
無圖無真相,是大眾對信息傳播新的要求與期待。
普遍的寫文需求是,當寫完了一篇長文之后,人們往往需要判斷,在哪個地方需要插圖。
對人而言,這很簡單,但是對大模型而言,這意味很高的要求。為這個任務足夠主觀,同樣一篇文章交給不同的編輯會有不同的呈現效果。
怎樣讓大模型去理解這個任務呢,其實這便要求書生浦語靈筆有強大的圖文多模態理解能力。
首先,這需要大模型對文章的內容有一個很好的理解。也需要對整個候選圖庫里面幾千萬張圖有很好的認識。比如涉及最近熱門的科學養寵的話題,大模型需要根據文章類別判斷,整篇文章是需要寵物的圖片還是狗糧的圖片。
另一方面,大模型也需要對整體文章風格有充分的認識。一篇輕松歡快的文章最好能配上明亮、快樂的照片,如果討論的話題比較沉重,就應該偏嚴肅,帶灰調。
按照這個理解,這就要求在在技術實現上,大模型必須實現像人類一樣多步思考,把握全局的能力。
為了實現這一點,浦語靈筆采用了多階段的訓練策略,在大規模的圖文數據集上進行多模態預訓練,學習圖文之間的關聯和對齊,然后在多個具體的任務數據集上進行多任務訓練,提升模型在各個任務上的性能。
預訓練和多任務訓練的過程中,浦語靈筆使用了多種自定義的損失函數和評價指標,以適應不同的任務需求。
靈筆的「三步走」的算法流程也正是模擬人類進行工作的多階段細化。
浦語靈筆圖文文章創作流程
浦語靈筆會先去理解用戶指令,創作符合主題要求的長文章,然后會進行智能分析文章,模型自動規劃插圖的理想位置,并生成所需圖像的內容要求。
進行完這兩步之后,如果人類作為一個監工去審查大模型的工作,我們會發現結果可能還是不夠理想,有可能模型規劃的位置不對,也可能選取的圖像與描述不相符合。
浦語靈筆團隊在進行構思時,也考慮到了這一可能,多層次智能篩選,便是浦語靈筆能做到的第三步,也是極為關鍵的一步。
利用多模態大模型強大的圖像理解能力,浦語靈筆會從圖庫粗選出來4張或者 8 張候選圖,之后模型會根據文章上下文,基于對圖像內容的精細理解,從所有的候選圖里挑選一張他認為最合適的,完成選圖過程。
在這一步,浦語靈筆的圖文混合創作能力得以完美體現,而這個能力的先決條件便是得先有圖文理解能力?,F有的 NLP 模型能理解文字,但是無法做到理解圖像,這是浦語靈筆與市面上其他語言大模型最核心的區別之一。
現階段,靈筆的圖像理解能力在多個多模態大模型的評測上都達到了最高的性能。
足夠智能的底層其實是十分扎實與卓越的基礎能力。
浦語靈筆與其他開源模型的性能對比
2、開源大模型走向應用需要幾步走?
大模型落地的產品形態同質化已經成為了中國市場的無形枷鎖。
這件事情在沒有大模型開源模式還沒出現之前是如此,在大模型陸續開源之后也是如此。
將ChatGPT單詞拆分,絕大多數都關注到了Chat,于是對話式產品層出不窮。百模大戰,100個產品里有90個都是對話形式。
AI產品仿佛陷入了一個魔咒,一邊是熱絡的行業氛圍和資本市場,一邊是大量AI產品以同質化、雷同化的形象出現在市場上。
其實這也折射出新興技術轉化為生產力的必經歷程。
頂層的設計往往充滿著不確定性,而市場的判斷卻是樸素而直接的:誰能給我帶來收益和更多的價值,誰就是對于我有用的。
所以產業界才會一窩蜂的追尋噱頭與熱點。市面也才會出現那么多大大小小的聊天機器人。
而我們回歸問題本身,會發現產品同質化是表現,隨波逐流的思維定式本身才是疾病。
正如ChatGPT出現時,大家最先關注的只是Chat一樣,如果只圍著一種形式發展與思考,出來的東西必然沒有創新的靈魂。
但如果關注ChatGPT的內核,便可以發現大模型體現出來的是更強的泛化性能力,能夠在更多領域帶來通用的智能化變革。大模型帶來的革命最終還是要回歸到技術本身的價值,要應用和落地,不會永遠的只是一個聊天的Demo。
開源大模型走向應用的第一步先得從思維上打破定式。
在進行大模型開源的時候,我們如何看待大模型?
眾所周知,大語言模型的基本原理是仿生——用“數學參數”模擬人腦的“神經元突觸”,當參數超過1000億個,就可以認為它是“大”模型了。
普遍的認知是,參數夠大便是大語言模型。
但如果重讀大語言模型的基本原理,會發現,模擬人腦也是大語言模型的一個顯著特征。
而在上海人工智能實驗室領軍科學家林達華看來,如果把大語言模型看成是某一個模態對世界的理解與感知的模型,就會相當局限,看待大語言模型,我們應該將它理解成為一個中樞的大腦,可以調用各種工具,跟這個世界發生各種各樣的交互。
比如說跟一個機器人結合,讓機器人從原來只有小腦變成多了一個大腦,能干很多很豐富的事情。也可以和具體的提供服務的網站去結合,電商也好,購物也好,用戶可以對跟網站進行交互,從一個簡單的檢索變成了更豐富的獲取信息的方式等等。
浦語靈筆的構想最開始來自于團隊成員的真實需求。
書生浦語靈筆的團隊負責人王佳琦在一次使用ChatGPT之時,發現自己大多時候都只想用ChatGPT來創造文本。
「要是生成完文章之后,可以直接配圖就好?!?/p>
借由這個思考,上海人工智能實驗室從4月開始便著手構建了書生·浦語靈筆的項目。
而在打破思維定式之后,開源大模型走向應用還得在技術設計上「立」得住。
眾所周知,開源為技術創新提供了廣闊的舞臺。通過開源,企業可以共享自身研發的技術成果,促進技術的交流和融合。因為只有來自底層使用者的心聲,才是進行技術改進最好的源動力。
Github、阿里的魔搭、百度文心一言的AI Studio星河大模型社區,都是想在活躍的社區氛圍中探索商業變現的渠道。
此前在世界互聯網大會數字文明尼山對話上,百度創始人李彥宏就曾曾指出“新的國際競爭戰略關鍵點,不是一個國家有多少個大模型,而是你的大模型上有多少原生的AI應用,這些應用在多大程度上提升了生產效率”。顯然,開源大模型要想立住自己的核心競爭力,開發者社群是一個非常關鍵的要素。
在與AI科技評論的交流中,浦語靈筆團隊反復多次提到“用戶說”“社群反饋”這樣的字樣,然后解釋浦語靈筆后階段會如何根據這些信息進行性能上的提升。
從這一點上而言,當一個研究團隊沒有閉門造車,而是不斷地與產業界交流,思考自己的方向的改進,看似很理所當然,卻又是十分影響成敗的關鍵細節。
現階段,浦語靈筆的角色定位十分清晰,產生的影響也十分明顯。
「靈筆做好之后,確實能夠成為有效的生產力工具,能夠讓大家去進行一個很好的文字圖文創作工具,有一個小編他可能要寫一個知乎專欄,或者要寫微信公眾號,需要這種圖文交錯的創作情況下,靈筆能做得很好。我們的角色相當于是給大家去做示范,這個事情是可行的?!?/p>
原子彈最有用的價值,是他能被造出來。
書生浦語靈筆的開源,也同樣為了讓整個行業有多一點點的思考。
究竟自己在整個浪潮中處于怎么樣的定位,如何走出自己的路?
思考清楚了,開源大模型從技術走向應用或許也就不遠了。
(本文作者郭思 微信號:lionceau2046,長期關注大模型領域前沿技術與產品,歡迎大家共同交流,互通有無。)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。