首頁 > AI資訊 > 行業動態 > 以搜索增強對抗幻覺,百川智能拿出了實現大模型商業化的最后一塊拼圖

以搜索增強對抗幻覺,百川智能拿出了實現大模型商業化的最后一塊拼圖

新火種    2023-12-27

12月19日,百川智能宣布開放基于搜索增強的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo。這是9月末Baichuan2-53B第一次向外界打開API之后,百川智能在B端的進一步動作。

7月,以搜狗CMO身份加入這家大模型創業公司的洪濤,第一次與王小川同時出現在自己商業化產品的發布現場。這家在7月剛邁過100人的公司,現在快到200人規模。

百川智能在B端的布局正在提速,搜索能力融入更深,并且具備長文本能力的Baichuan2-Turbo API比起前者有了更多的現實意義。

金融、醫療等一些行業與大模型的需求已經開始形成。統計顯示目前國內超過超過230款的大模型群落里,有15%是服務于金融領域的。

洪濤與客戶接觸下來的體驗是,B端經常會遇到有客戶不知道大模型能做什么的情況,或者想象力大到超過了大模型的能力范圍。

這本身是大模型自己的問題,它看起來有討論問題的能力,很多時候卻無法給出精確可靠的解決方案。人們期待它能獨自解決所有問題,對它的定義卻是空心的。缺少明確的角色定位,這讓大模型進入實際場景時變得障礙重重,大模型本身幻覺和時效性的問題也凸顯出來。

在王小川看來,搜索增強能力是大模型在企業落地的前提。但進一步,搭配搜索增強能力之后,大模型在實際場景中需要一個更靈活的外接數據庫來做補充。

此次與Baichuan2-Turbo系列的發布同時,百川智能發布了新的搜索增強知識庫能力,這意味著企業現在可以從私有化部署到云端把自己的知識上傳上來,做一個外掛的資料庫,跟Baichuan2大模型做對接,來為基礎大模型加入行業知識。但區別于原來的行業大模型,這種方式沒有對基礎大模型本身做訓練,理論上是一個成本更低的方式,而在時效性上更靈活,也不會增加出現幻覺的概率。

而從搜索增強能力注入到現在知識庫功能的上線,百川智能的在B端的商業化道路正式開始了。

在長度與廣度里找平衡

最近Andrej Karpathy的一番言論,似乎重新定義了“幻覺”。

Andrej Karpathy是OpenAI的創始人之一。他在人工智能領域地位頗高,也是特斯拉前 AI 總監,他在今年2月從特斯拉回歸OpenAI。Karpathy近日發推表達了一種觀點:大語言模型的全部工作恰恰就是制造幻覺,大模型就是“造夢機”。

“大模型就是在做夢,這是幻覺問題的原因。相比之下搜索引擎完全不做夢,所以它存在創造力問題——因為它的邏輯是根據輸入的提示,直接返回其數據庫中最相似的“訓練文檔”,也就是說它永遠不會提供新的回應。”

如何定義幻覺,在理論層面仍然是一個開放問題,但可以確認的是,ToB不喜歡幻覺。

金融、醫療和法律這些相對明確的AI實踐場景需要極高的嚴謹性,而這種嚴謹又建立在巨大的文本體量上——研報、醫療報告或者法律卷宗。在這些大模型最先探入的場景里,避免幻覺有一個隱形的前提條件,是要在輸入和輸出兩端上下文長度和知識廣度之間找到平衡。

如果將大模型+搜索增強看作是大模型時代的新計算機,那么大模型類似于計算機的CPU,通過預訓練將知識內化在模型內部,然后根據用戶的Prompt生成結果;上下文窗口可以看做計算機的內存,存儲了當下正在處理的文本;互聯網實時信息與企業完整知識庫共同構成了大模型時代的硬盤。

這次Baichuan2 Turbo系列API的發布背后,一個完整的延續著相似邏輯的大模型技術棧逐漸搭建完成。

王小川第一次提出類似技術棧的思路,是在今年7月:

“講個最簡單的例子,做模型肯定會遇到幻覺問題,時效性問題。幻覺和時效性都是光靠大模型本身能解決的。有人用擴大參數,擴大到萬億,十萬億來解決幻覺;或者用強化學習。但其實最直接的做法就是把搜索和信息檢索帶進去。大模型和這些結合在一塊,才能形成一個更完整的技術棧。”

他認為現在美國對于應用層比較迷茫,中國現在的問題是模型能力不足。今天很多做模型的創業公司,也是把自己的視角局限在大模型上,對其它技術棧沒那么了解。那時候的百川智能剛剛發布了130億參數開源大模型Baichuan-13B。

這之后,這家大模型公司的整體進展或許可以描述成對這整個技術棧的補全。

今年8月王小川第一次在Baichuan-53B身上提出了搜索增強的概念。Baichuan模型中的搜索增強系統融合了包括指令意圖理解、智能搜索和結果增強等關鍵組件的多個模塊,并且王小川表示,相比其他大模型的檢索增強,“(Baichuan-53B中)搜索跟模型的結合從非常底層的地方就開始去融合 ”。

一個月后百川智能表示,Baichuan2-53B已經是國內幻覺處理能力最優秀的模型。

到了10月,百川智能將Baichuan2的上下文窗口長度高達擴展到192K,可以一次吃掉一本35萬字的《三體》,其在長文本測評基準LongEval中的10項評測集中拿到7項SOTA(最優模型)。

在搜索能力和長文本能力之后,知識庫能力在此時推出則是這整個技術棧的最后一塊拼圖。

而要打開B端市場,還有成本這個重要考量維度。知識庫與搜索的結合逐漸被驗證會是容量、成本、性能、效率的最佳選擇,而推崇這兩者,也意味著行業大模型的概念開始被放棄。

不要動基礎模型

大模型是一個參數化的知識容器,知識內化在模型內部,道不清說不明,是提煉之后的跨學科通用知識。

但實際場景需要實時更新。在垂直領域,尤其是領域知識不易公開獲取的場景,模型本身的領域知識嚴重不足。這使得大模型必須與企業數據結合才能解決實際應用。而大模型如何補充時效性,在B端發揮作用,有兩條路線。

此前的路線是做一個行業大模型,也就是用行業知識來預訓練或者微調訓練大模型。

但是基于特定數據預訓練或微調垂直行業大模型需要高密度的技術人才團隊、大量的算力支持,并且每更新一次數據都要重新訓練或微調模型,不僅成本高昂、靈活性差,更關鍵的是不能保證訓練的可靠性和應用的穩定性,多次訓練后仍會出現問題。

“此外,大部分企業數據都是結構化的數據,也不適合SFT,模型無法準確記憶結構化信息,會帶來幻覺。”王小川表示。

另一條道路是不碰基礎模型,用搜索能力搭配外置的數據庫,這種更輕巧的技術路徑逐漸在大模型開發者中成為一種新的共識。

2021年,OpenAI發布了WebGPT,首次展現了搜索能力加入后對大模型能力的增益。WebGPT是基于GPT-3模型的一種創新,它通過使用互聯網來響應開放式查詢,大大提高了回答的準確性和可靠性。這是人工智能領域的一個重要轉折點,展示了AI在提供更透明、更可靠的回答方面的未來可能性。

WebGPT的工作過程類似于人類在線查詢回答的方式。它首先提交搜索查詢,然后跟蹤鏈接并瀏覽網頁以收集信息。這種獨特的方法有效地提高了回答的準確性,在減少幻覺的同時,WebGPT開始能夠在長篇問答任務中達到與人類相當的表現。

今年11月,OpenAI 開始提供一款RAG(Retrieval-Augmented Generation)產品Retrieval檢索工具,在不修改底層模型本身的基礎上讓使用者能夠引用額外的數據源,而不僅僅局限于ChatGPT原始的訓練集,從而提高輸出的準確性和相關性。

搜索能力與外置數據庫的結合,也有機會將國內的AI公司從此前NLP、CV殊途同歸的項目制泥潭里掙脫出來。

“我們今天發布的知識庫是產品。用知識庫這種用可配置可調整的方式,其實是希望用產品的方式實現企業低成本的定制,來解決過往高成本的項目制的問題,這是我們的思路”,百川智能技術聯合創始人陳煒鵬說。

但目前企業構建自己大模型知識庫的主流方法仍然是向量檢索,向量模型的效果過于依賴訓練數據的覆蓋,在訓練數據未覆蓋的領域泛化能力會有明顯折扣,并且用戶prompt和知識庫中文檔長度的差距也給向量檢索帶來了很大挑戰。

百川智能在向量數據庫和長窗口的基礎上融合了稀疏檢索和ReRank模型,實現了稀疏檢索與向量檢索并行。向量檢索在語義上會更加貼近,但在embedding之后會存在很多漂移和漏召的情況,稀疏檢索在召回、語義漂移問題等問題上相比反而有優越性,這種獨特的并行檢索方式的實現仰仗于對稀疏檢索的技術積累,后者則源自這支從搜索引擎轉身的技術團隊在基于符號的搜索方式方面的經驗。

這種并行的檢索方式能夠讓Baichuan2模型的目標文檔召回率提升到95%,目前市面上主流開源向量模型的召回率在80%。

對于大模型在回答過程中由于引用資料不準確以及與大模型不匹配,導致模型的“幻覺”加重的現象。百川智能在RAG技術基礎上首創了Self-Critique大模型自省技術,該技術能夠讓大模型基于Prompt對檢索回來的內容從相關性、可用性等角度進行自省,篩選出最優質、最匹配的候選內容,有效提升材料的知識密度和廣度,并降低檢索結果中的知識噪聲。

ToB,局限在文本上嗎?

在GPT-4之后,無論是Meta的AnyMAL還是谷歌最新的Gemini都開始體現出對多模態模型能力的重視,國內的百度也是,與百川智能同在一座大樓的智譜AI早在今年5月已經開源了多模態大模型VisualGLM-6B。

百川智能目前所展示出的場景示例中,有包括問答、信息提取、咨詢分析等多達20個細分場景,但仍然完全集中在文本生成這個領域。多模態能力目前仍然沒有在Baichuan系列模型中出現。

從語言跨向多模態這一步,百川智能顯得克制。

王小川看來,最終還是文本能力代表了大模型智力化的水平,這是百川智能目前唯一聚焦的方向。

“我們認為在追求模型智力或者追趕全球最領先的大模型時,把文本放在第一位的公司是在往長遠走的。所以今天如果公司首先考慮音頻、圖像、視頻等等,反而已經不在這條追趕道路里了。

文本能力的追趕是大家最應該關注的事情,而多模態反而是離應用最近的一件事,反而后者可以用更小的模型來推動。”

近段時間出現的,Phi-2 2.7B和Mistral 7B用非常小的尺寸擊敗了Llama2-7B和13B,甚至Mistral 7B在數學和代碼生成方面的表現超越了Llama-34B,這也讓人重新考慮模型參數和模型能力之間的關系。

從4月成立至今,百川智能打造大模型產品的速度很快,模型參數規模從7B和13B起跳,迅速擴展到53B,突破100B(千億)的大模型研發計劃也在之前就有所透露。對于百川智能來說,模型的參數規模仍然是一座要攀的高山。

“對ToB來說,由于私有化的必要性,太大參數的規模對企業的成本是過高的,這方面因為有外掛知識庫的技術,其實現在已經不是很擔心參數規模對模型能力的影響”,王小川說。

“在整體規劃上,我們做7B和13B的模型就是用來做開源的,但主力的模型還是會往百億、千億上走。”

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章