大模型+搜索構建完整技術棧,百川智能用搜索增強給企業(yè)定制化下了一劑「猛藥」
從 ChatGPT 最初發(fā)布算起,雖然大模型的熱潮已經持續(xù)了一年多,但大部分時間依然停留在學術前沿和技術創(chuàng)新層面,深入具體場景實現(xiàn)產業(yè)價值的案例并不多見。
實際落地的種種挑戰(zhàn)最終指向一個方向:行業(yè)知識。
面對各行各業(yè)的垂直場景,依靠網(wǎng)絡公開信息和知識預訓練的通用模型很難搞定準確性、穩(wěn)定性、性價比等問題。如果在外部實時信息搜索之余輔以強大的專門的企業(yè)知識庫,讓模型對行業(yè)知識的理解大大增強,效果自然更好。
這就好比我們熟悉的「開卷考試」模式,人類大腦的「內存容量」越強越好,但終歸有上限,而帶進考場的參考資料正如外接「硬盤」,讓考生不需要去背誦繁雜的知識點,而是可以將精力更多地花在理解知識的本質邏輯上。
在 12 月 19 日舉辦的 Baichuan2 Turbo 系列 API 發(fā)布活動上,百川智能創(chuàng)始人、CEO 王小川做了一個更精準的類比:大模型就像計算機的 CPU ,通過預訓練將知識內化在模型內部,然后根據(jù)用戶的 Prompt 生成結果,上下文窗口可以看做計算機的內存,存儲了當下正在處理的文本,而互聯(lián)網(wǎng)實時信息與企業(yè)完整知識庫共同構成了大模型時代的硬盤。
這些最新的技術思考,已經融入到百川智能的大模型產品之中。
百川智能正式開放了基于搜索增強的 Baichuan2-Turbo 系列 API ,包含 Baichuan2-Turbo-192K 及 Baichuan2-Turbo 。該系列 API 不僅支持 192K 的超長上下文窗口,還增加了搜索增強知識庫的能力,所有用戶均可上傳特定文本資料構建自身專屬知識庫,根據(jù)自身業(yè)務需求構建更完整、高效的智能解決方案。
與此同時,百川智能也升級了官網(wǎng)模型體驗,正式支持 PDF 文本上傳以及 URL 網(wǎng)址輸入,普通用戶均可通過官網(wǎng)入口體驗長上下文窗口和搜索增強加持后的通用智能水平的飛升。
大模型落地,「內存」和「硬盤」缺一不可
大模型應用的關鍵在于用好企業(yè)數(shù)據(jù),對于這一點,領域內從業(yè)者都感受非常深刻。
對于企業(yè)自身來說,過去數(shù)年在數(shù)字化建設過程中,大量的高價值數(shù)據(jù)和經驗被沉淀下來,這些自有數(shù)據(jù)構成了企業(yè)的核心競爭力,也決定了大模型落地的深度和廣度。
以往,實力雄厚的企業(yè)多在預訓練階段利用自身數(shù)據(jù)來訓練大模型,但這種方式所需要的時間和算力成本是巨大的,也需要配備專業(yè)的技術團隊。也有企業(yè)團隊選擇引入業(yè)界領先的基礎大模型,使用自身數(shù)據(jù)進行后訓練(Post- Train)和有監(jiān)督微調(SFT),一定程度上彌補了大模型建設周期過長和領域知識匱乏的缺點,但仍然無法解決的是大模型落地的幻覺和時效性問題。無論是預訓練(Pre-Train)還是后訓練(Post- Train)和有監(jiān)督微調(SFT)的方式,每更新一次數(shù)據(jù)都要重新訓練或微調模型,并且無法保證訓練的可靠性和應用的穩(wěn)定性,多次訓練后仍會出現(xiàn)問題。
這意味著,大模型落地需要一種更高效、精準、實時的數(shù)據(jù)利用方式。
近期,擴展上下文窗口和引入向量數(shù)據(jù)庫的方法被寄予厚望。從技術層面來看,上下文窗口所能容納的信息越多,模型在生成下一個字時可以參考的信息就越多,「幻覺」發(fā)生的可能性就越小,生成的信息就越準確,因此這項技術是大模型技術落地的必要條件之一。向量數(shù)據(jù)庫則為大模型外接了一個「存儲」。相對于單純擴大模型規(guī)模而言,引入外掛數(shù)據(jù)庫能夠讓大模型在更廣泛的數(shù)據(jù)集上回答用戶問題,以非常低的成本提高模型對各種環(huán)境和問題的適應能力。
只不過,每一種方法都存在局限,大模型無法依靠單個方案來突破落地挑戰(zhàn)。
比如,上下文窗口過長時存在的容量限制、成本、性能、效率等問題。首先是容量問題,128K 的窗口最多可以容納 23 萬漢字,也不過是一個 658KB 左右的文本文檔。另外是計算成本問題,長窗口模型的推理過程需要消耗大量 token 造成的成本。再從性能上看,由于模型的推理速度與文本長度正相關,即使是運用了大量的緩存技術,長文本也會導致性能的下降。
對于向量數(shù)據(jù)庫,由于其查詢和索引操作比傳統(tǒng)的關系型數(shù)據(jù)庫更復雜,這將給企業(yè)帶來更多的計算和存儲資源壓力。而且國內的向量數(shù)據(jù)庫生態(tài)系統(tǒng)相對薄弱,對于中小企業(yè)來說存在相當高的開發(fā)門檻。
在百川智能看來,只有將長窗口模型與搜索 / RAG(檢索增強生成)相結合,形成「長窗口模型 + 搜索」的完整技術棧,才能真正實現(xiàn)高效、高質量的信息處理。
在上下文窗口方面,百川智能在 10 月 30 日推出了當時全球最長上下文窗口模型 Baichuan2-192K,一次可輸入 35 萬漢字,達到了業(yè)界領先的水準。同時,百川智能將向量數(shù)據(jù)庫升級為搜索增強知識庫,使得大模型獲取外部知識的能力大大增強,其與超長上下文窗口的結合可以連接全網(wǎng)信息以及全部企業(yè)知識庫,從而替代絕大部分的企業(yè)個性化微調,解決了 99% 企業(yè)知識庫的定制化需求。
這樣一來,企業(yè)獲益顯而易見,不僅成本大大降低,還能更好沉淀垂直領域知識,使得企業(yè)專有知識庫這一核心資產持續(xù)增值。
長窗口模型 + 搜索增強
如何提升大模型的應用潛力?
一方面,在不修改底層模型本身的情況下,通過增加內存(即更長的上下文窗口)和借助搜索增強(即訪問互聯(lián)網(wǎng)實時信息和從專業(yè)領域知識庫中獲取專家知識)強強聯(lián)合的方法,大模型可以將內化知識與外部知識融會貫通。
另一方面,搜索增強技術的加入,能更好地發(fā)揮長上下文窗口優(yōu)勢。搜索增強技術能讓大模型精準理解用戶意圖,在互聯(lián)網(wǎng)和專業(yè) / 企業(yè)知識庫海量的文檔中找到與用戶意圖最相關的知識,然后將足夠多的知識加載到上下文窗口,借助長窗口模型對搜索結果做進一步的總結和提煉,更充分地發(fā)揮上下文窗口能力,幫助模型生成最優(yōu)結果,從而實現(xiàn)各技術模塊之間的聯(lián)動,形成一個閉環(huán)的強大能力網(wǎng)絡。
兩種方法的結合,能夠將上下文窗口的容量拓展到一個全新的高度。百川智能通過長窗口 + 搜索增強的方式,在 192K 長上下文窗口的基礎上,將大模型能夠獲取的原本文本規(guī)模提升了兩個數(shù)量級,達到 5000 萬 tokens 。
「大海撈針」測試(Needle in the Heystack)是由海外知名 AI 創(chuàng)業(yè)者兼開發(fā)者 Greg Kamradt 設計的,業(yè)內公認最權威的大模型長文本準確度測試方法。
為驗證長窗口 + 搜索增強的能力,百川智能采樣了 5000 萬 tokens 的數(shù)據(jù)集作為大海(Haystack),并使用多個領域的問答作為針(Needle)插入大海(Haystack)不同位置中,并分別測試了純 embedding 檢索和稀疏檢索 + embedding 檢索的檢索方式。
對于 192K tokens 以內的請求,百川智能可以實現(xiàn) 100% 回答精度。
而對于 192K tokens 以上的文檔數(shù)據(jù),百川智能結合搜索系統(tǒng),將測試集上下文長度擴展到 5000 萬個 tokens,分別評測了純向量檢索和稀疏檢索 + 向量檢索的檢索效果。
測試結果顯示,稀疏檢索 + 向量檢索的方式可以實現(xiàn) 95% 的回答精度,即使在 5000 萬 tokens 的數(shù)據(jù)集中也可以做到接近全域滿分,而單純的向量檢索只能實現(xiàn) 80% 的回答精度。
同時,在博金大模型挑戰(zhàn)賽 - 金融數(shù)據(jù)集(文檔理解部分)、MultiFieldQA-zh 和 DuReader 三個測試集上,百川智能搜索增強知識庫的得分均領先 GPT-3.5、GPT-4 等行業(yè)頭部模型。
長窗口與搜索結合不易,百川智能「見招拆招」
「長窗口模型 + 搜索」固然可以突破大模型在幻覺、時效性和知識等方面的瓶頸,但前提是先要解決二者的結合難題。
二者能不能完美融合,很大程度上決定了模型最終的使用效果。
尤其是在當下,用戶信息需求表達方式正在發(fā)生潛移默化的變化,其與搜索的深度結合在各個環(huán)節(jié)都對百川智能提出了新的考驗。
一方面,在輸入方式上,用戶的問題不再是一個詞或短句,而是轉變成了更自然的對話互動甚至是連續(xù)多輪對話。另一方面,問題形式也更加多元,并且緊密關聯(lián)上下文。輸入風格上更加口語化,輸入問題趨于復雜化。
這些在 Prompt 方面的變化與傳統(tǒng)基于關鍵詞或者短句表達搜索邏輯并不匹配,如何實現(xiàn)二者對齊是長窗口模型與搜索結合要解決的第一個難題。
為了更精準地理解用戶意圖,百川智能首先利用自研大模型對用戶意圖理解進行微調,將用戶連續(xù)多輪、口語化的 Prompt 轉換為更符合傳統(tǒng)搜索引擎理解的關鍵詞或語義結構,呈現(xiàn)出來的搜索結果也更精確和更相關。
其次,針對用戶實際場景中日益復雜的問題,百川智能不僅借鑒了 Meta 的 CoVe(鏈式驗證)技術,將復雜 Prompt 拆分為多個獨立且能并行檢索的搜索友好型查詢,讓大模型對每個子查詢進行定向知識庫搜索,最終提供更準確詳實答案的同時減少幻覺輸出。此外,還利用自研的TSF(Think Step-Further)技術推斷并挖掘出用戶輸入背后更深層的問題,更精準、全面地理解用戶意圖,引導模型輸出更有價值的答案。
另外一個難題與企業(yè)知識庫本身相關。用戶需求與搜索查詢的匹配程度越高,大模型的輸出結果自然更好。但在知識庫場景中,模型要想進一步提升知識獲取的效率和準確性,則需要更強大的檢索和召回解決方案。
知識庫場景有其獨特的特征,用戶數(shù)據(jù)通常是私有化的,利用傳統(tǒng)的向量數(shù)據(jù)庫無法很好保證用戶需求與知識庫的語義匹配。
為此,百川智能自研了 Baichuan-Text-Embedding 向量模型,在超過 1.5T tokens 的高質量中文數(shù)據(jù)上進行預訓練,并通過自研損失函數(shù)解決對比學習方式依賴 batchsize 的問題。效果很顯著,該向量模型登頂了當前最大規(guī)模、最全面的中文語義向量評測基準 C-MTEB,并在分類、聚類、排序、檢索和文本相似度 5 個任務及綜合評分上取得領先。
雖然當前構建大模型知識庫的主流方法是向量檢索,但單純依靠它顯然是不夠的。究其原因,向量數(shù)據(jù)庫的效果對訓練數(shù)據(jù)覆蓋的依賴很大,在未覆蓋的領域泛化能力會大打折扣,這無疑給數(shù)據(jù)私有化知識庫場景造成了不小的麻煩。同時,用戶 Prompt 與知識庫中文檔長度存在差距,二者不匹配也為向量檢索帶來挑戰(zhàn)。
因此,百川智能在向量檢索基礎上引入稀疏檢索和 rerank 模型,形成向量檢索與稀疏檢索并行的混合檢索方式,大幅提升了目標文檔的召回率。用數(shù)據(jù)說話,這種混合檢索方式對目標文檔的召回率達到了 95%,而絕大多數(shù)開源向量模型的召回率低于 80%。
此外,大模型在回答問題過程中也會因引用資料不準確以及與大模型不匹配,加重自身的幻覺現(xiàn)象。
對此,百川智能在通用 RAG 的基礎上首創(chuàng) Self-Critique 大模型自省技術,讓大模型基于 Prompt、從相關性和可用性等角度對檢索回來的內容自省,進行二次查看,從中篩選出與 Prompt 最匹配、最優(yōu)質的候選內容,讓材料的知識密度和廣度更上一個臺階,還能降低檢索結果中的知識噪聲。
沿著「長窗口模型 + 搜索」技術棧路線,百川智能憑借自身在搜索領域的技術積累,尤其是業(yè)界領先的向量檢索與稀疏檢索的配合,解決了大模型與用戶 Prompt、企業(yè)知識庫結合中需求不匹配的痛點,讓自身搜索增強知識庫的能力凸顯出來,對于大模型更高效地賦能行業(yè)垂直場景真可謂如虎添翼。
大模型落地,搜索增強開啟企業(yè)定制化新階段
短短一年間,大模型的發(fā)展超乎人們的想象。我們曾經展望「行業(yè)大模型」能夠帶來千行百業(yè)的生產力釋放,但行業(yè)大模型受到專業(yè)技術人才和算力支撐等因素制約,更多中小企業(yè)更無法在這波大模型浪潮中收獲紅利。
由此可見,走出「從產品到落地」這一步,的確比當初的「從技術到產品」更難。
在轟轟烈烈的百模大戰(zhàn)到定制化大模型的比拼中,技術經歷了一輪又一輪迭代,從最開始基于預訓練做行業(yè)大模型、基于后訓練或 SFT 做企業(yè)專屬模型,到之后利用長窗口、向量數(shù)據(jù)庫等技術開發(fā)專屬定制化模型,雖然都推動大模型離理想中的「全知全能」更近了一些,但在廣泛行業(yè)垂直場景中的應用落地還無法真正實現(xiàn)。
百川智能打造「大模型 + 搜索」技術棧,在憑借長窗口提升模型基礎性能的同時,利用搜索增強更高效、全面地連接領域知識和全網(wǎng)知識,提供了一種更低成本的定制化大模型之路,率先邁出實現(xiàn)「全知」的一步。我們有理由相信,這將引領大模型產業(yè)落地走向全新階段。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。