?“以存換算”降低大模型落地門檻,清華系又跑出一家明星公司
文|白 鴿
編|王一粟
OpenAI最新大模型o1的發布,標志著大模型正式邁入推理時代。但邁入推理時代后,大模型的不可能三角問題更加凸顯——成本、效率和性能難以平衡。
一般來說,想要模型效果好,就需要模型大,但模型越大,意味著參數越多,參數越多其背后的算力成本就不斷提升,甚至是幾十上百倍的提升。同時,在模型大、成本低的情況下,還要求模型響應延遲足夠低。
想要破解大模型不可能三角的問題,通過優化算力資源,在不犧牲模型性能的前提下盡可能降低模型部署成本,成為行業中的關鍵解法。
此背景下,聚焦智能算力優化的AI Infra賽道崛起。AI Infra,是指在大模型生態系統中,鏈接算力和應用的中間層基礎設施,包括硬件、軟件、工具鏈和優化方法等,是一個整體解決方案。
那么,AI Infra到底怎么實現算力資源的優化?又如何跑通其中的商業閉環邏輯?作為AI Infra賽道的創企,脫胎于清華大學高性能研究所的趨境科技給出了自己的思考和解法。
大模型發展過程中,最底層算力基礎設施是以GPU為主,如果把其比做汽車發動機,可以看到,發動機如果性能好,汽車就可以跑的快,但想要汽車跑的更快,就不能僅靠發動機,還需要空氣動力學、傳動軸、輪胎等整車體系化能力的升級。
“現階段很多AI Infra企業更多是聚焦對GPU進行效率優化,而我們則是進行了全系統架構設計。要真正的榨干所有硬件資源,從而突破GPU算力制約。”趨境科技CEO艾智遠?如此說道。
因此,趨境科技提出以存換算和全系統協同優化推理解決方案,通過協同存儲、CPU、GPU、NPU等多種設備,相當于把機器內所有硬件資源全部用上,充分釋放異構算力,將推理成本降低10倍以上。
趨境科技通過協同所有硬件資源,為大模型提供充足的算力的同時,也通過“以存換算”技術釋放存力作為算力的補充,降低大模型對算力的需求。
早期大模型推理架構將每次推理視為獨立請求,缺乏高效處理所需的“記憶”能力。盡管后續引入了近似問題緩存(Semantic Query Cache)和前綴緩存(Prefix KVCache Cache),但仍主要依賴于“死記硬背”。這些方案要求新問題與已處理問題高度一致,才能利用緩存去降低算力需求。
“以存換算”的技術便是針對這一問題所設計,通過調用存儲空間和“融合推理(Fusion Attention)”技術,即便是面對全新的問題也可以從歷史相關信息中提取可復用的部分內容,與現場信息進行在線融合計算。這一技術顯著提升了可復用的歷史計算結果,進而降低了計算量。
實際上,這就相當于給大模型增加了一個存儲體,這個存儲體存儲的不是文檔,而是模型推理過程中的中間結果,可以理解為大模型推理結果的記憶元。就像我們的大腦一樣,儲存了海量的運算好的信息,在我們想要表達或者推理的時候,能夠從大腦中調用出一部分運算好的信息供我們使用。
“我們技術的本質,就是通過過往用戶提問時,對大模型運算過程中的中間結果進行緩存,然后當用戶提出全新問題時,即使與原來問題不一樣,但也能從過往記憶中提取相關內容,再結合現場推理,輸出最終結果。”艾智遠如此說道。
通過這一新思路,趨境科技的大模型知識推理一體機充分利用了存儲資源,采用“以存換算”的方式釋放存力作為對于算力的補充,在RAG場景中,響應延遲降低20倍,性能提升達10倍。
在實際商用落地上,趨境科技主要提供產品是大模型知識推理一體機,以軟硬一體交付方式為主,內置了開箱即用的知識推理平臺和推理加速引擎,提供辦公助手、智能檢索、內容創作等應用,并支持橫向拓展更多應用,能夠在醫療、教育、金融、法律、企業培訓等場景直接使用;另外也提供豐富的API接口,客戶能夠快速完成大模型的部署和使用,對接現有大模型業務和產品中進行二次開發。
事實上,當前在AI Infra在一賽道中,不管是創業企業,還是云廠商,抑或是硬件廠商,都虎視眈眈,不斷加速自身的技術和產品布局。
而趨境科技作為一家2023年底剛剛成立的創業公司,艾智遠認為自身能夠持續生存并發展下去的關鍵,就在于持續保持核心技術的領先性上。
趨境科技會持續優化底層技術能力,“我們更希望的一種模式是,我們搭的是一個架子,房頂上的這些應用是由大家來開發,然后利用我們架子能夠更好的降低成本。”艾智遠如此說道。
以下為光錐智能與趨境科技CEO艾智遠詳細對話內容(經光錐智能編輯整理):
(1)布局大模型知識推理一體機,用以存換算解決不可能三角形
Q:趨境科技成立于2023年底,當時選擇創業的契機是什么?目前公司的基本情況,包括團隊建設,融資情況等?
A: 趨境科技是由清華計算機系教授武老師與真知創投創始人兼董事長任旭陽共同發起,公司核心三人創始團隊:我、陳超、陳祥麟,均出身武老師門下。
我是清華計算機系博士畢業,博士期間主要從事分布式系統優化、并行計算、分布式存儲等相關領域研究領域。
首席戰略官陳超,清華大學工程博士在讀,擁有MIT&杜克大學雙碩士,同時兼任真知創投董事總經理,負責真知創投技術驅動項目的孵化與投資。
研發負責人陳祥麟,清華大學碩士,擁有多年大數據與AI相關產品研發和落地經驗。
趨境科技的長期技術合作方,是清華大學的KVCache.AI團隊,目前的分工是趨境聯合清華KVCache.AI團隊共同做技術研發,同時趨境科技負責商業化轉化。
清華KVCache.AI團隊,由清華助理教授章明星負責,團隊在包括OSDI、SOSP、ASPLOS、HPCA、FSE、VLDB、ATC、EuroSys 等國際頂級會議和期刊上發表論文二十余篇,數個國家級創新獎項。
我們雙方和月之暗面、阿里、華為等業內主要廠商均有深度協作,剛剛共同發布了Mooncake的開源項目,共建以KVCache為中心的推理架構。
目前團隊大概90%以上都是碩士,50%以上是博士,整體以清華系為主,還有來自包括新加坡國立、哈工大、中科院、北航、北郵等院校的畢業生。
Q:為什么會選擇做大模型知識推理一體機這一賽道,背后衡量的點是什么?用“以存換算”的思路進行布局,能否詳細的講述一下這背后的思考?
A:我們的產品名為大模型知識推理一體機,主要是以軟硬件一體的交付形態,到產品層面則是大模型知識推理平臺,有辦公助手、智能客服、智能搜索等等應用,客戶開箱即用,客戶也可以調用 API ,提供大模型的能力,對接到現有的產品中。我們核心觀點是怎么能夠降低大模型落地準入門檻,以及幫助企業能夠真正落地專屬大模型產品。所以我們實際做的,是一款高性能、低成本、高效率的解決方案,其能夠助力千行百業的私有化大模型快速落地。
大模型在業務側落地成本和延遲都非常高,在業務側單次請求的Prompt長度往往需要幾千或者上萬Token,甚至是基于COT,這就需要進行復雜推理,就像OpenAI的o1。事實上,我們在去年就已經發現:基于COT做深層次推理,能夠讓大模型效果更好。但這背后關鍵問題就在于推理成本很高。
比如在客服場景,用戶咨詢一個問題,這背后的大模型經過深層次推理,加上外部知識,可能需要幾十秒鐘才能完成一個問題的完整回復。這段時間內,大模型一直在進行計算,也意味著幾十秒內這臺機器的很多計算資源被獨占。如果線上上萬人,就需要橫向擴展數百臺機器,這個成本是不能接受的。
所以在去年我們討論這個問題的時候,就發現私有化模型落地的最大問題,是有一個不可能的三角形,它既要效果,又要效率,還要成本。
效果,是我們希望有更大的模型,模型越大,效果越好。但模型越大,成本也就越高。并且成本的量級不是簡單幾倍數的提升,而是非常大的量級的提升。同時,模型大、成本低的情況下,還要求響應的延遲足夠低,所以這就變成了不可能完成的三角形。
這個問題的關鍵是GPU算力的制約,因為現有技術下GPU的利用率已經較高,進一步提升的空間有限。
而我們之前的研究方向主要是并行計算、分布式存儲等計算機體系結構相關的領域,我們關注一臺服務器的全部硬件資源,而不僅僅是GPU。因此我們想到一個點,為什么大模型推理過程中,只能用GPU?GPU是很強,就好比汽車中的發動機,發動機做的好,汽車確實跑的快。但想要汽車跑得更快,不只是需要增強發動機本身,還需要結合空氣動力學、傳動軸、輪胎等性能。如果想要把性能發揮到極致,就要把整個機器所有性能都發揮極致,才能夠達到最好的性能優化。
所以,我們就提出了全系統協同優化,相當于把機器內所有硬件資源全部用上,包括GPU\CPU\內存\硬盤等,而其中的關鍵在于怎么利用這些資源。
與此同時,我們國產GPU卡,與英偉達的產品在實際性能上還是有一些差距。如果只關注GPU的優化,大模型的落地成本會進一步提升。
因此,在這基礎之上,我們提出了2個核心觀點,一個是以存換算,釋放存力作為算力的補充,降低對算力的需求;二則是全系統異構協同優化,緊密聯動 HBM/DRAM/SSD 和 CPU/GPU/NPU 全系統異構設備,突破顯存容量的限制,充分釋放全系統的存力和算力。
Q:“以存換算”背后的技術邏輯是什么?
A:大模型推理的時候,特別是在RAG場景相關應用上,需要不停地調用知識庫里的內容,給到大模型做推理。
現階段在智能問答、智能客服等場景中,知識庫的運用實際上還是以RAG為核心方式。遇到用戶的提問時,傳統的做法是把這些問題和答案緩存下來,后續如果有用戶提問相似問題,就可以給到答案,類似“死記硬背”。
但問題在于,用戶的提問永遠是千變萬化的,很難命中原來一模一樣的問題。
實際上,在RAG場景,我們可以做一個大的存儲體,這個存儲體存儲的不是文檔,而是模型推理過程中的中間結果,可以理解為大模型推理結果的記憶元。就像我們的大腦一樣,儲存了海量的運算好的信息,在我們想要表達或者推理的時候,能夠從大腦中調用出一部分運算好的信息供我們使用。
傳統的Attention計算,當遇到一個新的問題時,會調用問題的相關產品信息,組成一個比較大的Prompt,給大模型做現場推理計算,就像要求一個人現場看完一本之前沒看過的書,需要的整體理解和閱讀時間周期都很長。
而我們的想法是,針對這個問題,已經有了一部分記憶元,在另外一個人提出問題時,就已經有相關知識記憶存儲,就好像我在做現場推理的時候,這本書我已經看過了,但是沒有看全,但基于看到的一些新內容+之前已有的相關知識,在做現場推理時,速度會快很多。
因此,我們不是在做死記硬背,而是在做融合推理。通過修改大模型里面關鍵的算子,做記憶與現場推理的融合計算,能夠比原來傳統推理有10倍性能的提升,尤其是在RAG場景中。
Q:以存換算這一技術,為什么大模型公司不能夠自己做?
A:對于大模型公司而言,他們更多的關注點可能會放在模型效果上,所以技術方向也會偏重訓練層。而我們主要面向的是ToB的企業,他們對于成本更加敏感,“以存換算”主要解決推理部署的成本問題,因此我們在這個方面技術上研究更加深入。
(2)生存發展的關鍵,是保持核心技術領先性
Q:大模型知識一體機是一個硬件產品?是否需要一套單獨的軟件算法系統,來進行單獨的適配?最后落地給客戶,是以硬件的形式交付,還是以軟件的形式交付?
A:主要產品交付形態是一個軟硬一體的推理一體機。之所以選擇軟硬一體的形態,是因為需要進行硬件協同,一個普普通通的機器是不能滿足這一要求,因為從整個機器的設計上來講,我們需要更多的內存和更好的CPU支持,但有可能是更少的GPU算力支持,包括對帶寬、硬件的選型,基于客戶業務訴求我們都會有很多的考慮。
我們做異構協同的話,必須把整臺機器的硬件資源都進行一定的調配,甚至是有一些主板層面的設計。在給業務方交付時,以一體機的交付形態。既可以提供豐富的API接口給業務方使用,第三方廠商或者是ISV,只要調用API,就可以完成大模型推理。也可以提供推理平臺,并內置了一些簡單應用,類似企業搜索智能問答、各種智能體等,同時客戶也可以根據業務需求再進行拓展。
對于一些終端客戶來講,他可能有些應用就已經足夠了,我們更希望的一種模式是,我們搭的是一個架子,房頂上的這些應用是由大家來開發,然后利用我們架子能夠更好的降低成本。
Q:目前在硬件的選擇上有具體的傾向嗎?未來在硬件層面有哪些規劃?
A:目前幾款主流的國產GPU和NVIDIA GPU的都能支持。未來我們考慮更多硬件層面的布局,例如主板的設計、分離式架構設計、存算融合等等。
Q:目前各大云廠商也都在做智算中心等AI Infra基礎設施,您認為作為創企,要如何與大廠們進行競爭?同時,目前在行業中已經有了一批早期的創企,并取得了一定的成績,作為后來者,趨境科技又該如何進行差異化競爭?核心優勢在哪?
A: 實際上,我們的技術思路和客群選擇和當前的大廠以及AI Infra廠商都有所不同,因此目前沒有明確的競爭關系。此外,AI Infra還是一個相對藍海的市場,大家都有可以服務的客群。
另外,我們比較堅持的一點,就是要把“以存換算”和“全系統協同優化”技術持續做下去,我們觀測到未來推理成本降低不止10倍,要降到千倍。
我們也遇到很多客戶,72B的大模型很有用,但出于成本的考慮,最終只會選擇7B或13B的模型,這就是一個妥協。還有些做智能客服的企業,為了控制成本,可能會在整個系統中只用10%的大模型。因此,降低大模型的準入門檻,是ToB側客戶落地大模型時最廣泛的需求。
我們認為在自己專注的技術領域堅持研發投入,持續建立領先的技術優勢、做客戶真正需要的產品、提供更好的服務支持,才能在競爭中生存下去。
(3)做私有化大模型部署,與云廠商不存在競爭關系
Q:大模型很多算力都是花在訓練上,我們為什么不做大模型的訓練?
A: 大模型訓練的成本很高,對數據質量、人員標注能力都有很高的要求,訓練不好很有可能出現災難性遺忘等問題。實際上現階段通用大模型,經過了一年多的技術演進,配合RAG技術和In-Context Learning(上下文學習),甚至比通過領域數據訓練的模型效果還要好,已經能夠滿足大部分客戶的業務使用場景。
而阻礙客戶大模型落地的核心痛點是推理端算力的成本,因此我們更加關注大模型的私有化落地推理側的性能優化問題。
Q:基于以存換算的技術思路,以存儲的形式,尤其是私有化部署大模型的方式,是否會受到大模型更新迭代的影響?
A:我們實際上是在通用大模型之外,加入了知識推理能力。我們不僅做硬件加速,也做了深度推理,也就是o1的功能。因此,通用大模型的發展對這件事情反而是有促進作用,可以根據模型的能力更換通用大模型來達成AI能力的升級。我們不是訓練大模型,而是通過推理來減少大模型幻覺,增強他的推理能力。
此外,基于Transformer架構的大模型底層的推理邏輯相似,新的模型的適配工作并不大,不需要太多的定制化開發。
Q:目前主要業務是以私有化部署為主,但云廠商們都號召大家把大模型部署在云上,那您認為未來私有化部署的空間是否被壓縮?
A:我們反而覺得私有化是很大的一個空間,因為很多數據,比如公司的經營決策數據、財務數據、核心文檔數據、客戶信息、員工信息等,都需要私有化,這是企業的商業機密。
因此,一些企業會選擇私有化這種最保險的方式,B端市場也是個很大的市場,有私有化訴求的這一類客戶群規模還是比較大,需求也相對可控。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。