首頁 > AI資訊 > 最新資訊 > 向量數據庫王冠易主!零一萬物新成果登頂權威榜單,比前SOTA領先最高286%

向量數據庫王冠易主!零一萬物新成果登頂權威榜單,比前SOTA領先最高286%

新火種    2024-03-12

向量數據庫排行榜的頭號交椅,再次易主——

來自零一萬物最新研發的高性能向量數據庫笛卡爾(Descartes),登頂權威測評榜單。

在此之前,榜單里六個數據集的榜首分屬于兩家廠商,而笛卡爾的包攬結束了這種“分庭抗禮”的局面,成為了大一統的“新王”。

向量數據庫王冠易主!零一萬物新成果登頂權威榜單,比前SOTA領先最高286%

在權威的ANN-Benchmark榜單中(GitHub 4.4k星),笛卡爾直接包攬了六個數據集的第一名。

而且新前兩名的差距也被大幅拉開——相比比前SOTA,笛卡爾的成績最高提升了286%。

那么,笛卡爾在測試中到底交出了怎樣的答卷呢?

包攬權威榜單六項第一

笛卡爾登上的ANN-Benchmarks榜單,包含了六大測試數據集,可以展示不同算法在不同數據集下的表現。

而笛卡爾參與全部六個數據集評測,它們主要考察在不同召回下的查詢性能。

結果,笛卡爾(圖中右上紅色曲線)在這六個數據集的評測中,都取得了最好成績。

下圖為對數坐標系,橫坐標代表召回,縱坐標代表QPS(每秒處理的請求數),越往右上角意味著算法性能越好。

向量數據庫王冠易主!零一萬物新成果登頂權威榜單,比前SOTA領先最高286%

而“吞吐量QPS” 是衡量信息檢索系統(例如搜索引擎或數據庫)查詢處理能力的重要指標。

在原榜單TOP1基礎上,零一萬物笛卡爾向量數據庫實現了顯著性能提升,部分數據集上的性能提升超過2倍以上,在gist-960-euclidean數據集維度更大幅領先榜單原TOP1 286%。

向量數據庫王冠易主!零一萬物新成果登頂權威榜單,比前SOTA領先最高286%

那么,在笛卡爾優異表現的背后,采用了哪些技術呢?

采用全棧向量技術增強性能

在零一萬物團隊看來,增強向量檢索能力,就是在解決兩個問題,一是減少考察的候選集,二是降低單個向量計算的復雜度。

針對其中第一個問題,零一萬物又采用了兩大策略來解決。

首先是采用全導航圖技術,構建全局多層縮略圖,實現圖上坐標系導航,既能保證精度,又能裁剪大量無關向量,解決了哈希、KD-Tree、VP-Tree等傳統方式導航效果不夠精確、裁剪力度不夠的問題。

向量數據庫王冠易主!零一萬物新成果登頂權威榜單,比前SOTA領先最高286%

另一方面,是零一萬物自研的自適應鄰居選擇策略。

它突破了以往僅依賴真實top-k或固定邊選擇策略的局限,使每個節點可以根據自身及鄰居的分布特征,動態地選取最佳鄰居邊。

這種方式可以更快收斂接近目標向量,從而讓RAG向量檢索性能提高15%-30%。

而針對第二個問題,零一萬物采取的是兩級量化方案,從而降低計算復雜度。

同時,利用列式存儲充分利用SIMD的并發能力,進一步發揮硬件能力,相比傳統PQ查表,性能還能大幅提升到2-3倍。

除此之外,零一萬物還有索引結構優化、連通性保障等全棧向量技術方案提高笛卡爾向量數據庫的性能。

最終,笛卡爾的檢索精度超過了99%,而千萬級數據庫響應時間僅為毫秒量級。

零一萬物表示,笛卡爾向量數據庫將用在近期即將正式亮相的AI產品中,未來也將結合工具提供給開發者。

大模型重要的基礎設施

事實上,以笛卡爾為代表,向量數據庫在整個大模型行業中,本就是一項熱門技術。

它是檢索增強生成(RAG)技術的核心,用來存儲、管理、查詢和檢索向量化的非結構化數據。

換言之,也就是大模型形成“長期記憶”的關鍵,因此也被稱為“大模型的海馬體”。

除了記憶能力,向量數據庫還解決了大模型實時信息更新的問題,還能提高推理效率并降低幻覺,同時在隱私數據不能用于訓練時擔任信息傳遞載體……

向量數據庫王冠易主!零一萬物新成果登頂權威榜單,比前SOTA領先最高286%

作為大模型基礎設施,無論是在大廠還是初創公司,向量數據庫都是一個熱門的研究方向。

Google、微軟、Meta等傳統互聯網大廠,都相繼在其云服務平臺中推出了自己的相關產品。

初創公司方面,Zilliz、Pinecone、Weaviate、Qdrant等公司也是異軍突起。

比如成立于上海的Zilliz,其所研發的向量數據庫在笛卡爾出現之前就是ANN-Benchmark榜上的王者。

阿里云、騰訊云、微軟Azure、亞馬遜AWS等國內外知名云服務廠商,都部署了Zilliz的產品。

向量數據庫王冠易主!零一萬物新成果登頂權威榜單,比前SOTA領先最高286%

而除了產業界,向量數據庫在投資人眼中同樣具有重要地位。

比如前面提到的Zilliz,總計融資金額就已經超過了1.1億美元。

OpenAI的向量數據庫合作方Pinecone,成立至今一共完成四輪融資,總金額更是達到了1.38億美元。

而像Weaviate、Qdrant等小一些的創業公司,融資金額也都達到了數千萬美元。

向量數據庫王冠易主!零一萬物新成果登頂權威榜單,比前SOTA領先最高286%

總之,隨著大模型發展進入白熱化階段,零一萬物在這時加入這場競爭,向量數據庫之后格局會如何變化?值得期待。

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章