首頁 > AI資訊 > 最新資訊 > 第四范式、南洋理工聯合研究成果入圍國際頂會SIGMOD2024

第四范式、南洋理工聯合研究成果入圍國際頂會SIGMOD2024

新火種    2023-12-21

近日,第四范式與新加坡南洋理工大學教授Shuhao Zhang的最新聯合研究成果(亂序數據流中實現主動誤差補償的流式窗口連接,論文標題 PECJ: Stream Window Join on Disorder Data Streams with Proactive Error Compensation),被國際頂級數據庫學術會議 SIGMOD 2024 (ACM SIGMOD/PODS International Conference on Management of Data 2024)作為常規研究論文錄取。SIGMOD是數據庫領域的頂級會議,堪稱數據庫領域的"奧林匹克",入選論文代表了數據庫領域的最高水平。

流窗口連接(Stream Window Join,SWJ)是將兩個輸入流在不同的有限子集或窗口內進行連接的操作,是數據流分析的關鍵組成部分。與傳統的關系連接操作有所不同,SWJ 不等待完整的輸入數據就能實時生成連接結果。這類操作在實時領域有著重要的作用,廣泛應用于金融市場、欺詐檢測系統和傳感器網絡等流式計算場景下。

SWJ 面臨的挑戰之一是由于諸如網絡延遲等因素導致數據無序的到達。這種現象被稱為數據流震蕩。傳統方法下,處理這些無序數據流通常涉及緩沖輸入數據,來提供更全面的窗口內數據視圖,從而直接在潛在無序數據流上運行 SWJ。然而,由于其非線性特性,額外緩沖時間通常會導致大量延遲成本。

聯合團隊提出了一種新穎的解決方案:主動性誤差補償(PECJ),旨在主動管理無序數據流。與現有的僅依賴已到達的數據(即窗口內數據)的方法不同,PECJ 利用預測出未來的無序數據來提高Join準確性。這種創新的處理無序數據方法可在不增加延遲的情況下實現準確度提升。

第四范式利用AI解決企業實際商業問題時發現,諸如金融反欺詐等在高時效性、高準確性要求的場景中,由于網絡延遲、數據源不一致性等引起的影響數據流及時性的情況下,所需數據不能及時傳輸,會大幅影響風控系統的時效性及準確性。以股票交易所數據中心部署的在線異常檢測系統為例,考慮一筆可能用于惡意空頭交易的海外交易,理想情況下應在低至200毫秒的延遲內處理。然而,由于數據流震蕩的不可預測影響,這筆交易可能會經歷長達800毫秒或更長的延遲。傳統的處理方法有兩種,其一是舍時效保準確,等待延遲數據;其二是保時效舍準確,使用不完整的數據進行處理,但可能導致更低的準確性。在高風險的金融環境應用中,這兩種選擇都差強人意。

相比之下,PECJ通過預測分析,主動應對。具體來說,PECJ通過利用變分推斷(variation inference, VI)方法來估計未觀察數據的后驗分布(posterior distribution approximation, PDA),在保持系統延時不大幅增加的情況下,利用預測數據來提升系統的判斷準確性,在計算效率和準確性之間實現了一種平衡,使得系統能夠在對延遲極高敏感的金融環境中有效運作。此次,聯合團隊進一步將 PECJ 集成到多線程 SWJ 基準測試平臺(AllianceDB)中,在一些真實數據集(Stock)中,在相同的延時下,PECJ將錯誤率從高達47%降至1%。

未來,嵌入PECJ算法的第四范式機器學習開源數據庫項目 OpenMLDB 將逐步應用于更多行業高并發、高吞吐的業務場景,進一步提高流式數據的處理效率和可靠性。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章