首頁 > AI資訊 > 最新資訊 > 浩鯨科技鯨智BI大模型發布,從算法炫技到價值落地

浩鯨科技鯨智BI大模型發布,從算法炫技到價值落地

新火種    2024-09-22

國內行業大模型的“江湖風云”,如今已悄然從純算法網絡PK轉向了“實戰派”較量。這不再是單一的技術炫技場,而是看誰能在現實世界中大展拳腳,舞出最炫的“應用落地”舞步,從真正意義上實現提效,創造出實實在在的社會價值。

9月20日,浩鯨科技·鯨智大模型發布會在云棲大會舉行,其中,BI大模型受到行業廣泛關注。據了解,基于鯨智BI大模型構建的鯨智ChatBI工具在中國信通院可信AI評估中,跨越四大智能領域門檻,通過20項能力測試,成為首批首個通過基于大模型的商業智能系統評估的產品,評級達業內最高4+級,彰顯其綜合能力與智能技術的領先地位。

浩鯨科技數據智能首席專家吳名朝在發布會現場稱,BI場景擁抱大模型過程中,在知識構建、問數準確、模型泛化等層面其實還存在很多技術挑戰。

浩鯨科技鯨智BI大模型發布,從算法炫技到價值落地BI大模型落地仍存在諸多挑戰

隨著數字化轉型的持續推進,企業面臨數據量與業務復雜度雙重增長的挑戰。數據架構需升級以支持高效決策,并應對跨部門、跨流程、跨系統的復雜數據分析需求,這要求分析人員具備高階數據分析能力,提供整合的數據分析、商業智能及機器學習解決方案,確保各類數據需求獲得統一、流暢的體驗。

浩鯨科技鯨智BI大模型發布,從算法炫技到價值落地

傳統的解決方法是建立端到端的Text2SQL模型,通過語義理解用戶的數據請求,通過模型翻譯成可執行的SQL語句輸出所需數據。然而,這一方式雖有所成效,卻也暴露出顯著局限:

問法多樣,容錯性?。好鎸τ脩舳鄻踊?、口語化的數據需求,端到端的Text2SQL模型在架構層面略顯單薄;知識點多,邏輯復雜:大量的BI知識分散在報表,指標元數據,視圖和腳本中,關系斷裂,知識缺失。

為解決上述問題,浩鯨科技積極探索大模型技術與數據分析工程化的深度融合。通過結合大模型強大的自然語言理解能力和BI領域多年的經驗積累,實現對話式的數據查詢與快速分析,降低用戶獲取數據、理解數據的門檻。用戶只需簡單表述其需求,系統便能迅速生成專業且美觀的數據圖表。

據吳名朝介紹,浩鯨科技鯨智ChatBI圍繞“取數、看數、用數”全分析流程,打造智能意圖識別、智能圖表生成、智能數據推薦、智能數據洞察等能力,幫助用戶建設易用的數據分析“副駕”,讓企業用戶可以像聊天一樣只需一句話提問,即可輕松地獲取所需的數據分析結果,無需編寫復雜的查詢語句。

技術實現:標準化數據管理,規范數據入口是第一步

從BI大模型的技術實現上看,基于語義理解的SQL生成任務需要精準理解用戶查詢的指標和相關維度。為了增強問數服務層的數據精度與效能,浩鯨科技的BI大模型團隊聚焦于構建一套全面的BI知識數據管理體系。

該體系深刻涵蓋了業務術語、同義詞匯、原子術語、關鍵指標、多維數據以及庫表模型等核心要素的精細化管理。這一舉措旨在通過深化行業知識的嵌入,彌補基礎大模型在垂直行業的知識短板,以及促進上下文間精確而緊密的互聯,為大數據分析與用戶決策提供更加堅實的信息基石。

浩鯨科技鯨智BI大模型發布,從算法炫技到價值落地

通過整理并優化行業專屬術語庫,確保每一個業務概念都能得到準確表達。同時,建立同義詞語數據管理系統,以解決自然語言處理中的語義模糊問題,使模型能夠靈活應對多樣化的語言表述。此外,針對關鍵性能指標和多維度數據的精細化管理,浩鯨科技構建了一套高效的指標與維度數據管理體系,助力用戶深入挖掘數據價值,發現潛在趨勢與規律。

更為關鍵的是,通過庫表模型數據管理的實施,為大模型注入了強大的結構化數據支持,這不僅增強了模型對于復雜數據關系的理解能力,還賦予了其基于先驗知識的推理與推斷能力。這一過程實現了知識數據與大模型的深度融合與相互促進,使得機器能夠更加精準地把握人類語言的深層含義,并在實際應用中展現出更高的精準度與魯棒性。

智能化知識識別和召回,解決多指標查詢難題

在BI問數的業務分析過程中,經常需要精確判斷用戶提及的指標是否涉及多個。面對用戶描述模糊、意圖表達不夠明確的情況,特別是當提問中包含了復雜的多主語、多層定語等結構時,通常需要先將這些提問細致拆解,隨后進行準確的識別與合理的組合,以確保能夠準確捕捉到用戶實際想要分析的所有指標。處理用戶查詢時識別和處理多指標的難點主要體現在以下幾個方面:

自然語言的不確定性和模糊性:用戶往往會用自然語言模糊表達問題,可能并未明確指出多個指標或條件。這種情況下,需要通過語言理解技術來推斷用戶潛在的意圖,并識別出其中涉及的多個主語、謂語或定語成分。多指標的拆解與組合:當用戶的查詢涉及多個指標時,需要將這些指標進行拆解,并分別識別出它們的意義。這一過程要求智能分析系統具備良好的句法分析能力和上下文理解能力,以便確定不同成分間的關系,然后將這些指標重新組合成搜索條件進行查詢。浩鯨科技鯨智BI大模型發布,從算法炫技到價值落地

與許多開源方案相比,浩鯨科技鯨智BI大模型進一步采用了知識召回模塊和輕度弱化Text2SQL的整體架構。旨在通過構建一系列高精度、高容錯的RAG組件,降低大模型在垂直領域下實現復雜場景的難度,并最大程度地優化了Text2SQL的幻覺問題:

術語識別模塊:根據術語構建的專有詞典進行專有術語分詞并對存在連接詞的短語進行句子拆分。語義解析模塊:構建針對查詢時間(時間標準化),行政區域,組織,排序條件,展示圖表,查詢目標,對比時間,統計函數(數學運算),數值條件(百分比,金額,身高,體重)等場景化的實體識別任務模塊,挖掘用戶提問中的關鍵信息點。術語召回模塊:用戶語義語句中關鍵實體的查詢和召回,與元數據進行關聯匹配并實現一系列召回增強操作。轉換融合模塊:對召回的多組信息進行特定策略融合,對query進行改寫并形成提供大模型推理的標準信息。虛擬視圖構建BI大模型全新范式

在BI問數的實踐中,查詢信息數據往往分布在多個維度表中,每個維度表都包含了描述數據的不同統計粒度或特有屬性。

浩鯨科技首創融合虛擬視圖技術,基于BI問數場景獨有的數據分布特性,通過智能化方法整合查詢過程中涉及的各類字段,包括但不限于維度字段、業務指標、度量值以及查詢條件等,構建出一系列針對特定查詢需求的臨時視圖作為大模型推理基礎依據。

這種“按需構建”的視圖策略,使大模型推理信息中僅包含查詢所必需的字段,不僅大幅減少了數據處理過程中的冗余信息,還提高了大模型執行效率和精確度。

浩鯨科技BI大模型聚焦于為特定業務領域量身打造并優化SQL生成模型,通過深度融合行業特定的數據庫架構(包括庫表結構)、業務邏輯中的語義信息、以及龐大的數據量等核心要素,旨在輸出針對該行業最為適配且高效的SQL查詢語句。與廣泛應用的Text2SQL模型形成鮮明對比,此方案巧妙地借助了大型預訓練模型對復雜行業語言模式的強大理解能力,并進一步利用精細化的業務數據資源進行微調,從而顯著提升模型在捕捉并轉化業務需求為精確SQL語句方面的能力,成功將行業相關用語的SQL正確轉換率推高至92%的卓越水平。

這一創新不僅代表了自然語言處理與BI數據庫查詢優化領域的深度融合與技術創新,更預示著在實際應用中,它能夠極大地提升業務系統的數據處理效率與準確性,為企業級用戶帶來前所未有的數據洞察能力與業務決策支持,無疑是技術與應用雙重價值并重的典范。

在發布會的最后,吳名朝表示,“BI大模型要完美的融入場景,還有很長的路要走,但我們愿意與行業伙伴、技術伙伴攜手共進,克服更多復雜場景下的應用難題”。

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章