幫助企業(yè)打造大模型超級員工!星塵數(shù)據(jù)AI數(shù)據(jù)閉環(huán)產品,打通AI數(shù)據(jù)全生命周期管理
星塵數(shù)據(jù)正式發(fā)布MorningStar,一款面向AI的數(shù)據(jù)閉環(huán)產品。
據(jù)介紹,這是當前首個專注數(shù)據(jù)價值發(fā)現(xiàn)的AI數(shù)據(jù)平臺。基于DataOps的理念打造,全面覆蓋AI算法從訓練到生產全鏈路中的數(shù)據(jù)發(fā)現(xiàn)、管理、協(xié)作、迭代等各個環(huán)節(jié)。
在大模型時代,各行各業(yè)都需要基于自身數(shù)據(jù)打造超級員工,以提高企業(yè)的生產效率。模型和算力可以購買,但數(shù)據(jù)需要精細化、全流程的管理,才能釋放真正的價值。
企業(yè)需要搭建一個可發(fā)現(xiàn)、可管理、可協(xié)作、可迭代的數(shù)據(jù)管道,才能具備獲取數(shù)據(jù)、生產數(shù)據(jù)、持續(xù)迭代數(shù)據(jù)的能力,促進內部以數(shù)據(jù)為中心的協(xié)作,從而在AI2.0時代中獲得核心競爭力。
MorningStar應運而生,全面覆蓋AI算法從訓練到生產全鏈路中的數(shù)據(jù)管理、迭代、優(yōu)化、挖掘等閉環(huán)鏈路,致力于幫助企業(yè)建立高效的數(shù)據(jù)閉環(huán)系統(tǒng),實現(xiàn)數(shù)據(jù)價值最大化和模型效果最優(yōu)化,助力打造差異化競爭力壁壘。
從功能上看,MorningStar集成了八大功能,其自動化工作流能夠確保數(shù)據(jù)在每個階段都能得到妥善管理和最優(yōu)化。
數(shù)據(jù)可視化:支持多源、多格式、異構的結構化數(shù)據(jù)統(tǒng)一管理,實現(xiàn)全面而高效的數(shù)據(jù)收集與存儲。
數(shù)據(jù)生命周期管理:用戶可以通過平臺進行數(shù)據(jù)流程的編排和調度,實現(xiàn)數(shù)據(jù)的自動化處理和轉換,同時記錄全生命周期數(shù)據(jù)信息,確保數(shù)據(jù)的可追溯性和操作的可復現(xiàn)性。
數(shù)據(jù)探索:提供超大規(guī)模AI數(shù)據(jù)管理能力,用戶可以利用平臺的強大搜索功能,通過多語義、跨模態(tài)等方式快速找到所需的數(shù)據(jù),并進行可視化分析。
難例發(fā)現(xiàn):集成主流難例發(fā)現(xiàn)策略,如主動學習等,為算法工程師提供數(shù)據(jù)特征分布、可視化和模型指標計算等便捷功能。
人類反饋:創(chuàng)建高質量的人類反饋通道,一鍵送標至自動化標注系統(tǒng)Rosetta。
數(shù)據(jù)合成:支持可控數(shù)據(jù)生成,填補現(xiàn)實世界中的數(shù)據(jù)空白,提高模型的魯棒性和適應性。算法指標跟蹤:支持SDK,打通算法和數(shù)據(jù)的反饋閉環(huán),可進行算法管理和指標評測,提升模型迭代的效率和可靠性。
數(shù)據(jù)連接:推理管理與性能監(jiān)控,實現(xiàn)模型部署和優(yōu)化的高效循環(huán)。
其中,數(shù)據(jù)生命周期管理、難例發(fā)現(xiàn)、數(shù)據(jù)資產管理、指標跟蹤等功能尤其值得關注。
以數(shù)據(jù)生命周期管理為例,算法工程師可以通過MorningStar進行AI數(shù)據(jù)生命周期的管理,強化數(shù)據(jù)版本控制、快捷數(shù)據(jù)切片、可追溯數(shù)據(jù)血緣和安全管控。平臺的自動化工作流能夠確保數(shù)據(jù)在每個階段都能得到妥善管理和最優(yōu)化處理。
再以難例發(fā)現(xiàn)為例,作為首款集合難例發(fā)現(xiàn)策略的數(shù)據(jù)閉環(huán)產品,MorningStar能夠保證模型訓練過程可追蹤可迭代。通過一系列數(shù)據(jù)追溯、模型調試和分析生成工具,助力實現(xiàn)和維護高質、可復現(xiàn)的Al模型。
△數(shù)據(jù)溯源:通過數(shù)據(jù)流實現(xiàn)對算法評測所用數(shù)據(jù)的隨時溯源。
△版本對比
通過選擇不同的數(shù)據(jù)版本,實現(xiàn)算法預測結果和真值的對比,并結合可視化功能便捷地定位和分析難例數(shù)據(jù)。
△指標追蹤和效果檢測
MorningStar通過 SDK 便捷地打通模型訓練環(huán)境和訓練數(shù)據(jù)分析管理、指標分析環(huán)境,便捷地進行算法迭代。
一位自動駕駛算法工程師曾反饋,原本需要花費1天時間才能發(fā)現(xiàn)的難例,通過平臺只需要1-2小時即可,大大提高了迭代效率。
章磊表示:“MorningStar的目標用戶主要分為三類:機器學習算法工程師、業(yè)務人員、研發(fā)負責人。對于不同的用戶,我們的平臺可以滿足各種需求,包括發(fā)現(xiàn)數(shù)據(jù)中的難例,跟蹤指標,記錄數(shù)據(jù)全生命周期等等,從而讓數(shù)據(jù)價值最大化,模型更好地迭代。”
值得一提的是,星塵數(shù)據(jù)聯(lián)合港科大打造的CIF-Bench自動化評測即將上線MorningStar!28個模型評測榜單,重點評估了20 種基礎維度,考察模型在150 類任務上的指令遵循能力,
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。