首頁 > AI資訊 > 最新資訊 > 大模型商業化難題待解幫企業提升數據質量會是一個新方向嗎?

大模型商業化難題待解幫企業提升數據質量會是一個新方向嗎?

界面新聞    2024-11-29

  “百模大戰”爆發一年后,大模型雖然在智能辦公、金融和教育等領域有了一些落地應用,但商業化落地難的問題并沒有完全得到解決。

  近日,獵戶星空發布了一款自主研發的大模型Orion-MoE8×7B,試圖去探索一些能夠破解上述難題的新方向。

  Orion-MoE8×7B大模型擁有8×70億參數,采用了生成式混合專家的設計,支持中文、英語、日語、韓語等多種語言。與同規模參數級別的基座大模型對比,Orion-MoE8×7B大模型在推理速度方面展現出一定優勢。

  獵戶星空首席科學家韓堃對界面新聞表示,很多時候大模型用來聊天體驗還不錯,但要放到比較嚴肅的任務型或企業級技術應用中,效果總是不好,核心的原因就在于數據。“用更好的數據賦能大模型,其在應用中才能真正發揮價值。”

  近年來,隨著AI大模型進入爆發增長期,算力、算法、數據成為發展的關鍵三要素。相比于算法和算力,在大模型的商業閉環中,數據會直接影響其在垂直行業落地的效果。

  獵戶星空董事長傅盛解釋了背后的原因,稱算力的供應商都是一致的,差距僅限于各家公司購買GPU規模的不同,算法也基本差不多,大模型的能力靠的就是數據,“之前并沒有人捅破這層窗戶紙”。

  而該公司新發布的大模型Orion-MoE8×7B正是看準了市場對高質量訓練數據的需求。其在研發基礎模型的同時,也聯合獵豹移動旗下聚云科技共同推出大模型數據服務產品AI數據寶AirDS,為有大模型應用需求的企業提供數據收集、清洗、標注、提示詞工程以及評估等服務。

  這相當于,獵戶星空研發了基礎模型和應用,幫助其他有大模型落地需求的企業提升訓練數據質量,而這項服務本身有望讓Orion-MoE8×7B大模型實現商業化落地。

  據界面新聞了解,目前大模型的訓練數據標注主要還是依靠人工。但大模型訓練需要的數據量非常大,人工標注或者數據清理的速度往往難以跟上市場的需求,成本也相當高。如果通過大模型對海量數據進行篩選、清理、去重,就能實現降本提效。

  不可否認的是,目前大模型在數據處理上還不能完全替代人工,在一些對數據質量要求比較高或者難度比較大的場景中,人工進行精細的標注和篩選更為合適。

  一位大模型技術人士告訴界面新聞,未來的數據服務應該是AI+人工結合的方式。AI大模型的價值是把數據的規模快速提升上來,“如果數據質量非常高,但數據量不夠,大模型的訓練仍然會出現瓶頸。”

  這意味著,通過大模型進行數據處理的市場需求會大大增加,那些具備對外開放數據能力的廠商也將得到更多的發展機會。

(文章來源:界面新聞)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章