當直接從BI轉到生成式AI時,是否意味著跳過了機器學習
當今世界,人們都在談論生成式人工智能。全世界都知道所有最新的GenAI概念和術語——因此,你會比以往聽到更多這樣的話:“這個詞不等于token”。全世界都開始實施至少一個或兩個GenAI用例,當然——我引用它的意思是“改變生活”。
因為GenAI是BI之后的下一個新事物。整個世界不知何故跳過了ML。
機器學習意味著什么?
從我在分析開發前線工作的日子里,我了解數據分析積壓的現實情況。
這些大量的業務需求都要求新的見解來簡化決策,并且有一個共同的驗收標準:
“必須與利益相關者一起驗證模型/管道及其輸出,以確保它們滿足業務要求和決策需求。”
現在想象一下這種情況:
您正在參加UAT會議,向您的利益相關者——一位電子商務CEO展示您的新預測模型。
您使用相同的查詢對您的模型進行了三次實時測試:“明年前5個垂直行業的收入預測是多少?”
每次都會得到不同的輸出。對于兔子食品,第一次運行顯示增長12%,第二次增長8.5%,第三次增長15.2%。
首席執行官身體前傾,明顯有些擔憂。她問道:“哪一個是正確的?”
你解釋說,根據GenAI流程,所有輸出都被視為有效結果。然后你開始解釋你的流程架構和其中的LLM—最少的數據預處理,以及對快速工程的大量依賴以及一些LLM參數調整(溫度、top-p、top-k)。
然而,她的表情說明了一切:您的管道產生的這種程度的變化無法產生可靠的戰略規劃。
她需要一個數字,而您為她提供了這批數字。您的解決方案無法指導她或其他業務同事將每個垂直行業預測增長的20%分配給明年的營銷預算——這個數字通常上限為500萬美元。
經歷這次慘敗后,她知道最好請你做一個BI模型,讓你“手動”計算每個垂直行業的歷史月收入增長百分比,并據此推斷未來的增長。然后,依靠這些見解和內部人員的市場專業知識,她可以獲得更可靠的預算數字。
就這樣,從GenAI你又回到了BI+human模型。
您了解我這個簡短且戲劇性場景的要點。
由于涉及大筆資金,我懷疑任何CEO都不會愿意使用GenAI來預測重要的財務KPI。當然,他們知道每次他們向LLM詢問市場預測時,都會得到不同的答復。
盡管如此,這就是我最近在熱議的內容——客戶要求數據、分析、機器學習和人工智能專家為機器學習問題實施GenAI解決方案。
這證實了我最近對這個問題的懷疑:
該行業是否以某種方式忽視了一系列最有可能解決其當前大多數業務問題的機器學習模型?
這些模型,除其他外,廣告a最有可能更便宜,并且廣告b具有確定性。誰不想將兩者與可以提高生產力的“其他”模型結合起來呢?
帶著這個想法,讓我們回歸本源,了解何時使用ML。
*腳注:GenAI是ML的一個“專業分支”。從處理數據到優化模型參數,其核心原理仍然植根于ML基本原理。
GenAI的獨特之處在于,它主要能夠生成全新的內容(如圖像、文本或其他創意輸出),而不是僅僅關注分析和根據歷史模式預測結果。
這種區別并不否定GenAI屬于更廣泛的ML領域;它只是強調不同的ML方法適合不同的業務目標。那么什么時候使用?也許更恰當的說法是“什么時候不使用?”
在廣泛的商業問題領域中,傳統機器學習都發揮了作用,并且其表現優于GenAI:
當您需要一致、確定性的輸出時。
確定性:相同輸入=相同輸出。傳統ML模型通常會在給定相同輸入數據的情況下提供相同的結果。
當你擁有具有清晰模式的結構化歷史數據
,并且想要基于它進行預測時,可以獲得基于過去數據的精確分類和預測。
當可解釋性很重要時。
一些ML模型(尤其是線性模型、決策樹及其集成)可以告訴您它們做出預測的原因。“收入將增長12%,因為因素X、Y和Z分別貢獻了3%、5%和4%。”與“語言模型說是12%。或8%。或15%。”
除了準確性之外,您還需要考慮成本。
使用專門構建的算法處理較小、集中的數據集通常需要較少的計算資源,這也反映在成本中。
但根本的區別是:預測和生成是用不同的模型解決不同的問題。
你應該相應地利用它們:
機器學習模型適用于需要從結構化數據中獲取可靠結果的
業務問題——無論是收入增長、客戶流失率,還是其他類似的場景,您都應該提供“一個數字”作為答案。
GenAI模型
可用于執行諸如集思廣益、快速起草Python代碼來為您的ML管道制作原型,以及隨后創建面向用戶的內容以更“業務可接近”的方式傳達您的ML見解等任務。
因為這兩組模型都有各自的價值,并且其中一組可以增強另一組。
那么,現在該怎么辦?
如果您是一名數據專業人士,面臨著“使用GenAI做點什么”的壓力,請退一步考慮幾個問題,這些問題可以幫助您為堅持實施GenAI的利益相關者準備論據。
我們要解決什么問題?
我們是否需要預測特定的KPI,在[客戶]數據集中尋找模式,或者集思廣益如何向CEO展示見解?換句話說,這個問題是需要確定性輸出還是創造性探索?
更重要的是,我們是否計劃用我們的產出來分配數百萬的預算?
我們已經擁有哪些類型的數據可用于解決此問題?是具有清晰模式的結構化歷史數據,還是非結構化/基于文本的信息?
在這種情況下,可解釋性有多重要?利益相關者是否需要準確了解我們如何得出特定的預測,還是最終結果就足夠了?
除此之外,你還可以通過參考人工智能大咖對機器學習的看法來構建自己的論點。例如,吳恩達指出的是:
“監督學習等技術背后仍有巨大的發展勢頭,尤其是因為正確標記數據如此有價值。這種上升勢頭告訴我,在未來幾年,監督學習將比生成式人工智能創造更多的價值。”
最后,重要的是,您的利益相關者要充分理解為什么為每項特定任務選擇正確的工具對于成功至關重要。確定性、可解釋性、數據準備、成本和業務需求等因素應指導這一決策過程。
這并不意味著你會忽視GenAI的存在。
您將使用它來完成更具創造性的任務,例如起草文檔、快速制作原型或用您最初不會想到的例子解釋見解。
這種組合將幫助您更快地解決分析積壓問題,同時確保利益相關者獲得他們可以信賴的數字。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。