“功能最強、成本偏低”!OpenAI發布GPT-4omini入局小模型競爭
OpenAI美東時間周四推出“GPT-4o mini”,入局“小而精”AI模型競爭,稱這款新模型是“功能最強、成本偏低的模型”,計劃今后整合圖像、視頻、音頻到這個模型中。
比GPT-3.5 Turbo便宜超過60% 聊天表現優于競品該公司表示,GPT-4o mini從周四起向ChatGPT的免費用戶、ChatGPT Plus和團隊訂閱用戶開放,并將在下周向ChatGPT企業用戶開放。GPT-4o mini將取代ChatGPT中的舊模型GPT-3.5 Turbo。OpenAI表示,GPT-4o mini的成本為每百萬輸入標記(token)15美分和每百萬輸出標記60美分,比GPT-3.5 Turbo便宜超過60%。
該公司還表示,新模型目前在聊天偏好上表現優于GPT-4模型,并在大規模多任務語言理解(MMLU)測試中獲得了82%的得分。媒體報道,MMLU是一種用于評估語言模型能力的文本智能和推理基準。更高的MMLU得分表明它可以在各種領域中更好地理解和使用語言,增強其在現實世界中的應用。
根據OpenAI的數據,GPT-4o mini模型的得分為82%,比另外兩款低成本競品更高,Google的Gemini Flash得分為77.9%,Anthropic的Claude Haiku得分為73.8%。
而在更大模型中,GPT-3.5在這項測試中的得分為70%,GPT-4o得分為88.7%,而Google聲稱其Gemini Ultra取得了有史以來最高的90%得分。
分析認為,較小的語言模型需要較少的計算能力運行,使其成為資源有限的公司部署生成式AI的更實惠的選擇。
此外,這個新的輕量化模型還將在API中支持文本和視覺功能,OpenAI表示,它很快就會處理所有多模態輸入和輸出,如視頻和音頻。擁有這些功能后,這可能會像更強大的虛擬助手一樣,能夠理解你的旅行行程并提出建議。然而,該模型目前只能主要用于簡單任務。
“小而精”AI模型競爭激烈 OpenAI最后入局媒體報道,由微軟支持的OpenAI的估值已超過800億美元,雖然在生成式AI市場仍然占據領頭羊地位,但該公司面臨的競爭壓力已經越來越大。OpenAI還需要找到賺錢的方式,因為該公司在處理器和基礎設施上花費了大量資金來構建和訓練其模型。
然而,不少公司無法負擔大型、更昂貴的模型,因此輕量化且廉價的模型可能更受歡迎。在此之前,許多開發人員會選擇Claude 3 Haiku或Gemini 1.5 Flash,而不是支付運行最強大模型所需的高昂計算成本。例如,一個較小的模型可能最適合自動化處理高量、基礎任務,而一個較大的模型則可能處理更復雜的工作。一些開發人員可能希望在一個應用程序中同時使用這兩種模型。
OpenAI的API產品負責人Olivier Godement在接受媒體采訪時解釋了為何該公司未能更早推出“小而精”的AI模型,他說,這純粹是“優先級”的問題,因為OpenAI專注于創建更大、更好的模型,如GPT-4,這需要大量的人力和計算資源。隨著時間的推移,OpenAI注意到開發人員越來越渴望使用較小的模型,因此公司決定現在是投入資源開發GPT-4o Mini的時機。
“我們的使命是使最前沿技術、構建最強大、最有用的應用程序,我們當然希望繼續做前沿模型,推動技術進步,”OpenAI的API產品負責人Olivier Godement在接受媒體采訪時說。“但我們也希望擁有最好的小模型,我認為它會非常受歡迎。”
“我認為GPT-4o Mini真正體現了OpenAI讓AI更加普及的使命。如果我們希望AI惠及世界的每一個角落,每一個行業,每一個應用,我們必須讓AI更加實惠。”OpenAI的API平臺產品負責人Olivier Godement對媒體表示。
GPT-4o?mini能幫助員工專心Godement表示,過去一周內,一些開發人員已經在試用這個模型。
OpenAI讓金融科技初創公司Ramp測試了這款模型,使用GPT-4o Mini構建了一個提取收據上的費用數據的工具。因此,用戶可以上傳收據照片,模型會為他們整理數據。電子郵件客戶端Superhuman也測試了GPT-4o Mini,并用它創建了一個自動建議郵件回復的功能。
最初,GPT-4o mini將能夠處理和生成文本和圖像。最終版本完成后,OpenAI表示它將能夠處理其他類型的內容。
OpenAI還表示,GPT-4o mini是該公司首個使用其新安全策略“指令層級”的AI模型。這種方法的目的是使AI系統優先處理某些指令——例如來自公司的指令——以使人們更難讓工具做不該做的事情。
分析認為,GPT-4o?mini模型是OpenAI致力于“多模態性”的一部分,即提供廣泛類型的AI生成媒體(如文本、圖像、音頻和視頻)在一個工具:ChatGPT中。
去年,OpenAI首席運營官Brad Lightcap告訴媒體:
“世界是多模態的。如果你考慮我們作為人類處理和參與世界的方式,我們看見東西,聽到東西,說話——世界不僅僅是文本。因此,對我們來說,只有文本和代碼作為單一模態、單一接口,感覺總是不完整的,因為這些模型的強大能力和它們能做的事情遠遠不止于此。”
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。