開源大模型的ChatGPT時刻?備受期待的Llama3405B即將發布
千呼萬喚始出來,原定于23日發布的Llama 3 405B就要來了。
作為Llama 3系列中的頂配,405B版本擁有4050億個參數,是迄今為止最大的開源模型之一。
昨夜凌晨,META突發Llama 3.1-405B評測數據的泄漏事件,有網友預計可能還會同時發布一個Llama 3.1-70B版本,因為“(模型提前泄露)是META的老傳統了,去年的Llama模型就干過一次。”
有分析認為,Llama 3 405B不僅僅是人工智能能力的又一次提升,對于開源AI 來說,“這是一個潛在的ChatGPT時刻”,其中最先進的人工智能真正實現民主化并直接交到開發人員手中。
對即將到來的 Llama 3 405B 公告的三個預測
AI芯片公司SambaNova的軟件產品主管Anton McGonnell在一份報告中,從數據質量、模型生態系統、API解決方案三個角度,預測了即將到來的Llama 3 405B公告中的亮點。
首先,Llama 3 405B或許會徹底改變專用模型的數據質量。
對于專注于構建專業AI模型的開發人員來說,他們面臨的長期挑戰是獲取高質量的訓練數據。較小的專家模型(1-10B 個參數)通常利用蒸餾技術,利用較大模型的輸出來增強其訓練數據集。然而,使用來自OpenAI等閉源巨頭的此類數據受到嚴格限制,限制了商業應用。
Llama 3 405B應運而生。作為一款與專有模型實力相媲美的開源巨頭,它為開發人員創建豐富、不受限制的數據集提供了新的基礎。這意味著開發人員可以自由使用Llama 3 405B的蒸餾輸出來訓練小眾模型,從而大大加快專業領域的創新和部署周期。預計高性能、經過微調的模型的開發將激增,這些模型既強大又符合開源道德規范。
其次,Llama 3 405B將形成新的模型生態系統:從基礎模型到專家組合
Llama 3 405B的推出可能會重新定義AI系統的架構。該模型的龐大規模(4050 億個參數)可能意味著一種一刀切的解決方案,但真正的力量在于它與分層模型系統的集成。這種方法對于使用不同規模AI的開發人員來說尤其具有共鳴。
預計會轉向更具動態的模型生態系統,其中Llama 3 405B充當骨干,由小型和中型模型提供支持。這些系統可能會采用推測解碼等技術,其中不太復雜的模型處理大部分處理,僅在必要時調用405B模型進行驗證和糾錯。這不僅可以最大限度地提高效率,而且還為優化實時應用程序中的計算資源和響應時間開辟了新途徑,尤其是在針對這些任務優化的SambaNova RDU上運行時。
最后,Llama 3 405B有最高效 API 的競爭
能力越大,責任越大——對于Llama 3 405B而言,部署是一項重大挑戰。開發人員和組織需要謹慎應對模型的復雜性和運營需求。AI云提供商之間將展開競爭,以提供部署Llama 3 405B最高效、最具成本效益的API解決方案。
這種情況為開發人員提供了一個獨特的機會,可以與不同的平臺互動,比較各種API如何處理如此龐大的模型。這個領域的贏家將是那些能夠提供API的人,這些API不僅可以有效地管理計算負載,而且不會犧牲模型的準確性或不成比例地增加碳足跡。
總之,Llama 3 405B不僅僅是AI武器庫中的又一個工具;更是向著開放、可擴展和高效的 AI 開發的根本轉變。分析認為,無論是在微調小眾模型、構建復雜的AI系統還是優化部署策略,Llama 3 405B的到來都將為用戶打開新的視野。
網友們怎么看?
網友在LocalLLaMA子Reddit板塊中發帖,分享了4050億參數的Meta Llama 3.1信息,從該AI模型在幾個關鍵AI基準測試的結果來看,其性能超越目前的領先者,即OpenAI的GPT-4o,這標志著開源模型可能首次擊敗目前最先進的閉源LLM模型。
如基準測試所示,Meta Llama 3.1在 GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem和 winograd等多項測試中均優于 GPT-4o,但是,它在 HumanEval和 MMLU-social sciences方面卻落后于 GPT-4o。
賓夕法尼亞大學沃頓商學院副教授伊桑·莫利克(Ethan Mollick)寫道:
如果這些統計數據屬實,那么可以說頂級 Al 模型將在本周開始免費向所有人開放。
全球每個國家的政府、組織和公司都可以像其他人一樣使用相同的人工智能功能。這會很有趣。
有網友總結了Llama 3.1模型的幾個亮點:
模型使用了公開來源的15T+tokens進行訓練,預訓練數據截止日期為2023年12月;
微調數據包括公開可用的指令微調數據集(與Llama 3不同)和1500萬個合成樣本;
模型支持多語言,包括英語、法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語。
有網友表示,這是首次開源模型超越了GPT4o和Claude Sonnet 3.5等閉源模型,在多個benchmark上達到SOTA。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。