首頁 > AI資訊 > 行業動態 > 谷歌「誠意之作」,開源9B、27B版Gemma2,主打高效、經濟!

谷歌「誠意之作」,開源9B、27B版Gemma2,主打高效、經濟!

新火種    2024-11-17

性能翻倍的Gemma 2, 讓同量級的Llama3怎么玩?

AI賽道上,科技巨頭們激烈角逐。前腳有GPT-4o問世,后腳就出現了Claude 3.5 Sonnet。如此激烈的爭斗中,谷歌雖然發力較晚,但在短時間內就能有顯著的能力跟進,可見其技術發展與創新的潛力。除了Gemini模型外,Gemma這一系列輕量級的SOTA開放模型似乎與我們距離更近。它基于Gemini模型相同的研究和技術構建,旨在讓每個人都擁有構建AI的工具。谷歌持續擴展Gemma家族,包括CodeGemma、RecurrentGemma和PaliGemma——每個模型都為不同的AI任務提供獨特的能力,并且可以通過與Hugging Face、NVIDIA和Ollama等合作伙伴輕松訪問。

圖片

現在,Gemma家族迎來新成員——Gemma 2,延續短小精悍傳統。Gemma 2此次提供的90億(9B)和270億(27B)參數的兩個版本,其推理性能和效率均優于第一代,并具有顯著的安全性改進。事實上,270億參數版本可以與體積超過其兩倍的模型進行同等級別的競爭,并且提供了此前只有專有模型才能實現的性能,而這種性能現在可以在單個NVIDIA H100 Tensor Core GPU或TPU主機上實現,從而大大降低了部署成本。

圖片

谷歌團隊在重新設計的架構上構建了Gemma 2,使得這位Gemma家族的新成員既能提供卓越的性能,又具有高效的推理能力。簡要概括一下,性能、成本、推理是它的突出特點:性能卓越:Gemma 2 27B模型在其同體積類別中提供了最佳性能,甚至可以與體積超過其兩倍的模型競爭。9B Gemma 2模型也在其同等體積類別中表現出色,并超越了Llama 3 8B和其他同類開放模型。高效率、低成本:27B Gemma 2模型設計用于在單個Google Cloud TPU主機、NVIDIA A100 80GB Tensor Core GPU或NVIDIA H100 Tensor Core GPU上以全精度高效運行推理,在保持高性能的同時大幅降低成本。這使得AI部署更加便捷和經濟實惠。超高速推理:Gemma 2經過優化,能夠在各種硬件上以驚人的速度運行,無論是強大的游戲筆記本、高端臺式機,還是基于云的設置。使用者可以在Google AI Studio上嘗試全精度運行Gemma 2,也可以在CPU上使用Gemma.cpp的量化版本解鎖本地性能,或者通過Hugging Face Transformers在家用電腦上使用NVIDIA RTX或GeForce RTX進行嘗試。

圖片

以上是 Gemma2 與 Llama3、Grok-1 的得分數據對比。

其實從各項得分數據來看,此次開源的 9B 大模型優勢不是特別明顯。近1個月前智譜AI 開源的國產大模型 GLM-4-9B 更具有優勢。

圖片

此外,Gemma 2不僅更強大,還設計得更易于集成到工作流程中。谷歌為開發者提供了更多的可能性,讓他們能夠更輕松地構建和部署AI解決方案。開放且易于訪問:與原始Gemma模型一樣,Gemma 2允許開發者和研究人員共享和商業化創新成果。廣泛的框架兼容性:Gemma 2兼容主要的AI框架,如Hugging Face Transformers,以及通過Keras 3.0、vLLM、Gemma.cpp、Llama.cpp和Ollama原生支持的JAX、PyTorch和TensorFlow,使其能夠輕松與用戶偏好的工具和工作流程結合。此外,Gemma已通過NVIDIA TensorRT-LLM優化,可以在NVIDIA加速的基礎設施上運行,或作為NVIDIA NIM推理微服務運行,未來還將優化NVIDIA的NeMo,并且可以使用Keras和Hugging Face進行微調。除此之外,谷歌正在積極升級微調能力。輕松部署:從下個月開始,Google Cloud客戶將能夠在Vertex AI上輕松部署和管理Gemma 2。谷歌還提供了由一系列實用示例和指南構成的新Gemma Cookbook,旨在幫助構建使用者自己的應用程序并針對特定任務微調Gemma 2模型。Gemma Cookbook鏈接:https://github.com/google-gemini/gemma-cookbook與此同時,谷歌還向開發者提供了前段時間在I/O大會上官宣的Gemini 1.5 Pro的200萬上下文窗口訪問權限、Gemini API的代碼執行功能,并在Google AI Studio中添加了Gemma 2。在最新的博客中,谷歌宣布向所有開發者開放了Gemini 1.5 Pro的200萬token上下文窗口訪問權限。但是,隨著上下文窗口的增加,輸入成本也可能增加。為了幫助開發者減少使用相同token的多prompt任務成本,谷歌貼心地在Gemini API中為Gemini 1.5 Pro和1.5 Flash推出了上下文緩存功能。為解決大型語言模型在處理數學或數據推理時需要生成和執行代碼來提高準確性,谷歌在Gemini 1.5 Pro和1.5 Flash中啟用了代碼執行功能。開啟后,模型可以動態生成并運行Python代碼,并從結果中迭代學習,直到達到所需的最終輸出。執行沙盒不連接互聯網,并標配一些數值庫,開發者只需根據模型的輸出token進行計費。這是谷歌在模型功能中首次引入代碼執行的步驟,今天即可通過Gemini API和Google AI Studio中的「高級設置」使用。谷歌希望讓所有開發者都能接觸到AI,無論是通過API密鑰集成Gemini模型,還是使用開放模型Gemma 2。為了幫助開發者動手操作Gemma 2模型,谷歌團隊將在Google AI Studio中提供其用于實驗。以下是Gemma2的技術實驗報告,我們可以從多個角度深度解析了技術細節。

圖片

論文地址:https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf博客地址:https://blog.google/technology/developers/google-gemma-2/技術細節與之前的 Gemma 模型類似,Gemma 2 模型也是基于僅解碼器的transformer架構。表 1 總結了模型的主要參數和架構選擇。

圖片

部分結構要素與第一版 Gemma 模型相似,即上下文長度為 8192 個 token、使用旋轉位置嵌入(RoPE)和近似 GeGLU 非線性。Gemma 1 和 Gemma 2 有一些不同之處,包括使用了更深的網絡。主要差異總結如下:局部滑動窗口和全局注意力。研究團隊在每隔一層中交替使用局部滑動窗口注意力和全局注意力。局部注意力層的滑動窗口大小設置為4096個token,而全局注意力層的跨度設置為8192個token。Logit軟封頂。根據Gemini 1.5的方法,研究團隊在每個注意力層和最終層限制logit,使得logit的值保持在?soft_cap和+soft_cap之間。對于9B和27B模型,研究團隊將注意力對數封頂設置為50.0,最終對數封頂設置為30.0。截至本文發表時,注意力logit軟封頂與常見的FlashAttention實現不兼容,因此他們已從使用FlashAttention的庫中移除了此功能。研究團隊對模型生成進行了有無注意力logit軟封頂的消融實驗,發現大多數預訓練和后期評估中,生成質量幾乎不受影響。本文中的所有評估均使用包含注意力logit軟封頂的完整模型架構。然而,某些下游性能可能仍會受到此移除的輕微影響。使用RMSNorm進行post-norm 和pre-norm。為了穩定訓練,研究團隊使用RMSNorm對每個變換子層、注意力層和前饋層的輸入和輸出進行歸一化。分組查詢注意力。27B和9B模型均使用GQA,num_groups = 2,基于消融實驗表明在保持下游性能的同時提高了推理速度。谷歌提供了預訓練部分不同于Gemma 1的簡要概述。他們在主要為英文數據的13萬億token上對Gemma 2 27B進行了訓練,并對9B模型進行了8萬億token的訓練,對2.6B模型則進行了2萬億token的訓練。這些token來自各種數據源,包括網頁文檔、代碼和科學文章。模型并不是多模態的,也沒有專門為最先進的多語言能力進行訓練。最終的數據混合通過類似于Gemini 1.0的消融研究所確定。研究團隊使用TPUv4、TPUv5e和TPUv5p進行模型訓練,細節如下方表3所示。

圖片

在后訓練中,谷歌將預訓練模型微調為指令調整模型。首先,在混合的純文本、純英文合成和人工生成的prompt-響應對上應用監督微調(SFT)。然后,在這些模型上應用基于獎勵模型(RLHF)的強化學習,獎勵模型訓練基于token的純英文偏好數據,策略則與SFT階段使用相同的prompt。最后,通過平均每個階段獲得的模型以提高整體性能。最終的數據混合和訓練后方法,包括調優的超參數,都是基于在提高模型有用性的同時最小化與安全性和幻覺相關的模型危害來選擇的。Gemma 2模型的微調采用了與Gemma 1模型不同的格式模式。谷歌使用了相同的控制token,具體如表4所述,表5中則提供了對話示例。

圖片

圖片

實驗及評估在表6中可以發現,與從頭開始訓練相比,從更大的模型中提煉出來的結果提高了性能。需要注意的是,500B個token是2.6B模型最佳計算token數的10倍。研究團隊從7B模型進行蒸餾,以保持與從27B模型蒸餾到9B模型相似的比例。

圖片

在表7中,谷歌團隊測量了隨著模型規模增加進行蒸餾的影響。可以觀察到,隨著模型規模的擴大,這種增益仍然存在。在此消融實驗中,研究團隊保持教師模型的規模為7B,并訓練較小的模型以模擬最終教師和學生模型規模之間的差距。

圖片

此外,谷歌考慮到prompt/評估格式變化的影響,測量了在MMLU上的性能方差,如表11所示。Gemma 2B模型在格式穩健性方面略遜于較大的模型。值得注意的是,Mistral 7B在穩健性方面顯著低于Gemma系列模型。

圖片

研究團隊還評估了在13萬億token上訓練的27B模型(未經過蒸餾)的性能,并與類似規模的Qwen1.5 34B模型以及規模大2.5倍的LLaMA-3 70B模型在HuggingFace評估套件上的表現進行了比較,在表12中列出了評估結果。模型的選擇依據基于其在HuggingFace排行榜上的排名。總體來看,Gemma-2 27B模型在其規模類別中表現最佳,甚至可以與訓練時間更長的大模型進行同級別競爭。

圖片

Gemma-2 27B和9B指令微調模型在Chatbot Arena中進行了盲測評估,由人類評估員與其他SOTA模型進行對比。研究團隊在圖1中報告了ELO評分。

圖片

除此之外,研究團隊通過讓人類評估員與模型進行對話,并遵循指定的場景進行測試,評估了Gemma 1.1 7B、Gemma 2 9B和27B模型的多輪對話能力。谷歌使用了一個包含 500 個場景的多樣化保留集合,每個場景描述了對模型的一系列請求,包括頭腦風暴、制定計劃或學習新知識。用戶平均交互次數為8.4次。最終發現,與Gemma 1.1相比,用戶對Gemma 2模型的對話滿意度和對話目標實現率的評價顯著更高(見表15)。此外,Gemma 2模型在從對話開始到后續輪次中,相比于Gemma 1.1 7B能夠更好地保持高質量的回應。

圖片

更多細節,請閱讀原論文。
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章