零一萬物回應大模型架構爭議:結構設計基于GPT,借鑒行業公開成果
界面新聞記者 | 李京亞
界面新聞編輯 |
一周前剛完成大模型處女秀的零一萬物,今日被拱上風口浪尖。
11月14日上午,在零一萬物預訓練大模型Yi-34B的Hugging Face開源主頁上,一位名為ehartford的國外開發者質疑稱該模型使用了Meta的當家開源大模型LLaMA的架構,只對兩個張量(Tensor)名稱進行了修改,分別為 input_layernorm 和 post_attention_layernorm。所謂張量,是深度學習概念中的多維數組,其目的是能夠創造更高維度的矩陣、向量。
簡而言之,這位國外開發者認為, 李開復的Yi-34B其實是對Meta開源大模型LlaMa 的重構,只是改了幾個名字。
針對此番開發者指控,零一萬物方面對界面新聞作出了回應。零一萬物表示,GPT是一個業內公認的成熟架構,Llama在GPT上做了總結。零一萬物研發大模型的結構設計基于GPT成熟結構,借鑒了行業頂尖水平的公開成果,由于大模型技術發展還在非常初期,與行業主流保持一致的結構,更有利于整體的適配與未來的迭代。同時基于零一萬物團隊對模型和訓練的理解做了大量工作,也在持續探索模型結構層面本質上的突破。
“模型結構僅是模型訓練其中一部分。Yi開源模型在其他方面的精力,比如數據工程、訓練方法、baby sitting(訓練過程監測)的技巧、hyperparameter設置、評估方法以及對評估指標的本質理解深度、對模型泛化能力的原理的研究深度、行業頂尖的AI infra能力等,投入了大量研發和打底工作,這些工作往往比起基本結構能起到更大的作用跟價值,這些也是零一萬物在大模型預訓練階段的核心技術護城河?!绷阋蝗f物表示。
四個月前,李開復進軍大模型創業領域,他于11月6日正式披露了其AI創業公司零一萬物成立7個月以來的最新進展。Yi系列兩款大模型問世,包含34B和6B兩個版本,目前都已開放免費商用申請。據界面新聞的了解,目前零一萬物估值已達到獨角獸級別。
本次爭議性的Yi-34B是一個雙語基礎大模型,參數量達340億的Yi-34B,可支持200K超長上下文窗口,可處理約40萬漢字超長文本輸入,是目前全球最長的上下文窗口,刷新了楊植麟的moon shoot.ai、王小川的Baichuan2-192K的大模型記錄。
據悉,34B的大模型是李開復心目中基礎模型的黃金尺寸,其剛好達到了涌現的門檻,但又沒有過大,既滿足了精度的要求,又對訓練推理成本友好。
零一萬物方面稱,在大量訓練實驗過程中,由于實驗執行的需要對代碼做了更名,其尊重開源社區的反饋,將代碼進行更新,也更好的融入Transformer生態。

普遍而言,開源并不代表沒有版權,任何第三方使用都應該遵循其開源許可協議,而在法律層面上,大模型所有者可以通過專利、商標、版權等方式保護自己的大模型知識產權。
7月中下旬,科技巨頭Meta開源了Llama 2。Llama2官網掛出的相關使用許可和限制聲明顯示,“該模型可以用于商業用途,除非你的產品的月活躍用戶數超過7億。需要填寫一個表格才能獲得訪問權限,這個表格也會讓你從HuggingFace的網站上下載模型。”不過,李開復Yi-34B模型的開源許可證上并沒有提及LlaMa的名字。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。