李開復(fù)旗下“零一萬物”大模型疑套殼LLaMA
知名大模型公司再次陷入套殼質(zhì)疑,這次是李開復(fù)剛于一周前發(fā)布的“零一萬物”(Yi)大語言模型,疑似套殼Meta公司在今年開源的大模型LLaMA。
阿里前技術(shù)副總裁、大模型行業(yè)創(chuàng)業(yè)者賈揚(yáng)清近日在朋友圈中表示,做小公司不容易,在做適配某國內(nèi)大廠的新模型的業(yè)務(wù)時(shí),發(fā)現(xiàn)此大廠新模型完全照搬LLaMA的架構(gòu),“今天有朋友告訴我,這個(gè)大廠新模型exactly就是LLaMA的架構(gòu),但是為了表示不一樣,把代碼里面的名字從LLaMA改成了他們的名字,然后換了幾個(gè)變量名。”
賈揚(yáng)清表示希望不要換名偽裝,以免做多余的適配工作,“各位大佬,開源社區(qū)不容易,如果你們就是開源的模型結(jié)構(gòu),求高抬貴手就叫原來的名字吧,免得我們還做一堆工作就為了適配你們改名字。”
賈揚(yáng)清沒有指明具體的大模型名字。但業(yè)內(nèi)懷疑的對(duì)象指向李開復(fù)旗下的零一萬物(Yi)。
在全球三大開源社區(qū)平臺(tái)之一Hugging Face上,零一萬物的社區(qū)中,開發(fā)者ehartford指出,“據(jù)我們了解,除了兩個(gè)張量(tensor)被重命名之外,Yi 完全使用了 LLaMA 的架構(gòu)。”
據(jù)《機(jī)器之心》報(bào)道,有研究者在加速器創(chuàng)業(yè)網(wǎng)站Y Combinator上發(fā)帖指出,Yi-34B 模型基本上采用了 LLaMA 的架構(gòu),只是重命名了兩個(gè)張量。
張量(Tensor)指多維向量,Yi相當(dāng)于只更改了部分參數(shù)的名字,架構(gòu)與LLaMA相同,但卻完全沒有提到LLaMA的來源。
在Hugging Face上零一萬物社區(qū)討論中,有用戶指出套殼對(duì)于Yi許可證的風(fēng)險(xiǎn),“如果他們使用完全相同的 Meta LLaMA 結(jié)構(gòu)、代碼庫和所有相關(guān)資源,也必須遵守 LLaMA 規(guī)定的許可協(xié)議。以 LLaMA 格式正式發(fā)布 Yi 模型是有問題的,會(huì)破壞 Yi 許可條款的可執(zhí)行性。”
Yi是李開復(fù)成立的AI公司“零一萬物”上周剛剛發(fā)布的首款開源大模型。據(jù)36氪報(bào)道,零一萬物已完成新一輪融資,由阿里云領(lǐng)投。李開復(fù)稱,在完成融資前,為了覆蓋算力等訓(xùn)練成本,零一萬物已經(jīng)負(fù)債幾千萬美元。而現(xiàn)在,零一萬物估值已超10億美元,躋身獨(dú)角獸行列。目前零一萬物開源發(fā)布的Yi-34B模型在Hugging Face上Open LLM Leaderboard開源大語言模型排行榜上排名第一。
針對(duì)Yi套殼LLaMA一事,零一萬物回應(yīng)《機(jī)器之心》表示,Yi確實(shí)借鑒了GPT的成熟結(jié)構(gòu),但零一萬物團(tuán)隊(duì)自己也做了大量工作:“GPT 是一個(gè)業(yè)內(nèi)公認(rèn)的成熟架構(gòu),LLaMA 在 GPT 上做了總結(jié)。零一萬物研發(fā)大模型的結(jié)構(gòu)設(shè)計(jì)基于 GPT 成熟結(jié)構(gòu),借鑒了行業(yè)頂尖水平的公開成果,同時(shí)基于零一萬物團(tuán)隊(duì)對(duì)模型和訓(xùn)練的理解做了大量工作……Yi 開源模型在其他方面的精力,比如數(shù)據(jù)工程、訓(xùn)練方法、baby sitting(訓(xùn)練過程監(jiān)測(cè))的技巧、hyperparameter 設(shè)置、評(píng)估方法以及對(duì)評(píng)估指標(biāo)的本質(zhì)理解深度、對(duì)模型泛化能力的原理的研究深度、行業(yè)頂尖的 AI Infra 能力等,投入了大量研發(fā)和打底工作……”
而在Hugging Face原帖下,零一萬物的團(tuán)隊(duì)成員Richar Lin回應(yīng)承認(rèn)了更改張量名稱一事,“這個(gè)命名問題是我們的疏忽。在大量的訓(xùn)練實(shí)驗(yàn)中,我們對(duì)代碼進(jìn)行了多次重命名,以滿足實(shí)驗(yàn)要求。但是,我們有點(diǎn)掉以輕心,沒有在發(fā)布之前將它們改回來。” 他表示,會(huì)將張量改回原LLaMA的命名。
國產(chǎn)大模型的套殼開源大模型的爭(zhēng)議早已有之。不少企業(yè)正是基于開源模型做微調(diào),包括二次訓(xùn)練等,也有企業(yè)直接基于開源模型做應(yīng)用層的開發(fā),因此研發(fā)成本更低。
OpenAI公司對(duì)于 GPT-2 之后的模型就不再開源,而Meta公司推出的開源模型LLaMA,其訓(xùn)練使用的公開數(shù)據(jù)集均超過萬億詞元,展現(xiàn)出與非開源大模型相近水平的任務(wù)處理能力。LLaMA便成了經(jīng)費(fèi)并不充裕的學(xué)術(shù)界或公司參與AI浪潮的高性價(jià)比之選。
(文章來源:藍(lán)鯨財(cái)經(jīng))
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。