首頁 > AI資訊 > 最新資訊 > 斯坦福AI團隊承認抄襲國產大模型開源“套殼”是與非再掀熱議

斯坦福AI團隊承認抄襲國產大模型開源“套殼”是與非再掀熱議

科創板日報    2024-11-16

《科創板日報》6月4日訊(記者 張洋洋) 近日,國內AI創業公司面壁智能的大模型被美國斯坦福大學AI團隊套殼抄襲的事件在網絡引起熱議。

事情的最新的進度是,斯坦福Llama3-V團隊的兩位作者Siddharth Sharma和Aksh Garg在社交平臺上就抄襲行為向面壁智能團隊正式道歉,并表示會將Llama3-V模型悉數撤下。相似內容的道歉信,已于幾小時前被作者發出一次,但被迅速刪除。

現在,該斯坦福團隊成員已刪除他們在社交媒體上官宣模型的推文,并將該項目在Github和HuggingFace上的庫一并刪除。

事件起因是,斯坦福大學AI研究團隊于5月29日發布了一個名為Llama3V的模型,該研究聲稱只要500美元就能訓練出一個SOTA多模態模型,效果比肩GPT-4V、Gemini Ultra與Claude Opus。

因該研究團隊3名作者擁有斯坦福大學、特斯拉、SpaceX的名校和大廠背景,Llama3V模型一經發布就引發了諸多關注。

但隨后有網友發現,Llama3V與中國AI創業企業面壁智能在5月中旬發布的8B多模態開源小模型MiniCPM-Llama3-V 2.59(面壁小鋼炮)高度重合,前者只是進行了一些重新格式化,并把圖像切片、分詞器、重采樣器等變量重命名。

6月2日深夜,面壁智能團隊證實,斯坦福大模型項目Llama3-V與MiniCPM一樣,可以識別出“清華簡”戰國古文字,“不僅對得一模一樣、連錯得都一模一樣”。這一古文字數據為研究團隊花費數月從清華簡上逐字掃描并人工標注得來,并未對外公開,證實抄襲事實。

面壁智能CEO李大海在朋友圈發聲,表示對這件事深表遺憾:“技術創新不易,每一項工作都是團隊夜以繼日的奮斗結果”“希望團隊的好工作被更多人關注與認可,但不是以這種方式”。

面壁智能聯合創始人、首席科學家劉知遠也在朋友圈發表了一篇真誠懇切且意味深長的回應。

他表示Llama3-V團隊未能遵守開源協議對前人成果尊重和致敬,嚴重破壞了開源共享的基石。但他也提到,三位作者還很年輕,有兩位僅是斯坦福大學的本科生,未來還有很長的路要走,“如果知錯能改,善莫大焉”。

除了抄襲本身這個學術不端的行為之外,本次事件還引發熱議的點在于,AI行業一直存在部分國內大模型套殼國外開源大模型的刻板印象。在業內,關于大模型“套殼”的爭議,也由來已久。

批評者認為“套殼”掩蓋了原創性缺失,對開源模型簡單調整,而非實質創新;支持者則認為,基于成熟開源架構進行定制化改進是技術發展的常態,類似于在iOS、Android基礎上開發App。

實際上,當今絕大多數大模型均基于谷歌大腦團隊在2017年推出的Transformer神經網絡架構,及其隨后衍生出的三種變體。從大模型的發展軌跡觀察,現今模型的構建無不在“借鑒”Transformer及其變體架構的基礎上展開。

關于“套殼”的界定,國內一名AI上市公司大模型架構師《科創板日報》記者解釋稱,在參考其他模型架構時,開發者會在原有基礎上進行重要創新,比如采用新的數據處理方法、提升算法效率等。同時,開發者會公開說明自己的改動是基于哪個開源模型,并闡述所做的創新和改進,這符合開源社區的規則和理念。然而,如果改動只停留在表面,沒有帶來新的技術洞察或實質的性能提升,那么這種改動就可能被看作是簡單的套殼。

在利用開源進行“套殼”成常態的行業背景下,對于后來者的模型或者公司而言,究竟什么才是核心競爭力?

前述大模型架構師認為,核心還是有充足的算力和高質量的數據。其中,數據質量決定模型好壞,要得到高質量的數據,關鍵在于處理和標注,現在大模型廠商的數據來源基本相同,但處理后的質量差別很大。此外,在模型和算法方面也還有很多提升和創新的空間,足夠的人才儲備和持續投入,才能有持久競爭力。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章