騰訊大模型開源的“冷思考”
繼騰訊混元文生圖模型開源之后,近日,騰訊混元最新的MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”也正式開源,支持企業(yè)及開發(fā)者精調(diào)、部署等不同場(chǎng)景的使用需求,可在HuggingFace、Github等技術(shù)社區(qū)直接下載,免費(fèi)且可以商用。
據(jù)介紹,騰訊混元Large是目前開源領(lǐng)域參數(shù)規(guī)模和效果表現(xiàn)都較好的MoE模型(Mixture of Experts,即混合專家模型,是目前國(guó)內(nèi)外主流的大模型結(jié)構(gòu)),而騰訊混元3D生成大模型則是業(yè)界首個(gè)同時(shí)支持文字、圖像生成3D的開源大模型。兩個(gè)模型均屬騰訊自研,在架構(gòu)、算法、數(shù)據(jù)等方面有獨(dú)特創(chuàng)新,填補(bǔ)了行業(yè)空白。目前,兩個(gè)模型均已經(jīng)在騰訊業(yè)務(wù)場(chǎng)景中落地應(yīng)用,經(jīng)過實(shí)踐的檢驗(yàn),是面向?qū)嵱脠?chǎng)景的應(yīng)用級(jí)大模型
AI大模型浪潮席卷而來之時(shí),騰訊不是沖在最前面的那一波;當(dāng)市場(chǎng)上關(guān)于開源與閉源爭(zhēng)論不斷時(shí),騰訊也沒有著急站隊(duì)。如今在開源文生圖視頻模型之后,騰訊又陸續(xù)開源了一些模型,在大模型的開閉源上,騰訊混元大模型究竟是怎么考慮的?
“騰訊做大模型一年多時(shí)間并沒有著急去開源,我們認(rèn)為很重要的一個(gè)原因是開源的結(jié)果,其實(shí)是自然而然的發(fā)展,而且騰訊是在閉源做得比較好之后才做的開源。”騰訊機(jī)器學(xué)習(xí)平臺(tái)總監(jiān)、騰訊混元大語言模型算法負(fù)責(zé)人康戰(zhàn)輝在接受《中國(guó)經(jīng)營(yíng)報(bào)》等媒體記者采訪時(shí)說道。
2023年9月,在2023騰訊全球數(shù)字生態(tài)大會(huì)上,騰訊混元大模型正式亮相,并宣布通過騰訊云對(duì)外開放。2024年5月,騰訊混元文生圖大模型全面升級(jí)并對(duì)外開源。
大模型市場(chǎng)上關(guān)于開源還是閉源一直都有爭(zhēng)論。百川智能在2023年6月15日發(fā)布了國(guó)內(nèi)首款開源可商用的70億參數(shù)量大語言模型Baichuan-7B,上海人工智能實(shí)驗(yàn)室在2023年7月開源了書生·浦語大模型70億參數(shù)的輕量級(jí)版本InternLM-7B,Meta在2023年7月發(fā)布了LLaMa 2模型,并在2024年4月發(fā)布了Llama-3。
還有一些廠商則是閉源大模型的擁護(hù)者。OpenAI的GPT系列、谷歌的Bard、百度的文心大模型都是市場(chǎng)上著名的閉源大模型。
該如何定位大模型是開源還是閉源?康戰(zhàn)輝指出,對(duì)于頭部大型企業(yè)來說,業(yè)務(wù)多且復(fù)雜,超級(jí)復(fù)雜的業(yè)務(wù)可能就是需要閉源大模型才能解決,雖然成本攤下來更大,但提升的能力更強(qiáng)。開源大模型面對(duì)的則是不同的開發(fā)者,尤其有大量的中小企業(yè),以及個(gè)人開發(fā)者,他們對(duì)成本的考量更重一些。
騰訊大模型則是在閉源做好之后再逐步對(duì)外進(jìn)行開源。在開源選擇上,騰訊混元大模型選擇了先開大的后開小的。康戰(zhàn)輝解釋這一選擇背后的原因:“首先,開源理念上先開大的模型,是因?yàn)槲覀冮_始做的東西都是大的,這是歷史原因。另外,我們優(yōu)先考慮把騰訊內(nèi)部業(yè)務(wù)上使用的模型對(duì)外開源,后續(xù)還會(huì)開源一些小的模型,也是延續(xù)這個(gè)模式。”
以此次開源的騰訊混元Large為例,該模型已經(jīng)在騰訊內(nèi)部的AI搜索、AI閱讀等業(yè)務(wù)做過試用,騰訊金融領(lǐng)域、協(xié)同辦公三件套等業(yè)務(wù)里面都涉及到騰訊混元Large,有些已經(jīng)上線使用。
對(duì)于騰訊混元大模型開源時(shí)間晚于市場(chǎng)上很多的開源大模型廠商,騰訊方面則認(rèn)為“好飯不怕晚”。
“去年大模型如火如荼,開源大模型也是百花齊放。今天大家來看,大家還是各歸各位。”康戰(zhàn)輝說道,“底層大模型就是AI時(shí)代的一個(gè)操作系統(tǒng)、是一個(gè)底層基礎(chǔ)設(shè)施、是一個(gè)長(zhǎng)期的事情,另外,底層模型不是C端產(chǎn)品,不存在入口、流量問題的困擾,是可以沉下心來長(zhǎng)期深耕的事情,所以我們認(rèn)為多模態(tài)大模型真的一點(diǎn)不晚。”
據(jù)介紹,現(xiàn)在騰訊混元大模型開源的參數(shù)權(quán)重,并不涉及到數(shù)據(jù)和代碼,但是接下來會(huì)把訓(xùn)練的代碼開源出來,同時(shí)會(huì)把評(píng)估期開源。
康戰(zhàn)輝表示:“大模型開源數(shù)據(jù)本身意義不大。”因?yàn)榇竽P筒皇擒浖强看罅繑?shù)據(jù)驅(qū)動(dòng)。舉一個(gè)例子,學(xué)界有很多開源的模型、開源的數(shù)據(jù),但是開源數(shù)據(jù)很難被大家共建,因?yàn)閿?shù)據(jù)規(guī)模太大了,不是寫一行代碼就能共建的事情。現(xiàn)在的大模型普遍訓(xùn)練的數(shù)據(jù)都是幾萬億tokens,對(duì)于業(yè)界來講是很難把數(shù)據(jù)維護(hù)起來去做進(jìn)一步的挖掘。
(文章來源:中國(guó)經(jīng)營(yíng)網(wǎng))
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。