“超強陣容”獻計,國產大模型如何突圍?
“一個國產大模型要如何才能成為市場主流?需要跨越哪些關鍵的挑戰?”11月16日下午,在由科技部、深圳市人民政府共同主辦的“2023西麗湖論壇”平行分論壇,一場以“AI大模型的開源創新與賦能應用”為主題的高峰對話正在進行,清華大學計算機系陳文廣教授向百川智能創始人兼CEO王小川提出了一個所有大模型創業者都十分關心的問題,也引發了與會嘉賓的熱議。
今年以來,人工智能大模型掀起了澎湃的科技創新與創業浪潮,許多科技巨頭與創業公司都在研發自身的大模型,形成了“百模大戰”的局面。在高峰對話當中,來自政府、企業、高校的領軍人物圍繞國產大模型的突圍之道,進行了熱烈的討論。
除了目前市場普遍關心關注的可靠算力問題,記者梳理與會嘉賓的觀點發現,國產大模型要在全球競爭當中實現突圍,有三個重要的關鍵詞:優質數據、繁榮生態、產研合作。
中國外文局副局長高岸明表示,根據研究,目前在國際信息流當中,英文的內容占到60%,而中文的信息流只占到大約2%,不僅遠遠低于英文,而且也低于很多非通用語種,高質量中文語料的缺失為國內大模型的訓練帶來挑戰。“我們需要有海量、精準、可靠的中文語料數據來訓練我們的大模型。”高岸明表示。
作為大模型創業公司中的佼佼者,百川智能發布的Baichuan-7B/13B(B為大模型訓練參數數量,分別代表70億/130億參數)兩款開源大模型累計下載量已超過600萬次。其背后的成功原因,離不開王小川“搜索”出身帶來的數據優勢。記者注意到,在ChatGPT推出不久之后,王小川就曾公開指出,搜狗輸入法和搜狗搜索的數據制備和產品形態與ChatGPT接近,都是把互聯網上的全部語言數據收集、清洗,壓縮成數據并構建超級產品。
“我可以很自豪地說,在開源大模型里面,百川智能的水平在中文方面已經超越了LLaMA。”王小川說。目前,Meta公司的開源大模型ChatLLaMA是國際上最為主流的開源大模型之一。王小川表示,百川智能采用的是搜狗從搜索引擎時代開始就積累的萬億級數據,在其中選取最優質的數據,從而取得了良好的訓練效果。
當前,國內外競逐大模型都采取開源和閉源兩條腿并行的模式。開源即開放源代碼,允許開發者查看、修改和分發開源代碼;而閉源則與之對應,用戶只能對產品有使用的權利,沒有修改的權利。業內普遍認為,閉源契合知識產權保護,順應投資與獲取利潤的邏輯,而開源則有助于技術的快速迭代與創新,形成繁榮的生態。
“兩種技術路線有各自的邏輯,不能簡單判斷哪一種更好,但是我認為事物的發展必須要有多樣性。在大模型研發的生態環境中,既會有開源的做法,也會有閉源的做法。”中國工程院院士、鵬城實驗室主任高文說。他進一步表示,鵬城實驗室與百川智能在開源大模型方面開展了密切合作,并將模型提供給全社會使用,從而助力打造更加活躍與繁榮的生態。
大模型時代中,產研合作的作用變得更為突出。由于大模型研發需要投入巨額的算力,目前該領域的創新主要來自于資金實力更為雄厚的企業。北京郵電大學人工智能學院教授何召峰曾公開表示,在大模型領域,高校不太可能與大企業競爭,但二者之間有廣闊的合作空間,緊密的產研合作能助力國產大模型實現更快的發展,二者應結合各自優勢,進行針對性的合作。
據了解,鵬城實驗室與百川智能合作研發了“鵬城-百川·腦海33B”長窗口大模型。這一大模型也在此次高峰對話后正式發布。據介紹,該大模型是國產算力平臺的最長上下文窗口模型,實現了段落、句子粒度的自動化數據過濾、選擇和配比,能支持128K的上下文窗口長度,即一次可容納相當于300多頁文本內容的提示詞,后續還將升級至192K。值得注意的是,不久前ChatGPT發布了最新迭代版的GPT-4 Turbo產品,其中的一個變化便是上下文窗口長度由32K擴展至128K。
“在去年ChatGPT發布后,國內整體處于比較焦慮的狀態,如今已經比年初好很多了。”王小川表示,目前無論是科技巨頭還是獲得資本加持的創業公司,都在加速向前邁進,他期待國內大模型的突圍能夠在明年到來。
責編:萬健祎
校對:姚遠
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。