“百模大戰”背景下上海“書生”大模型體系為何與眾不同?
“我們實驗室在黃浦江畔,希望成為我國人工智能產業的源頭,為產業生態提供基座和支撐。”站在西岸國際人工智能中心37層的落地窗前,上海人工智能實驗室領軍科學家林達華教授告訴解放日報·上觀新聞記者。透過窗戶,可俯瞰上海西岸的浦江美景。
近日舉行的上海科技創新成果展上,上海人工智能實驗室研發的“書生”通用大模型體系亮相人工智能展區。在國內外“百模大戰”的背景下,這個大模型體系顯得與眾不同——體系內多個大模型向全社會開源,并給予企業和開發者免費商用授權;其中,“書生·浦語”是全球首個貫穿數據、訓練、評測等環節的全鏈條大模型開源體系,不僅開源了基座模型,還開源了研發大模型的整條工具鏈,在“授人以魚”的基礎上“授人以漁”。
“書生”為何要走這樣一條全面開源之路?
集聚青年人才和算力數據資源
對于開源,林達華很有發言權。在麻省理工學院獲得博士學位后,他回到以前就讀的香港中文大學,發起計算機視覺算法開源項目OpenMMLab。在他的推動下,OpenMMLab成為深度學習時代具有全球影響力的視覺智能開源平臺,已開放2500多個算法模型,被140多個國家和地區的上百萬開發者采用。
上海人工智能實驗室成立后,林達華隨湯曉鷗教授來到了這家新型研發機構。在湯曉鷗領導下,實驗室以國際視野集聚了一大批優秀青年人才,開展戰略性、原創性、前瞻性的科學研究和技術攻關,力求突破人工智能的重要基礎理論和關鍵核心技術,支撐我國人工智能產業實現跨越式發展。基于這個定位,實驗室注重研發開源類產品,為構建產業創新生態服務。
隨著ChatGPT的問世,人工智能進入了大模型時代。為發揮新型研發機構的戰略價值,上海人工智能實驗室集聚了大規模算力和數據資源,組建了平均年齡不到30歲的大模型研發團隊。這個團隊的青年人才中,有些是來自國內外知名高校的博士,有些是來自頂尖企業的工程師。團隊中也有人文社會科學專家,他們參與了大模型的價值對齊工作,讓“書生”生成的內容符合我國主流價值觀。
三大模型實現國內和全球首個
經過一年多奮戰,“書生”通用大模型體系已開發成功并多次迭代。這個體系包含國內首個支持長語境的多語言千億參數大模型“書生·浦語”、國內首個支持開放世界百萬語義標簽理解的“書生·多模態”大模型、全球首個城市級三維空間大模型“書生·天際”。
作為一個對標GPT系列的大語言模型,“書生·浦語”掌握多種語言,具備理解長輸入文字、展開復雜推理、進行長時間多輪對話的能力;能通過表格和圖表等方式,匯總與呈現復雜信息;具有較強的數值計算、函數運算、方程求解等數理能力。它的安全和對齊能力也很強,能可靠地遵循人類指令,在收到包含錯誤價值觀的指令后會準確指出問題,并予以糾正。
在很多主流評測集中,“書生·浦語”表現出優越的綜合性能,在35個評測集上的性能得分高于ChatGPT。
“山峰高聳入云天,云霧繚繞自成煙。忘身物外心自適,靜聽松濤入畫眠。”這是“書生·多模態”在用戶輸入張大千畫的《湖山清夏圖》后,創作的一首七言絕句,讀來頗有詩味。這個大模型包含200億參數,支持多模態生成和跨模態交互,并支持350萬語義標簽的識別和理解,覆蓋開放世界常見的類別和概念。
“書生·天際”由上海人工智能實驗室與香港中文大學、上海市測繪院聯合研發,能以4K級圖像精度準確呈現三維城市場景,對100平方公里范圍進行實景建模,并具備高精度實時渲染以及城市級編輯、風格化轉換等功能。
林達華介紹,在研發這三個大模型過程中,他們攻克了多項關鍵核心技術,如高質量的數據清洗、預訓練算法開發、數千張GPU(圖形處理器)高效并行運算。“決定大模型質量的首要因素是數據質量,所以實驗室聯合中央廣播電視總臺等十多家單位,發起成立了中國大模型語料數據聯盟。”這個聯盟提供的語料不僅用于訓練“書生”,還通過開源開放,為學術界和產業界提供符合中文主流價值觀的高質量數據。
創新策源繁榮大模型產業生態
在全面開源之路上,語料數據是一個環節,從基座模型到預訓練、微調、部署、評測等各個環節,上海人工智能實驗室都有開源產品發布,讓企業、高校院所的研發團隊和個人開發者可利用這些成果,“白手起家”打造出各種大模型產品。
為了降低“書生·浦語”的開源門檻,實驗室研發團隊對它進行了瘦身,開發出200億(20B)參數“中量級”版本。“在有限的參數規模下,我們做架構設計時面臨取舍——是做強模型的深度還是寬度?”林達華說,“通過很多對照實驗,我們發現更深的模型有利于培養復雜推理能力,所以把模型層數設定為60層,超過大多數‘中量級’模型層數。”后來的評測證明,這個選擇是對的,“書生·浦語”20B的綜合性能不僅全面領先相近量級的開源模型,而且以不足三分之一的參數量,達到了國際開源模型標桿Llama2-70B的評測成績。
目前,“書生·浦語”已授權通信、金融、高端制造業等國家重點行業企業使用,如用于中國電信,上海人工智能實驗室在與中國電信合作,開發更智能化的客服系統。
在傳媒行業,“書生”也大有用武之地。實驗室與中央廣播電視總臺聯合發布了“央視聽媒體大模型”,讓一些媒體從業者有望在與大模型“聊天”中完成工作。比如輸入一段視頻,大模型就能創作出解說詞和新聞稿,并有多種風格供選擇;輸入一個文本,大模型則能直接生成相關視頻,其質量可達到高清視頻標準(2K和24FPS),而且有故事情節和鏡頭連貫性。據透露,實驗室正在與總臺共同制作我國首部完全由AI生成的動畫片。
實驗室還推出了圖文混合創作大模型“書生·浦語靈筆”。開源以來,在不到2個月時間里,模型代碼被各國開發者下載1.7萬次,在線展示體驗模塊試用超17萬次。
“2023至2025年,是大模型技術創新和產業生態發展的關鍵時期。”上海人工智能實驗室產業生態負責人表示,“我們實驗室構建了開源技術體系,希望成為繁榮大模型產業生態的創新策源地。”
在林達華看來,國內企業要找準定位,不一定投入大量財力人力開發基座模型,而是可以利用開源的“書生”大模型體系及其工具鏈,以更低成本、更高效地開發各種大模型應用產品。
(文章來源:上觀新聞)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。