盤點190家國產大模型:發布速度趨緩,醫學垂直領域居多
12月19日下午,南方都市報、南都數字經濟治理研究中心聯合中國政法大學數據法治研究院在北京舉辦第七屆“啄木鳥數據治理論壇”,主題為“數據為本,AI向善”。會上,南都數字經濟治理研究中心發布了《生成式AI發展與治理觀察報告(2023)》(下稱《報告》)。
《報告》通過數據分析等方式,描摹了生成式AI2023年行業發展現狀,并從國產大模型公開發布時間、類別、發布主體等多個維度展示了國內“百模大戰”熱潮的真實面貌,還呈現了與十余位從業者的深度訪談和思考。
···
當前,國內部分大廠具有多條“大模型產品線”,因此,報告基于企業官方對外公開或宣傳口徑,選取其中一條最具代表性的大模型產品,同時參考GitHub已有的專門整理國產大模型榜單數據的項目,最終選取190個國產大模型的樣本數據進一步的信息統計和分析。
從發布時間來看,2022年11月ChatGPT發布并爆火之后,僅時隔3個月,2023年2月便已有國產大模型推出,隨后每月都不斷有新的國產大模型面世,且數量逐月增高,直到2023年7月達到巔峰——當月共有39個大模型推出,此后大模型推出數量便開始逐月遞減。

從發布主體的地域來看,這190個大模型分布于23個省級單位(包括自治區、直轄市和港澳臺地區)。
其中,有5個省份,至少聚集了10個或以上的大模型發布主體,按數量排名依次為北京、廣東、上海、浙江、江蘇;有15個省份,至少有2個或以上的大模型發布主體,其中北京共有69家組織機構發布大模型,占比約36%,在數量上遙遙領先。

在大模型的發布主體上,目前國產大模型主要來自高校、企業、研究機構、醫院、銀行等五大主體;而190個國產大模型中,有151個由企業發布,數量最多。

從大模型的類別來看,通用領域的大模型共有45個,垂直領域的大模型則有145個。而垂直領域中又包含43個細分賽道,其中以醫學、金融、企業服務、工業、政務、科研等賽道的大模型數量較多,均為10個及以上,也不乏城市規劃、鋼鐵、林業、水利、心理健康等一個大模型開辟一條賽道的情況。

公開信息顯示,截至目前,國內至少有23家大模型通過《生成式人工智能服務管理暫行辦法》備案。這意味著算法備案已成為AIGC產品的向社會公眾開放、進入商用市場的重要門檻。所謂大模型備案,是指大模型產品在向公眾開放及商用之前,經過監管部門的備案審批。沒有經過備案,就只能小范圍內測,大部分人無法注冊使用,而通過備案的大模型產品或服務即可面向社會全面開放服務。
目前已通過備案的大模型主要有四種公開方式:官方給出在線網址(公眾可接入/邀測制)、移動端上線應用商店、大模型開源、賦能企業內部其他應用(大模型本身不公開)。
對于企業來說,大模型通過備案即可向全社會開放服務,這就意味著規模更加龐大的中文語料庫和更加豐富的原生應用場景,而對于大眾來說,通過備案也意味著可以用極低的門檻接觸到最頂尖的AI原生應用之一。因此,大模型的備案制度不僅是國家出于保障數據安全、規范行業發展的目的,也在能在制度上推進大模型進入產業落地階段,加速大模型C端應用的普及。
···
大模型不應僅局限于聊天工具
更是生產力工具
從生成式AI整體來看,其文本生成、圖像生成、音頻生成、視頻生成等四大賽道最具有代表性。
其中文本生成領域由于底層架構,更易演化出大模型,也因此誕生了國內外大模型賽道的熱潮,賽道中除了幾家頭部巨頭,其他廠商多走私有化部署、企業定制的toB路線。而圖像生成領域因開源工具繁多,入手門檻低、視覺效果明顯,toC端應用極其廣泛,也開始逐漸滲透進入影視游戲等垂直領域的工作流。
而視頻生成仍處于早期探索階段,現階段算法層面的模型效果并不理解,能同時在視頻長度、逼真度、連貫性三個維度上均達到商用水平的視頻生成產品仍然欠缺。 語音生成行業格局穩定,商用落地也較為成熟,原有格局難以打破,隨著技術的發展和AI話題的火熱,用戶的需求更加多種多樣,也將拓寬語音生成領域的商業化場景,并使部分細分賽道更加專業和清晰。
為了更深入地了解國內生成式AI的產業現狀,南都數字經濟治理研究中心也與12位生成式AI從業者進行了訪談。他們有的是AI公司創始人,如小冰公司CEO李笛、清博智能CEO郎清平、極態AI公司CEO王力等;也有的是頭部互聯網公司AI算法或數據合規的資深專家等;還有如知乎、博特智能等推出大模型的企業,也通過書面回復等方式參與了此次調研。結合自身背景和工作實踐,他們從商業、技術、法律和產業等角度分享了對生成式AI發展的看法。
在訪談中,有受訪者提到大模型開發這個賽道分為三類:做通用大模型的、做垂直大模型的和基于模型做產品和解決方案開發。
第一類賽道的玩家是大廠和一些明星創業公司,他們專注于能夠追趕ChatGPT的通用大模型的研發,也會積極建立并完善各種生態,是當前面向C端的大模型產品的主要發力者
第二類賽道的玩家是各領域的頭部企業、數據服務商,其專注的是垂直大模型這個賽道。不追求參數量級,而是利用行業高質量數據及對行業深刻洞察,期望切實解決行業問題,追求行業結合度和準確度。
第三類賽道的玩家則基于通用或者開源模型做產品和解決方案開發。例如開發垂直領域SaaS服務、知識管理系統、智能客服機器人等AI產品和解決方案,輔以其他技術可實現快速迭代和交付。
在訪談中,從業者們普遍提到的一個觀點是,對大模型的認知不應局限在聊天工具,它應該有更廣泛的應用價值。有人稱應該把大模型當成一個生產力工具,將其潛在性能釋放出來,真正服務千行百業,助力產業升級。
此前在接受南都記者專訪時,360創始人周鴻祎也表示,盡管Open AI推出的ChatGPT至今仍遙遙領先,但AI發展的iPhone時刻還未到來,這場火熱的大模型之爭也遠未結束。下一步競爭的關鍵在于,誰能把大模型的能力和用戶場景更好地相結合。
但對于“百模大戰”為了將會如何演變,從業者們有不同的看法:有人認為這是一個短暫的繁榮期,很快泡沫會消散;有人則認為競爭的下半場才剛剛開始。
出品:南都數字經濟治理研究中心
統籌:南都記者 程姝雯 李玲
采寫:南都記者 楊博雯 呂虹 胡耕碩
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。