首頁 > AI資訊 > 最新資訊 > 基模型12項性能超越GPT

基模型12項性能超越GPT

新火種    2023-09-11

機器之能原創

作者:Sia

今天,商湯宣布日日新大模型旗下自然語言應用“商量SenseChat”正式面向廣大用戶開放。用戶已經可以通過訪問chat.sensetime注冊使用。

幾天前發布的最新財報中,商湯用了很大篇幅講述在 AI 大模型領域取得的成績。2023 年上半年,商湯實現營業收入 14.3 億元,同比增長 1.3%。其中生成式 AI 相關收入實現 670.4% 的增長,對集團業務貢獻從 2022 年的 10.4% 增至 20.3% ,已經成為最重要的新增長引擎。

值得關注的是,商湯商量 SenseChat 的基模型(foundation model)書生·浦語 InternLM-123B 由商湯與上海人工智能實驗室聯合多家國內頂級科研機構最新訓練完成,在全球 51 個知名評測集(包括 MMLU , AGIEVAL , ARC , CEval , Race , GSM8K 等)共計 30 萬道問題集合上測試成績整體排名全球第二,在主要評測中 12 項成績超越 GPT-4 ,排名第一。

生成式 AI 的全面爆發,也在加速推動行業創新。根據弗若斯特沙利文發布的《 AI 大模型市場研究報告( 2023 )》,商湯在產品技術、戰略愿景、生態開放構建等綜合競爭力國內第一。

一、大模型背后:技術為王

商湯集團核心業務板塊收入的加速增長,尤其是生成式 AI 收入的暴增,離不開扎實的底層技術支持。

今年 4 月 10 日,商湯推出大模型“日日新”,包括自然語言處理模型“商量”、文生圖模型“秒畫”和數字人視頻生成平臺“如影”等。

其中,商量SenseChat,也是國內最早推出基于千億參數大語言模型的聊天機器人產品之一。

僅兩個月后,商湯與上海人工智能實驗室聯合多家國內頂尖科研機構于 6 月發布首個綜合能力超越 GPT-3.5-turbo(GPT3.5 最優秀的模型之一)的基模型書生·浦語大模型 InternLM-104B(1040 億參數),使用 1.6 萬億 token 的多語言語料訓練,支持語言達 20 多種。

當時,InternLM 聯合團隊選取了 20 余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集,PK 對手包括 GLM-130B(開源)、LLaMA-65B(開源)、ChatGPT 和 GPT-4:

由加州大學伯克利分校等高校構建的多任務考試評測集 MMLU;

微軟研究院推出的學科考試評測集 AGIEval(含中國高考、司法考試及美國 SAT、LSAT、GRE 和 GMAT 等);

由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集 C-Eval;

由復旦大學研究團隊構建的高考題目評測集 Gaokao。

全面測試后,針對上述四個重要評測集的成績對比如上,滿分100分。

結果顯示,InternLM 不僅顯著超越 GLM-130B 和 LLaMA-65B 等學術開源模型,還在 AGIEval、C-Eval,以及 Gaokao 等多個綜合性考試中領先 ChatGPT;在以美國考試為主的 MMLU 上表現和 ChatGPT 持平。綜合性考試的成績反映出 InternLM 知識掌握扎實,綜合能力也很優秀。

又過了兩個月,在上萬塊 GPU 的支持下,經過多次試錯調優,InternLM-123B 于 8 月完成研發,其能力實現飛躍式發展:語言、知識、理解、推理和學科五大能力均有顯著提升。

InternLM-123B 在主要評測中 12 項成績排名第一,超越 GPT-4。

其中,在評測集綜合考試中 AGIEval 分數 57.8,超越 GPT-4 位列第一;知識問答 CommonSenseQA 評測分數 88.5 排名第一, NaturalQuestions 排名第二;

InternLM-123B 在閱讀理解 C3、CMRC、RACE (Middle)、RACE (High)、LAMBADA 五項評測中成績全部居榜首;

此外,InternLM-123B 在推理WinoGrande、StoryCloze、HellaSwag、StrategyQA、SIQA 幾項評測中成績排名第一。

InternLM-123B 在 12 項權威評測中超越 GPT-4 位列第一。

除了生成的內容更加準確、可靠,作為國內最早實現“工具調用”的大模型,InternLM-123B 最讓人印象深刻的是處理更加復雜場景的能力更強:它會調用工具進行多步推理和計算。在調用插件工具的過程中,大語言模型可能無法一次性成功調用工具解決問題, InternLM-123B 還具備自主反思和修正錯誤的能力。

比如,InternLM-123B 升級了代碼解釋器的調用能力,大模型可以調用代碼解釋器,在工具的幫助下完成復雜方程求解,提升解決復雜數學計算等任務的能力。

除了代碼解釋器(比如使用 Python 解釋器),InternLM-123B 還可以調用 API 和搜索這類常用工具,應對更加復雜的用戶需求。你可以腦補、暢想這樣一個情景:

告訴 InternLM-123B 驅動的聊天助手,要去哪里旅行,什么時間出發。這位聊天助手會調用搜索找到相關網頁,然后進入瀏覽器頁面,主動搜索符合要求的出行方案,幫你搞定。

其實,InternLM-123B 強大的工具調用能力為上層應用構建靈活的 AI 智能體(Agents)提供了底層支持。

所謂 AI 智能體,在大模型語境下,可以理解成能自主理解、規劃、執行復雜任務的系統。

GPT-4 驅動的 Auto-GPT 已初見端倪:它不再是 ChatGPT ,而是一個比較完整的模型智能體,因為它可以通過大模型去調用各種工具,包括其他大模型。

AI 智能體被業內認為是 AIGC 之后的下一個熱點,也被認為是通向 AGI 的重要方向與趨勢。

今年 6 月,商湯、清華大學、上海人工智能實驗室等提出了能夠自主學習解決任務的通才 AI 智能體 Ghost in the Minecraft (GITM)。新智能體能夠完全解鎖《我的世界》( Minecraft )主世界的整體科技樹的全部 262 個物品(以往智能體方法包括 OpenAI 和 DeepMind 在內總共只解鎖了 78 個),并可大大減少訓練投入。

同時,近年來,一些巨頭(比如英偉達)也在通過 Minecraft 探索 AI 智能體,真人玩家能夠完成游戲任務,智能體幾乎都能完成。Open AI 最近也收購了一家 AI 公司,相當于買下了一個開源的 Minecraft。Meta 曾在 6 月宣布了一系列處于不同開發階段的技術,其中一個也是 AI 智能體。

二、“三位一體”,持續發力

能夠在大模型上不斷迭代,并持續保持領先,離不開商湯多年來“三位一體”——數據、算法和算力——上的持續發力。

早在 2019 年,商湯便使用上千張 GPU 進行單任務訓練,推出了 10 億參數規模的視覺模型,算法效果達到了當時業界最佳。2021 年至 2022 年期間,商湯還訓練并開源了 30 億參數的通用視覺模型書生 INTERN。

與算法模型持續聯動的,還有底層算力上的不斷投入與創新。

商湯稱,SenseCore 商湯 AI 大裝置上線 GPU 數量由 2023 年 3 月底的 2.7 萬塊,提升至日前的約三萬塊,算力規模提升 20% 至 6 ExaFLOPS。同時,2023 年上半年,商湯共有超過 1000 個參數量數十億至上千億的大模型在大裝置上完成訓練,并實現了技術迭代。

2021 年 6 月,商湯在接受機器之心采訪時曾表示,待年底位于上海臨港新片區的建筑群全部建成后, AI 計算峰值速度將達到 3740 Petaflops(1 petaflop 等于每秒一千萬億次浮點運算),可以在一天之內完整訓練 OpenAI 的千億參數模型 GPT-3。

現在國內人工智能領域,商湯大裝置所提供的高性能計算名列前茅,不僅為做算法研究的人員提供了充足的算力,使他們能夠快速地進行實驗試錯,大裝置中所積累的實用工具也縮短了創新的驗證周期。

不過,要做出大模型,除了算法經驗和 GPU,也需要專業經驗的積累和摸索。商湯也在這些方面積累了很久。

比如,制作高性能模型對訓練數據的體量和質量都有著極高的要求,而模型的價值觀、安全性也受訓練數據的影響。通俗點說,目前大模型的技術路徑決定了擁有大量高質量文本語料也意味著自動獲得了海量的標注質量高的數據。

InternLM 性能領先,離不開體量業界領先的原始語料數據,更離不開強大的語料清洗和實驗的能力。為對萬億 token 級別的數據進行高質量清洗,團隊投入了數百臺服務器搭載千卡 GPU 的計算資源,采用算法+人工的方式,對這些原始語料分門別類,精細化清洗,以確保其質量和安全。

報告稱,高質量數據的生產能力達到每月逾 2 萬億 token,預計年底高質量數據儲備將突破 10 萬億 token,以支持更加強大的基模型的訓練。

此外,要保證大量 GPU 長時間穩定運行,需要經歷許多試錯。商湯科技自 2018 年起便致力于 AI 大模型的研發,有著數年的技術積淀和實踐經驗。早在 2019 年,商湯便具備了千卡并行的系統能力,使用上千張 GPU 卡進行單任務訓練。

4 月,楊帆接受媒體采訪時曾談到,訓練時大模型常遇到“梯度爆炸”,或者硬件故障造成機器過載宕機,以前宕機頻率是十分鐘一次,商湯現在能做到千卡級系統一周一次,這也是不斷調試的結果。

GPU 大規模并行之后,還需不斷調試并聯方法,提高算力效率,商湯目前在千卡集群上能達到的最高效率是 90% 利用效率。

值得一提的是,為滿足客戶的不同需求,全面覆蓋業務場景,商湯還推出了多個行業大模型,并且和上海人工智能實驗室聯合開源了 InternLM-7B 。目前,InternLM-7B 的部分訓練數據、訓練代碼及基模型權重已經向學術界及工業界免費開源,并支持免費商用。InternLM-7B 也登頂了多個模型測試榜單,是性能最好的輕量級基模型之一,在多個榜單中,表現甚至超過參數量更大的 LLaMA2-13B。另外,InternLM-20B 也將迎來開源。InternLM-20B 具備優秀的調用工具能力,同時,其適中的模型大小使得其運行成本更低,適合建構各類應用。

其實商湯的AI大模型研發,是從 2018 年就開始的。在 2019 年,商湯就推出了 10 億參數量規模的視覺模型,在視覺 AI 技術方面達到了全球領先。2021 年以來,商湯又陸續訓練了百億參數規模的超大視覺模型,以及 320 億參數量的全球最大的通用視覺模型,并在自動駕駛、工業質檢、醫療影像等多個領域得到廣泛應用??梢娚虦度氲酱竽P瓦@條路徑,乃至最終邁向 AGI 通用人工智能,可謂水到渠成。

多年來,商湯始終堅持長期戰略,持續投入到人工智能領域的重要前沿研究中,并不斷取得成果。今年 6 月,商湯聯合團隊論文 Planning-oriented Autonomous Driving,因提出的自動駕駛通用大模型 UniAD 獲得 CVPR 2023 最佳論文,這不但是行業首個感知決策一體化自動駕駛大模型,也是 CVPR 史上第一篇以自動駕駛為主題的最佳論文。最新財報顯示,商湯自動駕駛大模型將于第四季度準備就緒,用于量產。

長遠來看,大模型的格局此刻或許仍然風起云涌,但長期戰略帶來的持久影響將在未來,讓我們都走得更加深遠。


Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章