12項權威評測成績超GPT
圖說:InternLM-123B在主要評測集上的表現 來源/采訪對象提供
記者今天從商湯科技獲悉,這家企業研發的大語言模型InternLM-123B在12項權威評測中超越GPT-4位列第一,綜合性能全面超越GPT-3.5-turbo。
2023年上半年,商湯發布了“日日新”大模型體系,并發布了國內第一個綜合性能全面超越GPT-3.5-turbo的基模型“書生·浦語”(InternLM)。這個大模型的研發共投入約10000張GPU,能力實現了飛躍式發展。
今年8月,新模型InternLM-123B完成訓練,參數量提升至1230億。新模型的語言、知識、理解、推理和學科五大能力均顯著提高,在全球51個知名評測集共計30萬道問題集合上測試成績整體排名全球第二,超過GPT-3.5-turbo以及Meta新發布的LLaMA2-70B等模型。
據悉,InternLM-123在主要評測中,有12項成績排名第一。其中,在評測集綜合考試中的AGIEval分數為57.8,超越GPT-4位列第一;知識問答的評測分數為88.5,排名第一;InternLM-123B在閱讀理解的五項評測中成績全部居榜首;此外,在推理的五項評測中成績排名第一。
InternLM-123B不僅生成的內容更加準確、可靠,可在復雜場景中進行多步推理和計算,還具備了自主反思及修正錯誤的能力。InternLM-123B也重點升級了代碼解釋器及插件調用能力,可使用python解釋器、API調用和搜索三類常用工具來解決復雜任務、靈活搭建AI智能體應用。商湯科技透露,在此基礎上,其自主研發的“商量”(SenseChat)大語言模型將在9月升級到3.0版本。
與此同時,商湯與多家科研機構合作支持和推進AI開源平臺建設,InternLM-7B(70億參數)的部分訓練數據、訓練代碼及基模型權重已經向學術界及工業界免費開源,并支持商用。目前,InternLM-7B在多個模型測試榜單高居榜首,成為性能最好的輕量級基模型。商湯表示,期待看到AI社區對InternLM的改進和更多AI應用的共建。
事實上,大語言模型的突破帶來了新機遇。基于InternLM的輕量級模型,結合自研推理加速算法,商湯正在與頭部手機芯片廠商合作研發,已實現大語言模型的手機端實時計算能力。
“今年上半年,大模型和生成式AI可以說是全球最受矚目的科技突破。”商湯集團董事會執行主席兼首席執行官徐立博士說,“我們希望給行業帶來更強的大模型能力,助力我們的用戶在生成式AI的時代做出顛覆性產品。”
新民晚報記者 郜陽
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。