北条麻妃久久久,国产淫语,www国产精品内射熟女

首頁 > AI資訊 > 最新資訊 > 12項權威評測成績超GPT

12項權威評測成績超GPT

新火種 2023-09-08

圖說：InternLM-123B在主要評測集上的表現來源/采訪對象提供

記者今天從商湯科技獲悉，這家企業研發的大語言模型InternLM-123B在12項權威評測中超越GPT-4位列第一，綜合性能全面超越GPT-3.5-turbo。

2023年上半年，商湯發布了“日日新”大模型體系，并發布了國內第一個綜合性能全面超越GPT-3.5-turbo的基模型“書生·浦語”（InternLM）。這個大模型的研發共投入約10000張GPU，能力實現了飛躍式發展。

今年8月，新模型InternLM-123B完成訓練，參數量提升至1230億。新模型的語言、知識、理解、推理和學科五大能力均顯著提高，在全球51個知名評測集共計30萬道問題集合上測試成績整體排名全球第二，超過GPT-3.5-turbo以及Meta新發布的LLaMA2-70B等模型。

據悉，InternLM-123在主要評測中，有12項成績排名第一。其中，在評測集綜合考試中的AGIEval分數為57.8，超越GPT-4位列第一；知識問答的評測分數為88.5，排名第一；InternLM-123B在閱讀理解的五項評測中成績全部居榜首；此外，在推理的五項評測中成績排名第一。

InternLM-123B不僅生成的內容更加準確、可靠，可在復雜場景中進行多步推理和計算，還具備了自主反思及修正錯誤的能力。InternLM-123B也重點升級了代碼解釋器及插件調用能力，可使用python解釋器、API調用和搜索三類常用工具來解決復雜任務、靈活搭建AI智能體應用。商湯科技透露，在此基礎上，其自主研發的“商量”（SenseChat）大語言模型將在9月升級到3.0版本。

與此同時，商湯與多家科研機構合作支持和推進AI開源平臺建設，InternLM-7B（70億參數）的部分訓練數據、訓練代碼及基模型權重已經向學術界及工業界免費開源，并支持商用。目前，InternLM-7B在多個模型測試榜單高居榜首，成為性能最好的輕量級基模型。商湯表示，期待看到AI社區對InternLM的改進和更多AI應用的共建。

事實上，大語言模型的突破帶來了新機遇。基于InternLM的輕量級模型，結合自研推理加速算法，商湯正在與頭部手機芯片廠商合作研發，已實現大語言模型的手機端實時計算能力。

“今年上半年，大模型和生成式AI可以說是全球最受矚目的科技突破。”商湯集團董事會執行主席兼首席執行官徐立博士說，“我們希望給行業帶來更強的大模型能力，助力我們的用戶在生成式AI的時代做出顛覆性產品。”

新民晚報記者郜陽

Tags:

GPT 成績權威

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

12項權威評測成績超GPT

元象首個多模態大模型XVERSE-V開源，刷新權威大模型榜單，支持任意寬高比輸入

和ChatGPT聊天竟費水？2027年全球AI耗水或達66億立方米！

科學家開發出BrainGPT：可將思想轉化為文本

研究表明ChatGPT提供的建議，比專家更全面、更有幫助

醫療大語言模型MedGPT發布，AI醫生首次實現從有效問診到精準診斷轉變

熱門文章