首頁 > AI資訊 > 行業動態 > 智源評測:大模型打擂臺,多模態圖文理解騰訊混元國內第一

智源評測:大模型打擂臺,多模態圖文理解騰訊混元國內第一

新火種    2025-01-01

2024 年以來,大模型測評領域也有新變化,為了避免“刷榜”,大模型測評機構推出“角斗場”(Arena)模式,采用隨機選擇模型“打擂臺”的形式,面向用戶開放,通過直接的提問命令和打分累計進行排名,以衡量模型能力,有效反應模型在真實應用場景中的表現。

圖:智源FlagEval大模型角斗場多模態模型測評界面

在最新公布的FlagEval大模型角斗場榜單上,騰訊混元多模態圖文理解大模型憑借出色的表現,位列國內大模型第一,并且在兩個榜單上均與GPT4o 以及 claude 等模型同列第一梯隊。

智源研究院發布的FlagEval大模型角斗場榜單

FlagEval大模型角斗場由北京智源研究院推出,接入了全球主流的大模型,并對這些模型進行長期的觀察和測評。

騰訊混元是國內首個基于MoE架構的多模態大模型。在架構、訓練方法和數據處理方面進行了創新和深度優化,支持任意長寬比及最高 7K 分辨率圖片的理解。與大部分多模態模型主要在開源基準測試中進行調優不同,騰訊混元多模態模型更加注重模型的通用性、實用性和可靠性,具備豐富的多模態場景理解能力。

應用方面,騰訊混元多模態理解模型面向通用場景和海量應用進行了優化,積累了數千萬相關問答語料,涵蓋圖片基礎理解、內容創作、推理分析、知識問答、OCR 文檔解析、學科答題等眾多場景,可以完成描述圖片內容、將圖片轉換成文本表格、解釋一段代碼、分析賬單、做數學題等任務。這些能力已經在騰訊元寶APP 上線,并可以通過騰訊云的API調用,除了這次納入評測的Hunyuan-vision模型,還包括上個月新發布的旗艦多模態理解模型Hunyuan-turbo-vision,具有更強大的能力。

作為實用級大模型,騰訊混元多模態理解模型目前已經在騰訊的業務場景中取得廣泛應用,其中包括QQ、QQ瀏覽器、騰訊文檔、騰訊游戲、騰訊廣告、微信讀書、微信小程序等。例如,在QQ說說里,可以實現自動為照片配文,在QQ瀏覽器里,可以通過輸入照片,讓AI自動識別圖片并答題,在小程序教育平臺中,可以通過根據圖片自動寫程序,提升開發效率。

此外,在騰訊廣告場景中,騰訊混元大模型強大的內容理解能力,為廣告個性化推薦、廣告定位及效果預測提供了有力的支持,提升廣告精準度和用戶瀏覽體驗。

QQ說說AI配文

QQ瀏覽器AI解題答疑

小程序教育平臺-看圖寫小程序

多模態理解模型能夠同時處理和理解多種模態信息,實現更全面、更深入的語義理解,它通過整合不同模態的信息,提高了AI在復雜任務中的表現,也為人工智能領域帶來了新的機遇。未來,隨著模型能力的不斷升級,騰訊混元多模態理解模型也將推出更多大模型圖片搜索、圖片審核以及視頻理解等多個領域的深度應用。

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章