谷歌Gemini突發試驗版模型,重回競技榜第一!GPT-4o只領先了1天
谷歌和OpenAI又杠上了。
在新版GPT-4o剛登頂競技榜后1天,立馬發布最新試驗版模型Gemini-Exp-1121奪回冠軍寶座。

要知道,一周前上一版模型Gemini-Exp-1114才發布。
這怕不是拿準了OpenAI會來爭擂臺,故意留了一手。

谷歌的研究人員們顯然很得意。
谷歌DeepMind首席科學家Jack Rae,稱這是一場有趣的后訓練“閃電戰”。暗示post-training的迭代速度要比預訓練快得多。

DeepMind研究副總裁Oriol Vinyals還隔空發問奧特曼:最近還有提交計劃嗎?

火藥味很足,也很自信啊。
所以“1121”有多強?來看具體性能。
代碼/推理/視覺理解全提升按照官方說法,Gemni-Exp-1121重點提升了三方面性能。
代碼能力顯著提升更強推理能力更強視覺理解能力
除了風格控制外,其他方面目前都位于第一。

在視覺能力方面,Gemini-Exp-1121比上一版還有提升。

風格控制下的復雜提示詞方面,Gemini-Exp-1121和o1-preview、New Sonnet 3.5水平相當。

競技場中的實際勝率如下。

現在也能直接上手體驗。
比如針對同一張漫畫,讓Gemini-Exp-1121和GPT-4o-lastest-1120給出理解。

Gemini-Exp-1121的回答更加全面且詳細,并且善用小標題、重點加粗。

新版4o的回復就比較簡短和籠統。

在經典的動物過河邏輯推理題上,Gemini-Exp-1121回答完全正確,新版4o出現了一些失誤,把第三次過河和第四次過河合并了,因此回答有誤。

值得一提的是,OpenAI這邊也有新消息。
有人在ChatGPT最新測試版本中首次發現了“實時攝像”(Live Camera)視頻功能的代碼。

它具體包括實時錄像、實時處理、語音模式集成以及視覺識別能力。
在高級語音模式推出時,一些用戶有體驗到這一能力。

這意味著OpenAI已經做好了上線這一功能的準備。
另一邊谷歌也演示過類似的demo,還沒上線。按照OpenAI的調性,很可能會搶在谷歌前全量鋪開。

或許等到明年,和Chatbot的主要交流方式,就要從文字對話轉為語音和agent了。Live Camera可能就是開始,你覺得呢?

參考鏈接:[1]https://x.com/OfficialLoganK/status/1859667244688736419[2]https://x.com/adonis_singh/status/1859682100569571399[3]https://x.com/OriolVinyalsML/status/1859730969600852222[4]https://x.com/rowancheung/status/1859301345993556277
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。