僅僅一天,Gemini就奪回了GPT-4o拿走的頭名
一周前,谷歌的 Gemini-Exp-1114 模型取代 GPT-4o,坐上了 Arena 榜單的頭把交椅。

對于苦苦追趕 OpenAI 幾個月的谷歌來說,這次在基準測試上的勝利十分振奮人心。
可惜振奮的時間不長:昨天,GPT-4o 一個更新,把第一名的位置搶回來了。

奧特曼慶功的話音剛落,Gemini-Exp-1121 殺出來,又把第一名搶走了。

谷歌工程師還順帶嘲諷了一波:

位次的變化實在太快,讓人有點恍惚了。難道接下來,大模型迭代要以「周」為單位了嗎?

狂卷基準測試,真有意義嗎?
有人猜測,莫非這就是谷歌逐漸過渡到 Gemini 2 的發(fā)布方式?但這種可能性不大,因為最近的兩個模型版本都還達不到「次世代」的水準。再加上又有傳言,各家在訓練階段的 Scaling Law 上都遇到了一些瓶頸,提升模型能力的希望更多轉(zhuǎn)向了后訓練階段。我們最終看到的下一代大模型,或許和目前的技術(shù)路線大不相同。

目前,Gemini-Exp-1114 和 Gemini-Exp-1121 在 Google AI Studio 上均為可用狀態(tài):

從官方發(fā)布的介紹來看,Gemini-Exp-1114 的亮點主要在于質(zhì)量改進,而最新的 Gemini-Exp-1121 重點改進了編碼、推理和視覺能力。

這場爭奪戰(zhàn)的出現(xiàn),卻引出了另外一個角度的話題:當前的人工智能基準測試方法可能大大簡化了模型評估。
就比如一周前,當研究人員控制了響應格式和長度等表面因素時,Gemini-Exp-1114 的表現(xiàn)下降到第四位,因為傳統(tǒng)指標可能會夸大感知能力。
這種差異揭示了人工智能評估中的一個根本問題:模型可以通過優(yōu)化表面特征而不是展示推理或可靠性的真正改進來獲得高分。對定量基準的關(guān)注引發(fā)了一場爭奪更高分數(shù)的競賽,行業(yè)對排行榜的依賴也會催生一些不良激勵方式,而這些都無關(guān)于人工智能的真正進步。
各個廠商針對特定測試場景優(yōu)化模型,同時可能忽略安全性、可靠性和實用性等更廣泛的問題。這種方法產(chǎn)生的 AI 系統(tǒng)擅長完成狹隘的預定任務(wù),但在處理細微的現(xiàn)實世界互動時卻舉步維艱。
比如有人就發(fā)現(xiàn)在 LiveBench 上,一周后更新的 Gemini-Exp-1121 版本,在數(shù)學和推理能力上反而比不上 Gemini-Exp-1114,令人疑惑。

廠商之間為獲得更高的基準分數(shù)而展開的競爭并不會停止,但真正的競爭可能在于如何開發(fā)全新的框架來評估和確保人工智能系統(tǒng)的安全性和可靠性。
OpenAI 考慮用瀏覽器挑戰(zhàn)谷歌霸主地位
谷歌和 OpenAI 不僅在大模型領(lǐng)域有點針鋒相對,在瀏覽器方面,OpenAI 正在加緊追趕。

當谷歌 Chrome 瀏覽器深陷反壟斷之際,OpenAI 出手了。
據(jù)《Information》周四報道,OpenAI 最近考慮開發(fā)一款可與其 ChatGPT 聊天機器人集成的 web 瀏覽器,并推出了 NLWeb(Natural Language Web)搜索技術(shù),以增強對旅游、食品、房地產(chǎn)和零售等行業(yè)的搜索。
報道還稱,OpenAI 已與 Conde Nast、Redfin、Eventbrite 和 Priceline 等網(wǎng)站和應用程序開發(fā)商討論過這款搜索產(chǎn)品。
據(jù)知情人士透漏,為了達到這一目標,OpenAI 聘請了谷歌 Chrome 團隊創(chuàng)始成員 Ben Goodger 以及其他前 Chrome 關(guān)鍵開發(fā)人員進行研發(fā),展現(xiàn)了 OpenAI 對開發(fā)瀏覽器濃厚的興趣。

這一系列舉措可能會讓 OpenAI 與占據(jù)瀏覽器和搜索市場最大份額的谷歌展開競爭。此前,OpenAI 已經(jīng)通過 SearchGPT 進入搜索市場。
報道還稱,OpenAI 討論了為三星制造的設(shè)備提供人工智能功能,而三星是谷歌的主要商業(yè)合作伙伴。
此前,OpenAI 已經(jīng)與蘋果建立了合作伙伴關(guān)系,Apple Intelligence 功能現(xiàn)已使用 OpenAI 的技術(shù)。
不過,目前尚不清楚 OpenAI 何時會推出瀏覽器,《Information》報道稱,OpenAI 距離推出瀏覽器還差得很遠。
如今看來,谷歌不僅面臨來自 OpenAI 的壓力,在美國司法部認為谷歌應該出售其 Chrome 瀏覽器以結(jié)束其在在線搜索領(lǐng)域的壟斷地位后,谷歌在瀏覽器市場的主導地位變得岌岌可危。
如果 OpenAI 成功推出新的瀏覽器,它將成為谷歌最大的競爭對手。
吃瓜網(wǎng)友們也是紛紛看好 OpenAI,表示道「OpenAI 是非常有潛力開發(fā)出一款非常棒的瀏覽器的,因為他們現(xiàn)在已經(jīng)有了搜索功能。」

不過也有網(wǎng)友并不看好:「就我個人而言,瀏覽器對我已經(jīng)沒什么用了,因為我現(xiàn)在只需向聊天機器人提問,就能立即得到答案,而且無需廣告或嘗試多個頁面。」

還有人用一個故事表達了自己的觀點:「Nicholas Negroponte 曾經(jīng)討論過超級計算機的應用,并講述了一個關(guān)于他們展示科學計算器應用的故事。所有的投資者都非常生氣 ——『我們花費了數(shù)百萬美元,而你們所做的只是重新創(chuàng)建了計算器?我們已經(jīng)有計算器了!』如果 OpenAI 開發(fā)一款瀏覽器,我認為可能會發(fā)生同樣的事情。」

我們暫且不管 OpenAI 何時推出瀏覽器,單就最近幾天這兩家機構(gòu)在模型更新速度上,就已經(jīng)相當激烈了,OpenAI 正面剛谷歌還會繼續(xù)。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。