首頁 > AI資訊 > 最新資訊 > 僅僅一天,Gemini就奪回了GPT-4o拿走的頭名

僅僅一天,Gemini就奪回了GPT-4o拿走的頭名

新火種    2024-11-23

一周前,谷歌的 Gemini-Exp-1114 模型取代 GPT-4o,坐上了 Arena 榜單的頭把交椅。

對于苦苦追趕 OpenAI 幾個月的谷歌來說,這次在基準測試上的勝利十分振奮人心。

可惜振奮的時間不長:昨天,GPT-4o 一個更新,把第一名的位置搶回來了。

奧特曼慶功的話音剛落,Gemini-Exp-1121 殺出來,又把第一名搶走了。

谷歌工程師還順帶嘲諷了一波:

位次的變化實在太快,讓人有點恍惚了。難道接下來,大模型迭代要以「周」為單位了嗎?

狂卷基準測試,真有意義嗎?

有人猜測,莫非這就是谷歌逐漸過渡到 Gemini 2 的發(fā)布方式?但這種可能性不大,因為最近的兩個模型版本都還達不到「次世代」的水準。再加上又有傳言,各家在訓練階段的 Scaling Law 上都遇到了一些瓶頸,提升模型能力的希望更多轉(zhuǎn)向了后訓練階段。我們最終看到的下一代大模型,或許和目前的技術(shù)路線大不相同。

目前,Gemini-Exp-1114 和 Gemini-Exp-1121 在 Google AI Studio 上均為可用狀態(tài):

從官方發(fā)布的介紹來看,Gemini-Exp-1114 的亮點主要在于質(zhì)量改進,而最新的 Gemini-Exp-1121 重點改進了編碼、推理和視覺能力。

這場爭奪戰(zhàn)的出現(xiàn),卻引出了另外一個角度的話題:當前的人工智能基準測試方法可能大大簡化了模型評估。

就比如一周前,當研究人員控制了響應格式和長度等表面因素時,Gemini-Exp-1114 的表現(xiàn)下降到第四位,因為傳統(tǒng)指標可能會夸大感知能力。

這種差異揭示了人工智能評估中的一個根本問題:模型可以通過優(yōu)化表面特征而不是展示推理或可靠性的真正改進來獲得高分。對定量基準的關(guān)注引發(fā)了一場爭奪更高分數(shù)的競賽,行業(yè)對排行榜的依賴也會催生一些不良激勵方式,而這些都無關(guān)于人工智能的真正進步。

各個廠商針對特定測試場景優(yōu)化模型,同時可能忽略安全性、可靠性和實用性等更廣泛的問題。這種方法產(chǎn)生的 AI 系統(tǒng)擅長完成狹隘的預定任務(wù),但在處理細微的現(xiàn)實世界互動時卻舉步維艱。

比如有人就發(fā)現(xiàn)在 LiveBench 上,一周后更新的 Gemini-Exp-1121 版本,在數(shù)學和推理能力上反而比不上 Gemini-Exp-1114,令人疑惑。

廠商之間為獲得更高的基準分數(shù)而展開的競爭并不會停止,但真正的競爭可能在于如何開發(fā)全新的框架來評估和確保人工智能系統(tǒng)的安全性和可靠性。

OpenAI 考慮用瀏覽器挑戰(zhàn)谷歌霸主地位

谷歌和 OpenAI 不僅在大模型領(lǐng)域有點針鋒相對,在瀏覽器方面,OpenAI 正在加緊追趕。

當谷歌 Chrome 瀏覽器深陷反壟斷之際,OpenAI 出手了。

據(jù)《Information》周四報道,OpenAI 最近考慮開發(fā)一款可與其 ChatGPT 聊天機器人集成的 web 瀏覽器,并推出了 NLWeb(Natural Language Web)搜索技術(shù),以增強對旅游、食品、房地產(chǎn)和零售等行業(yè)的搜索。

報道還稱,OpenAI 已與 Conde Nast、Redfin、Eventbrite 和 Priceline 等網(wǎng)站和應用程序開發(fā)商討論過這款搜索產(chǎn)品。

據(jù)知情人士透漏,為了達到這一目標,OpenAI 聘請了谷歌 Chrome 團隊創(chuàng)始成員 Ben Goodger 以及其他前 Chrome 關(guān)鍵開發(fā)人員進行研發(fā),展現(xiàn)了 OpenAI 對開發(fā)瀏覽器濃厚的興趣。

領(lǐng)英資料顯示,此前 Ben Goodger 是 Chrome 團隊的創(chuàng)始成員,今年 6 月加入 OpenAI

這一系列舉措可能會讓 OpenAI 與占據(jù)瀏覽器和搜索市場最大份額的谷歌展開競爭。此前,OpenAI 已經(jīng)通過 SearchGPT 進入搜索市場。

報道還稱,OpenAI 討論了為三星制造的設(shè)備提供人工智能功能,而三星是谷歌的主要商業(yè)合作伙伴。

此前,OpenAI 已經(jīng)與蘋果建立了合作伙伴關(guān)系,Apple Intelligence 功能現(xiàn)已使用 OpenAI 的技術(shù)。

不過,目前尚不清楚 OpenAI 何時會推出瀏覽器,《Information》報道稱,OpenAI 距離推出瀏覽器還差得很遠。

如今看來,谷歌不僅面臨來自 OpenAI 的壓力,在美國司法部認為谷歌應該出售其 Chrome 瀏覽器以結(jié)束其在在線搜索領(lǐng)域的壟斷地位后,谷歌在瀏覽器市場的主導地位變得岌岌可危。

如果 OpenAI 成功推出新的瀏覽器,它將成為谷歌最大的競爭對手。

吃瓜網(wǎng)友們也是紛紛看好 OpenAI,表示道「OpenAI 是非常有潛力開發(fā)出一款非常棒的瀏覽器的,因為他們現(xiàn)在已經(jīng)有了搜索功能。」

不過也有網(wǎng)友并不看好:「就我個人而言,瀏覽器對我已經(jīng)沒什么用了,因為我現(xiàn)在只需向聊天機器人提問,就能立即得到答案,而且無需廣告或嘗試多個頁面。」

還有人用一個故事表達了自己的觀點:「Nicholas Negroponte 曾經(jīng)討論過超級計算機的應用,并講述了一個關(guān)于他們展示科學計算器應用的故事。所有的投資者都非常生氣 ——『我們花費了數(shù)百萬美元,而你們所做的只是重新創(chuàng)建了計算器?我們已經(jīng)有計算器了!』如果 OpenAI 開發(fā)一款瀏覽器,我認為可能會發(fā)生同樣的事情。」



我們暫且不管 OpenAI 何時推出瀏覽器,單就最近幾天這兩家機構(gòu)在模型更新速度上,就已經(jīng)相當激烈了,OpenAI 正面剛谷歌還會繼續(xù)。

相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章