亚洲女女女同性video,在线播放免费av,黄色av福利

首頁 > AI資訊 > 最新資訊 > 僅僅一天，Gemini就奪回了GPT-4o拿走的頭名

僅僅一天，Gemini就奪回了GPT-4o拿走的頭名

新火種 2024-11-23

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜單的頭把交椅。

對于苦苦追趕 OpenAI 幾個月的谷歌來說，這次在基準測試上的勝利十分振奮人心。

可惜振奮的時間不長：昨天，GPT-4o 一個更新，把第一名的位置搶回來了。

奧特曼慶功的話音剛落，Gemini-Exp-1121 殺出來，又把第一名搶走了。

谷歌工程師還順帶嘲諷了一波：

位次的變化實在太快，讓人有點恍惚了。難道接下來，大模型迭代要以「周」為單位了嗎？

狂卷基準測試，真有意義嗎？

有人猜測，莫非這就是谷歌逐漸過渡到 Gemini 2 的發(fā)布方式？但這種可能性不大，因為最近的兩個模型版本都還達不到「次世代」的水準。再加上又有傳言，各家在訓練階段的 Scaling Law 上都遇到了一些瓶頸，提升模型能力的希望更多轉(zhuǎn)向了后訓練階段。我們最終看到的下一代大模型，或許和目前的技術(shù)路線大不相同。

目前，Gemini-Exp-1114 和 Gemini-Exp-1121 在 Google AI Studio 上均為可用狀態(tài)：

從官方發(fā)布的介紹來看，Gemini-Exp-1114 的亮點主要在于質(zhì)量改進，而最新的 Gemini-Exp-1121 重點改進了編碼、推理和視覺能力。

這場爭奪戰(zhàn)的出現(xiàn)，卻引出了另外一個角度的話題：當前的人工智能基準測試方法可能大大簡化了模型評估。

就比如一周前，當研究人員控制了響應格式和長度等表面因素時，Gemini-Exp-1114 的表現(xiàn)下降到第四位，因為傳統(tǒng)指標可能會夸大感知能力。

這種差異揭示了人工智能評估中的一個根本問題：模型可以通過優(yōu)化表面特征而不是展示推理或可靠性的真正改進來獲得高分。對定量基準的關(guān)注引發(fā)了一場爭奪更高分數(shù)的競賽，行業(yè)對排行榜的依賴也會催生一些不良激勵方式，而這些都無關(guān)于人工智能的真正進步。

各個廠商針對特定測試場景優(yōu)化模型，同時可能忽略安全性、可靠性和實用性等更廣泛的問題。這種方法產(chǎn)生的 AI 系統(tǒng)擅長完成狹隘的預定任務(wù)，但在處理細微的現(xiàn)實世界互動時卻舉步維艱。

比如有人就發(fā)現(xiàn)在 LiveBench 上，一周后更新的 Gemini-Exp-1121 版本，在數(shù)學和推理能力上反而比不上 Gemini-Exp-1114，令人疑惑。

廠商之間為獲得更高的基準分數(shù)而展開的競爭并不會停止，但真正的競爭可能在于如何開發(fā)全新的框架來評估和確保人工智能系統(tǒng)的安全性和可靠性。

OpenAI 考慮用瀏覽器挑戰(zhàn)谷歌霸主地位

谷歌和 OpenAI 不僅在大模型領(lǐng)域有點針鋒相對，在瀏覽器方面，OpenAI 正在加緊追趕。

當谷歌 Chrome 瀏覽器深陷反壟斷之際，OpenAI 出手了。

據(jù)《Information》周四報道，OpenAI 最近考慮開發(fā)一款可與其 ChatGPT 聊天機器人集成的 web 瀏覽器，并推出了 NLWeb（Natural Language Web）搜索技術(shù)，以增強對旅游、食品、房地產(chǎn)和零售等行業(yè)的搜索。

報道還稱，OpenAI 已與 Conde Nast、Redfin、Eventbrite 和 Priceline 等網(wǎng)站和應用程序開發(fā)商討論過這款搜索產(chǎn)品。

據(jù)知情人士透漏，為了達到這一目標，OpenAI 聘請了谷歌 Chrome 團隊創(chuàng)始成員 Ben Goodger 以及其他前 Chrome 關(guān)鍵開發(fā)人員進行研發(fā)，展現(xiàn)了 OpenAI 對開發(fā)瀏覽器濃厚的興趣。

領(lǐng)英資料顯示，此前 Ben Goodger 是 Chrome 團隊的創(chuàng)始成員，今年 6 月加入 OpenAI

這一系列舉措可能會讓 OpenAI 與占據(jù)瀏覽器和搜索市場最大份額的谷歌展開競爭。此前，OpenAI 已經(jīng)通過 SearchGPT 進入搜索市場。

報道還稱，OpenAI 討論了為三星制造的設(shè)備提供人工智能功能，而三星是谷歌的主要商業(yè)合作伙伴。

此前，OpenAI 已經(jīng)與蘋果建立了合作伙伴關(guān)系，Apple Intelligence 功能現(xiàn)已使用 OpenAI 的技術(shù)。

不過，目前尚不清楚 OpenAI 何時會推出瀏覽器，《Information》報道稱，OpenAI 距離推出瀏覽器還差得很遠。

如今看來，谷歌不僅面臨來自 OpenAI 的壓力，在美國司法部認為谷歌應該出售其 Chrome 瀏覽器以結(jié)束其在在線搜索領(lǐng)域的壟斷地位后，谷歌在瀏覽器市場的主導地位變得岌岌可危。

如果 OpenAI 成功推出新的瀏覽器，它將成為谷歌最大的競爭對手。

吃瓜網(wǎng)友們也是紛紛看好 OpenAI，表示道「OpenAI 是非常有潛力開發(fā)出一款非常棒的瀏覽器的，因為他們現(xiàn)在已經(jīng)有了搜索功能。」

不過也有網(wǎng)友并不看好：「就我個人而言，瀏覽器對我已經(jīng)沒什么用了，因為我現(xiàn)在只需向聊天機器人提問，就能立即得到答案，而且無需廣告或嘗試多個頁面。」

還有人用一個故事表達了自己的觀點：「Nicholas Negroponte 曾經(jīng)討論過超級計算機的應用，并講述了一個關(guān)于他們展示科學計算器應用的故事。所有的投資者都非常生氣 ——『我們花費了數(shù)百萬美元，而你們所做的只是重新創(chuàng)建了計算器？我們已經(jīng)有計算器了！』如果 OpenAI 開發(fā)一款瀏覽器，我認為可能會發(fā)生同樣的事情。」

我們暫且不管 OpenAI 何時推出瀏覽器，單就最近幾天這兩家機構(gòu)在模型更新速度上，就已經(jīng)相當激烈了，OpenAI 正面剛谷歌還會繼續(xù)。

Tags:

深度學習頭名

相關(guān)推薦

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內(nèi)容相關(guān)的任何行動之前，請務(wù)必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

僅僅一天，Gemini就奪回了GPT-4o拿走的頭名

大模型不會推理，為什么也能有思路？有人把原理搞明白了

僅僅一天，Gemini就奪回了GPT-4o拿走的頭名

騰訊混元大模型核心論文曝光：Scalinglaw、MoE、合成數(shù)據(jù)以及更多

人工智能大會即將舉辦，AI應用端催化不斷，這些概念股頻獲調(diào)研

工信部副部長張云明：推動人工智能與實體經(jīng)濟深度融合，全方位賦能新型工業(yè)化

熱門文章