首頁 > AI資訊 > 行業動態 > 谷歌發布Gemini:我們還是一家強大的公司?

谷歌發布Gemini:我們還是一家強大的公司?

新火種    2023-12-08

谷歌發布 Gemini:我們還是一家強大的公司

作者丨郭思 王悅

編輯丨陳彩嫻

過去半年, 在OpenAI 持續迭代,不斷賺足大眾視線之際,谷歌遲遲沒有發聲。直至今日凌晨,谷歌直接丟出了一個重磅炸彈,帶著耗時一年之久的多模態模型 Gemini 來了。

而早在今年年初,谷歌就在著手 LaMDA 提供支持的實驗性對話式AI服務——Bard,但因為準備并不充足,一經發布之后,便因性能表現不佳,市值蒸發千億,如今來到年底,谷歌再次出擊,也被認為是反擊 OpenAI 的再次力作。

1、30項性能超過目前最先進水平,多模態基因實現強大推理能力

據谷歌官方表示,Gemini 1.0 針對不同尺寸進行了優化,分別是:Ultra、Pro 和 Nano。這些是進入 Gemini 時代的第一個模型,也實現了早些時候成立 Google DeepMind 時的愿景。

三個不同版本Ultra、Pro 和 Nano在各自性能和適配任務上側重點各有不同,具體而言:

Gemini Ultra —規模最大且功能最強大的模型,適用于高度復雜的任務。

Gemini Pro — 適用于各種任務的最佳模型。

Gemini Nano — 可以在端端側設備上運行的高效模型。

谷歌拒絕回答有關 Pro 和 Ultra 的參數數量以及訓練數據的規模或來源的問題。但其最小版本 Nano 旨在在智能手機上本地運行,實際上有兩種模型:一種用于速度較慢的手機,擁有 18 億個參數,另一種用于功能更強大的設備,擁有 32.5 億個參數。

谷歌表示,Gemini 是包括 Google Research 在內的 Google 各團隊間進行廣泛合作的成果。在大語言模型研究和開發中廣泛使用的 32 項學術基準中,Gemini Ultra 的性能有 30 項都超過了目前最先進的水平。

谷歌發布 Gemini:我們還是一家強大的公司

首先在MMLU(大規模多任務語言理解)測試中,Gemini的性能首次達到了超越人類專家水平。

在權威MMMU基準測試中,Gemini Ultra獲得了59.4%的SOTA分數。

圖像基準測試中,Gemini Ultra 在不使用對象字符識別 (OCR) 系統來提取圖像中的文本進行下一步處理的情況下,表現優于GPT-4V。

此外,多模態的模型,這意味著它可以歸納并流暢地理解、操作以及組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。

據谷歌官方介紹,Gemini 1.0 具有復雜的多模態推理能力,可幫助理解復雜的書面和視覺信息。這使得它具有獨特的技能,可以在海量的數據中發掘難以辨別的知識內容。

經過訓練,Gemini 1.0 具備了同時處理、圖像和音頻等信息的能力,這使得它能夠更深入地理解輸入內容的細節,并能對復雜主題的問題進行回答。因此,對于數學、物理等復雜的學科問題,Gemini 1.0 顯示出了強大的推理能力。

以理解圖像信息為例,在進行圖像理解時,Gemini基于圖像就可以馬上進行理解。但如果是非原生多模態結構模型上,就需要先借助OCR(光學字符識別技術)先“認出來”圖里是什么——轉成文本,再放到語言模型中進行語義理解。

Gemini可以做到端到端的理解,信息不會在“轉錄”過程中丟失。得益于此強大的功能,谷歌展示Gemini的應用實例演示顯得尤為絲滑:

當演示者在畫畫時,Gemini同時進行識別。他迅速辨認出了剛開始的曲線形狀。在鴨子畫完后,Gemini也能立即確認:“這是一只藍色的鴨子,正在水里游泳。”

谷歌發布 Gemini:我們還是一家強大的公司

Gemini能夠在幾乎實時的情況下完成辨別,并用自然、流暢的語言與演示者進行對話。

在演示者拿出藍色的橡皮鴨實物后,它甚至還會幽默地打趣:“看來藍色的鴨子比我想象中更常見?!?/p>

谷歌發布 Gemini:我們還是一家強大的公司

在另一個實例中,當演示者向Gemini尋求關于女兒生日派對的靈感時,Gemini首先向他提問:“能否告訴我她對什么感興趣呢?”

在獲得足夠的信息后,Gemini自主編寫了一份PRD(產品需求)文檔,并且不再以文本形式回應。相反,它迅速地編寫代碼,為用戶定制了一個圖文并茂的小部件。這個小部件包含了推薦的派對主題、活動和食品建議等,讓演示者可以在上面滑動,查看自己最感興趣的選項。

谷歌發布 Gemini:我們還是一家強大的公司

Gemini 一經發布,便引起了行業人士的熱烈討論,細心的網友們發現,綜合來看,谷歌在各個榜單之中,并不是所有版本都能完勝GPT-4,只有Gemini Ultra超過了GPT-4,而放于手機端的Gemini Nano 和Bard 搭載的Gemini Pro則沒有展露出可以與GPT-4對標的水平(Gemini Pro對標GPT-3.5,Nano則版本更低)。這也側面證明此次Gemini的核心競爭毋庸置疑落于多模態能力之上。同時也讓大眾對谷歌各個版本上線的時間十分關心。

谷歌表示,從12月7日開始,Bard 將使用 Gemini Pro 的微調版本來進行更高級的推理、規劃和理解等。未來幾個月,Gemini 將應用于谷歌更多的產品和服務,如 Search、Ads、Chrome 和 Duet AI。此外,從 12 月 13 日開始,開發者和企業客戶可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 獲取 Gemini Pro。至于 Gemini Ultra 版本,谷歌在表示, 在明年初才會向開發者和企業客戶提供Gemini Ultra,也將推出性能更強大的 Bard Advanced 版本。

2、反擊 OpenAI,谷歌成功了嗎?

此次反擊 OpenAI ,谷歌并非一蹴而就,而是抓住發力點,在更早的 PaLM 等大模型中就初露端倪 。

本次發布的 Gemini 亮眼的地方在于,其 Pro 版本擊敗了其他一些模型,例如 OpenAI 的 GPT-3.5,但更強大的 Ultra 超過了所有現有 AI 模型的能力,它在行業標準 MMLU 基準上得分為 90% 。在“expert level”測試中, Ultra 預計能達到89.8%,GPT-4 的得分為 87%,LLAMA-2 的得分為 68%,Anthropic 的 Claude 2的得分為78.5%,而 Gemini 在其他九項通用基準測試中有八項都擊敗了所有這些模型。

反觀 GPT-4 ,此前就有論文稱其性能下降,在解決數學問題、回答敏感問題、代碼生成、視覺推理上均有薄弱之處。

比如在代碼生成這一層面,GPT-4 的代碼生成表現欠佳。在今年 6 月份的測試中,GPT-4在代碼片段前后添加了額外的「引號」,導致代碼無法執行。

在回答敏感問題方面,GPT-4 更傾向回答更少的問題,使得答案變得更加簡潔,并且在拒絕回答查詢時提供的解釋也更少,可見 GPT-4 雖然更安全但缺乏理由。

而谷歌 Gemini 在復雜問題上的推理能力是其核心優勢之一,在一定程度上會帶給使用者較 OpenAI GPT-4 更優質的體驗。尤其是在面對復雜的書面和視覺信息時,Gemini 對內容的細節理解力更突出。

其實,谷歌此類的推理能力在 PaLM 模型中即有所體現。PaLM 在幾個 BIG-bench 任務中展示了令人印象深刻的自然語言理解和生成能力。例如,該模型可以區分因果關系,理解適當上下文中的概念組合,甚至可以從表情符號中猜測電影。

通過將模型規模與思維鏈提示相結合,PaLM 在需要多步算術或常識推理的推理任務上顯示出突破性的能力。PaLM 甚至可以為需要多步邏輯推理、世界知識和深度語言理解的復雜組合的場景生成明確的解釋。

此外,PaLM 540B 在單個模型中的編碼任務和自然語言任務中表現出強大的性能,即使它在預訓練數據集中只有 5% 的代碼。它的few-shot 性能特別顯著,因為它與經過微調的Codex 12B 相當,同時使用比Python 少了50 倍的代碼進行訓練。

而放眼至整個行業,無論是谷歌的 PaLM 、 Gemini 抑或是 OpenAI 的 GPT-4 ,其實如今火熱的大模型之爭本質是在于信息流之爭。

對于谷歌而言,ChatGPT 對谷歌的最大的威脅也是在于信息流。

不過此次谷歌的反擊,也給 OpenAI 此前不斷蠶食的信息流領域了一記當頭之棒。具備多模態能力的不同尺寸和功能的 Gemini 版本,后續會部署在谷歌不同的產品、應用和設備上。

更為重要的是谷歌已經允許一小部分公司使用 Gemini 軟件的早期版本,意味著谷歌即將將其納入消費者服務,并通過公司的云計算服務出售給企業。

落于具體的商業模式和策略,谷歌的反擊應了那句經典的“以子之矛攻子之盾”。

谷歌有天生的應用場景和十分龐大的用戶基數大,但正因為體量十分大,具有大公司病。

此前,Tony Fadell(Nest 創始人并已被谷歌收購),就曾在在訪談中提到了谷歌所面臨的大企業問題。他用“戀愛和婚姻是兩碼事”來比喻,指出谷歌的運營方式正在阻礙創新。

具體來說,就是谷歌有著收入十分可觀的廣告業務,導致公司更多地從財務角度衡量創新(例如,誰會積極推動可能會侵蝕搜索業務利潤的創新項目?)而不是出于生存與發展的迫切需要。

這也被認為是 OpenAI 今年一直迭代,谷歌遲遲沒有跟上節奏的一重大原因。但是仔細來看,任何一家公司到達谷歌的體量,都會面臨這樣的問題。

OpenAI 是一家新銳公司,所以他能無負擔地高歌猛進。但是我們無法忽視的是,他依托微軟而生,在組織架構和商業模式上也仍處于成長期。所以才會出現此前出現的多次反轉宮斗。

OpenAI和谷歌之間的爭斗,似乎并不止于這兩家公司,而是可以定義成一個更普遍的問題:創業公司和大企業之間誰死誰生?

在微軟將 OpenAI 的模型整合到 Bing 搜索引擎之后,公司首席執行官薩蒂亞·納德拉(Satya Nadella)在接受 The Verge 采訪時表達了自己的看法。他認為人工智能技術的應用有望助力微軟挑戰谷歌在網絡搜索領域的主導地位,并且預計這一舉動將會引起谷歌的回應和應對策略。

薩蒂亞用了“要讓谷歌跳舞”這一隱喻來說明自己的決心,今年GPT多次迭代,殺得谷歌措手不及。

但對于OpenAI 的“快功”,谷歌 CEO Sundar Pichai則用了板球比賽中的“讓球棒說話”來回答。

具體而言,谷歌作為一家大企業想做的或許也是在利用大企業的優勢,借助強大的資本支撐和資源,走得慢一點,具體的實例可以從谷歌今年讓DeepMind 和 Google Brain這兩個相互競爭的實體合并中看出端倪。

對于AI,Sundar Picha的策略是在將技術應用于產品之前,需要讓技術更加成熟一些。讓用戶帶著巨大的信任來找谷歌。

畢竟AI之戰是一場長跑,如今雖然大模型已經掀起了千層浪潮,但是產品遲遲沒有落地,對于用戶的真正價值還沒有具象到具體的日常生活中。

而對于整個行業而言,可以肯定的是多模態大模型時代已經來臨,而OpenAI與谷歌這兩家企業的白熱化之爭,讓我們對2023年底最強大模型王座充滿了期待。

OpenAI VS 谷歌,這場大模型之戰還將在哪里爆發?

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章