首頁 > AI資訊 > 行業動態 > 突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

新火種    2023-12-07

傳聞中的谷歌殺手锏Gemini,來了!

就在剛剛,谷歌CEO皮猜和哈薩比斯在谷歌官網聯名發文,宣布推出這一萬眾矚目的多模態大模型。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

標題明晃晃寫著“最大”、“最強”,主打的就是一個干爆GPT-4。

具體來說,此次谷歌一共帶來了Gemini的三個版本:

Gemini Ultra:谷歌最大、最強模型,適用于高度復雜的任務Gemini Pro:可擴展至各種任務的Gemini模型Gemini Nano:適用于端側設備的高效Gemini版本(1.8B/3.25B)

其中Gemini Ultra一上來就在32個基準測試中拿下30個SOTA,并且第一個在MMLU基準上達到人類專家水平。

而Gemini Pro從今天起,就會在Bard中實裝上線。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

同時,谷歌Gemini團隊還公布了一份60頁的詳細技術報告。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

消息一出,社交媒體瞬間炸了鍋。

英偉達AI科學家Jim Fan就第一時間轉發評論:

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

話不多說,一起來看更多細節。

谷歌史上最強大模型Gemini

在LLM中的表現,也正如我們剛才所述,32個基準測試中拿下30個SOTA。

其中,通用、推理、數學和編程等大方向的成績如下表所示:

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

△Gemini 在包括文本和編碼在內的一系列基準測試中達到SOTA

在多模態方面,Gemini Ultra在新的MMMU基準測試中也獲得了59.4%的SOTA分數。

這項基準測試是由跨不同領域的多模式任務組成,需要大模型進行一個深思熟慮的推理過程。

根據谷歌給出的圖像基準測試結果來看,Gemini Ultra在沒有OCR系統的幫助下,表現優于之前最先進的模型。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

△Gemini 在一系列多模態基準測試中達到SOTA

接下來,我們以具體的案例來看一下Gemini的能力。

例如科學家們經常要面對從成千上萬的文獻中提取數據的難題,像下面這篇研究,作者就通過手動的方法從上萬篇遺傳學論文中創建了數據集。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

像這樣的數據集是需得隨著時間流逝而進行更新的,但現實的情況是,自2021年以來,這個領域便已有超過200000篇新增的論文……

再像以往手動的方式顯然是不可行的,不過現在有了Gemini,一切就變得簡單了起來。

首先,通過自然語言的Prompt,告訴Gemini去過濾相關的科學論文:

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

只需片刻時間,Gemini就能找到相關論文和非相關的論文。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

而后,繼續用Prompt告訴Gemini去閱讀相關論文,并提取關鍵數據,甚至是可以要求它添加注釋的那種。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

如果你給Gemini一個午休的時間長度,它就能閱讀200000篇論文,從中篩選出250篇并提取數據!

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

并且由于Gemini是多模態的,我們還可以讓它對上面的數據表格做進一步的深入操作,例如更新圖表:

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

對于學生黨來說,Gemini現在也可以成為非常得力的學習助手。

例如“喂”給Gemini一張手寫物理題,它不僅能看懂,而且還可以辨別手寫答案的對錯。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

在此基礎上,若是選擇一個錯誤的題目,我們還可以跟Gemini通過自然語言溝通,讓它對每一個細節步驟進行詳解。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

在看圖像做理解和推理方面,谷歌還亮出了更多有意思的案例。

例如替換圖片素材的組合方式,Gemini就能像人一樣精準猜中所指的電影名字:

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

就連下面這種高難度的也能hold?。?/p>突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

再如尋找兩張圖片的相似之處:

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

更有意思的是,谷歌還特意用中文做了個demo,來展示Gemini對多張圖片的組合理解能力:

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

那么接下來的問題就是:Gemini是如何做到的?

60頁報告透露技術細節

谷歌Gemini背后技術的殺手锏,便是原生多模態(natively multimodal)。

因為以往創建多模態大模型的方法,通常是為不同的模態訓練單獨的組件,然后將它們拼接在一起,大致模擬其中的一些功能。

這樣訓練出來的模型雖然有時可以很好地執行某些任務(比如描述圖像),但在面對更具概念性和復雜推理的情況下,就會出現表現不佳的結果。

而谷歌Gemini所強調的原生多模態,是指從一開始就對不同的模態進行預訓練,然后用額外的多模態數據對其進行微調,以此來進一步完善大模型的有效性。

谷歌對此表示:

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

具體到模型架構方面,Gemini基于增強的Transformer decoder打造,采用了高效attention機制(如multi-query attention),支持32k上下文長度。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

盡管沒有透露Ultra和Pro版本的具體參數規模,但技術報告中提到,谷歌使用TPUv5e和TPUv4來訓練Gemini。

訓練Gemini Ultra使用了跨多個數據中心的大量TPUv4。這意味著與谷歌此前的主力大模型PaLM-2相比,Gemini在規模上顯著增大。

此前,PaLM-2被曝參數規模為3400億。

Gemini Pro實裝上線

競爭對手那邊,OpenAI的GPTs驚艷全世界,微軟的Copilot更是先一步滲透進全線產品。

因此Gemini一出,谷歌也當即強調:Gemini將通過谷歌產品推向數十億用戶。

率先上線的是Gemini Pro。從今天起,谷歌的聊天機器人Bard將由Gemini Pro微調版本驅動。谷歌表示:

谷歌還打算把Gemini引入手機:Pixel 8 Pro將是第一款運行Gemini Nano的智能手機。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

另外,谷歌計劃在接下來幾個月中,將Gemini全面推向搜索、廣告、Chrome和Duet AI等產品線。

根據官方數據,Gemini能使用戶的搜索生成體驗(SGE)速度更快、質量更高,比如在美國使用英語搜索延遲能減少40%。

值得關注還有,就在Gemini正式亮相的同時,谷歌還推出了專為大模型而設計的新一代TPU——Cloud TPU v5p。

突發!谷歌發布史上最強大模型Gemini,打爆GPT-4

那么,你覺得這一波,谷歌能趕上OpenAI的腳步嗎?

參考鏈接:[1]https://blog.google/technology/ai/google-gemini-ai[2]https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf[3]https://youtu.be/jV1vkHv4zq8?si=jjAw0uV0dkpP3eVT

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章