首頁 > AI資訊 > 行業(yè)動(dòng)態(tài) > Gemini多模態(tài)時(shí)代開啟!DeepMindCEO揭秘超進(jìn)化體融進(jìn)AlphaGo,明年面世

Gemini多模態(tài)時(shí)代開啟!DeepMindCEO揭秘超進(jìn)化體融進(jìn)AlphaGo,明年面世

新火種    2023-12-17

來源:新智元

圖片來源:由無界 AI生成

谷歌帶著Gemini真的來了,多模態(tài)能力震驚全網(wǎng)。下一代模型將融合AlphaGo深度強(qiáng)化學(xué)習(xí)技術(shù),2024年面世。

真正可以叫板GPT-4的模型,當(dāng)屬谷歌Gemini。

Gemini一經(jīng)放出,強(qiáng)大的多模態(tài)能力演示刷屏全網(wǎng),而GPT-5的話題瞬間也被推上了熱搜。

扔掉PaLM 2,谷歌Brad、辦公全家桶等全線產(chǎn)品也將脫胎換骨,得到Gemini的加持。

谷歌官方稱,Gemini Ultra超大杯將在明年發(fā)布。

而在Gemini正式放出之前,就有接觸過內(nèi)部測試的人士評(píng)論到,「2023年如果是大模型元年的話,2024年很有可能是Gemini年」。

正如谷歌DeepMind負(fù)責(zé)人Demis Hassabis所說,Gemini的時(shí)代來臨了。

據(jù)透露,AlphaGo深度強(qiáng)化學(xué)習(xí)技術(shù)正在融入Gemini模型中,2024年的下一版本將會(huì)超級(jí)進(jìn)化。

32k上下文,三種杯型

ChatGPT誕生后風(fēng)頭無兩,讓退居幕后的聯(lián)合創(chuàng)始人Sergey Brin心急如焚。

7月,他曾被爆出重回公司參與下一代AI系統(tǒng)的研發(fā)。

Gemini論文作者列表中,他的名字赫然在列。


關(guān)于60頁Gemini技術(shù)報(bào)告,網(wǎng)友做了一個(gè)濃縮版。

1. 用Jax編寫,使用TPU進(jìn)行訓(xùn)練。雖然沒有詳細(xì)解釋,但其架構(gòu)似乎與Flamigo類似。

2. Gemini Pro的性能類似于GPT-3.5,而Gemini Ultra據(jù)說優(yōu)于GPT-4。Nano-1(1.8B 參數(shù))和 Nano-2(3.25B 參數(shù))設(shè)計(jì)為在終端設(shè)備上運(yùn)行。

3. 32K上下文長度。

4. 非常擅長理解視覺和語音。

5. 編碼能力:與GPT-4相比,HumanEval的大幅躍升(74.4% Vs 67%)。不過,Natural2Code基準(zhǔn)顯示的差距要小得多(74.9% Vs 73.9%)。

6. 關(guān)于MMLU:用COT@32(32個(gè)樣本)來說明Gemini優(yōu)于GPT-4似乎有些勉強(qiáng)。在5個(gè)樣本設(shè)置中,GPT-4更勝一籌(86.4% Vs 83.7%)。

7. 除了確保「所有數(shù)據(jù)濃縮工人至少獲得當(dāng)?shù)厣罟べY」之外,沒有關(guān)于訓(xùn)練數(shù)據(jù)的任何信息。

Gemini模型中杯、大杯、超大杯三種體量模型在不同能力上的語言理解和生成性能。

以下幾張圖,是關(guān)鍵對(duì)比數(shù)據(jù)。

Gemini在文本基準(zhǔn)上的性能,與外部模型和PaLM 2-L的比較。

圖像理解方面,Gemini Ultra始終優(yōu)于所有的模型。

語音基準(zhǔn)上的評(píng)估結(jié)果,Gemini Pro在語音識(shí)別,以及自動(dòng)語音翻譯都優(yōu)于其他模型。

網(wǎng)友點(diǎn)評(píng)

交錯(cuò)文本圖像生成

一位開發(fā)者Brian Roemmele發(fā)現(xiàn)Gemini Ultra確實(shí)略勝一籌。

根據(jù)技術(shù)報(bào)告,Gemini Ultra模型是在YouTube數(shù)據(jù)上進(jìn)行深度訓(xùn)練的,因此它可以從視頻(《黑客帝國》)中的一個(gè)場景推斷出一系列靜態(tài)圖像,并從中寫出文字?jǐn)⑹觥?/p>

而Roemmele在 ChatGPT-4 Turbo上進(jìn)行了測試后,發(fā)現(xiàn)它無法推理出這樣的輸出結(jié)果。

Gemini Ultra也會(huì)以圖像和文本相結(jié)合的方式做出響應(yīng)。這就是所謂的「交錯(cuò)文本和圖像生成」。

之所以能做到這一點(diǎn),是因?yàn)樵撃P褪窃诙嗄B(tài)輸入的基礎(chǔ)上訓(xùn)練出來的。

下面這個(gè)便是Gemini Ultra,從毛線球到編織成品文本與圖像的生成。

多模態(tài)+工具

在這個(gè)樣本中,我們看到Gemini Ultra在執(zhí)行一項(xiàng)任務(wù)時(shí),充分發(fā)揮了多模態(tài)訓(xùn)練和微調(diào)的威力。

這種協(xié)同作用的發(fā)展規(guī)模在目前的人工智能模型中尚屬首次。它將多模態(tài)與工具使用相結(jié)合:畫圖搜索音樂。

揭秘「魔術(shù)」

更厲害的是,Gemini Ultra還可以看懂魔術(shù)。

Roemmele表示,通過對(duì)經(jīng)典魔術(shù)的辨別,可以看到了Gemini統(tǒng)一多模態(tài)模型的特點(diǎn)。由于模型中的YouTube視頻訓(xùn)練,它可以理解序列并通過邏輯得出結(jié)論。

接下來,就是見證奇跡的時(shí)刻了。給到一個(gè)右手拿硬幣的圖,讓Gemini去描述。

把硬幣變沒后,Gemini Ultra能夠一步步總結(jié)剛剛所看的所有過程。

最后,根據(jù)邏輯推理出結(jié)果。

Gemini多模態(tài)做題

Reddit一位網(wǎng)友上傳了一張截圖,他自己稱這是在Gemini下實(shí)測的結(jié)果。

圖中是一名高中生解答物理題的過程,他讓Gemini對(duì)解題過程進(jìn)行批改,如果有誤就讓他做出正確答案。

Gemini讀出了圖中學(xué)生解題思路的問題,并且成功做出了答案。

而我們自己在把同一道題給到GPT-4,它第一次嘗試回答時(shí),到一半突然「夾住了」。

當(dāng)要求它重新回答時(shí),GPT-4才正確地判斷了學(xué)生的解題思路有問題,并給出了正確答案。

而同樣的情況在Reddit網(wǎng)友身上也發(fā)生了。

Gemini Nano將大模型戰(zhàn)火燒到了手機(jī)端

而這次谷歌發(fā)布的Gemini,不僅僅是對(duì)OpenAI用GPT-4定義的「大模型SOTA」的回應(yīng),還直接將大模型的戰(zhàn)火燒到了移動(dòng)端,現(xiàn)在壓力來到了蘋果這邊。

Gemini的三個(gè)版本Ultra Pro Nano,針對(duì)從數(shù)據(jù)中心到手機(jī)都進(jìn)行了優(yōu)化,可以應(yīng)對(duì)不同用戶在不同使用場景下的各種需求。

Gemini Nano是谷歌為移動(dòng)設(shè)備上任務(wù)構(gòu)建的最高效模型。現(xiàn)在它已經(jīng)可以在谷歌的Pixel 8 Pro上運(yùn)行。

作為首款專為Gemini Nano設(shè)計(jì)的智能手機(jī),Pixel 8 Pro利用谷歌的人工智能Soc Tensor G3的強(qiáng)大功能提供兩項(xiàng)擴(kuò)展功能:記錄器中的摘要和Gboard中的智能回復(fù)。

在本地運(yùn)行的Gemini Nano可以讓用戶的敏感數(shù)據(jù)不離開離開手機(jī),在沒有網(wǎng)絡(luò)連接的情況下使用大模型能力。

除了現(xiàn)在已經(jīng)能在Pixel 8 Pro上運(yùn)行的Gemini Nano之外,未來通過Bard的智能助手功能,Pixel手機(jī)可以解鎖更強(qiáng)大的Gemini版本。

在Recorder中進(jìn)行總結(jié)

Gemini Nano現(xiàn)在可以為Pixel 8 Pro 上的錄音機(jī)中的內(nèi)容進(jìn)行AI總結(jié)。

用戶可以在不聯(lián)網(wǎng)的情況直接對(duì)自己錄制的對(duì)話、采訪、演示等內(nèi)容的生成摘要。

這個(gè)功能就可以幫助用戶將之前自己記錄下來的冗長內(nèi)容語音內(nèi)容快速清晰地梳理出來,便于進(jìn)一步的使用和整理,不得不說真的非常方便。

通過Gboard能在用戶的聊天中進(jìn)行智能回復(fù)

在Pixel 8 Pro中,Gemini Nano可以支持Gboard中的智能回復(fù)功能。

在手機(jī)上的AI模型現(xiàn)在可以在WhatsApp上試用,明年將推出更多應(yīng)用程序,可以通過對(duì)話感知能力提出高質(zhì)量的回復(fù),節(jié)省用戶大量的時(shí)間。

Gemini時(shí)代來臨了

作為谷歌DeepMind的領(lǐng)導(dǎo)人,Demis Hassabis也是興奮不已,并表示「Gemini的時(shí)代來臨了」。

最新Wired的采訪中,Hassabis直言道,谷歌今天宣布的人工智能模型Gemini為人工智能開辟了一條未被實(shí)踐的道路,可能會(huì)帶來重大的新突破。

「作為一名神經(jīng)科學(xué)家和計(jì)算機(jī)科學(xué)家,多年來我一直想嘗試創(chuàng)造一種新一代的人工智能模型。而這些模型的靈感來自我們所有感官互動(dòng)和理解世界的方式」。

「Gemini是向這種『多模態(tài)』模型邁出的一大步」。

他繼續(xù)道,「到目前為止,大多數(shù)模型都是通過訓(xùn)練單獨(dú)的模塊,然后將其拼接在一起,來實(shí)現(xiàn)多模態(tài)能力」。

「對(duì)于某些任務(wù)來說,這是可以的,但是在多模態(tài)空間中,無法進(jìn)行深度復(fù)雜推理」。

這似乎是在暗指OpenAI的技術(shù)。

我們都知道,ChatGPT的多模態(tài)能力,是由GPT-4、DALL·E 3、Whisper多個(gè)模型組合而實(shí)現(xiàn)的。

今年5月的谷歌開發(fā)者大會(huì)I/O上,劈柴首次官宣,谷歌正在訓(xùn)練一個(gè)新的、更強(qiáng)大的PaLM繼任者,名為Gemini。

Gemini的命名也有深層的寓意,是為了紀(jì)念谷歌大腦和DeepMind兩個(gè)團(tuán)隊(duì)實(shí)驗(yàn)室的合體,并向美國宇航局Gemini致敬。

7個(gè)月的時(shí)間,關(guān)于Gemini的各種爆料也是層出不窮。

而現(xiàn)在,谷歌以驚人的速度研發(fā)出Gemini,著實(shí)在年底之前來了一次重磅反擊。

Hassabis說,新模型能夠處理不同形式的數(shù)據(jù),包括文本之外的數(shù)據(jù),這是該項(xiàng)目從一開始就愿景的關(guān)鍵部分。

許多人工智能研究人員認(rèn)為,能夠利用不同格式的數(shù)據(jù)是自然智能的一項(xiàng)關(guān)鍵能力,而這正是機(jī)器所缺乏的。

ChatGPT等AI大模型因從強(qiáng)大的互聯(lián)網(wǎng)數(shù)據(jù)中學(xué)習(xí),獲得了靈活且強(qiáng)大的泛化能力。

但是,盡管ChatGPT和類似的聊天機(jī)器人可以用同樣的技巧,來討論或回答有關(guān)物理世界的問題,但這種表面上的理解很快就會(huì)瓦解。

許多人工智能專家認(rèn)為,要使機(jī)器智能取得重大進(jìn)步,就需要AI系統(tǒng)在物理現(xiàn)實(shí)中賦予身體,即「具身」。

Hassabis表示,谷歌DeepMind已經(jīng)在研究,如何將Gemini與機(jī)器人技術(shù)相結(jié)合,與世界進(jìn)行物理互動(dòng)。

「要實(shí)現(xiàn)真正的多模態(tài),你需要包括觸覺和觸覺反饋。將這些基礎(chǔ)型模型應(yīng)用于機(jī)器人技術(shù)有很多希望,我們正在大力探索」。

目前,谷歌已經(jīng)朝著這個(gè)方向邁出了一小步。

5月,該公司宣布了一款名為Gato的AI模型,能夠?qū)W習(xí)執(zhí)行各種任務(wù),包括玩Atari游戲、為圖像添加字幕,以及使用機(jī)械臂堆疊積木。

今年7月,谷歌RT-2機(jī)器人模型,便是通過語言模型來幫助機(jī)器人理解和執(zhí)行動(dòng)作。

為了讓AI智能體更可靠,就需要為其提供動(dòng)力的算法必須更加智能。

前段時(shí)間,OpenAI曾被曝出開發(fā)一個(gè)名為「Q*」的項(xiàng)目,網(wǎng)友紛紛猜測可能用到了「強(qiáng)化學(xué)習(xí)」,這是AlphaGo的核心技術(shù)。

不過,Hassabis稱,谷歌目前正在按照類似的思路進(jìn)行研究。

AlphaGo的進(jìn)步有望幫助改善未來模型的規(guī)劃和推理,就像今天推出的模型一樣。我們正在努力進(jìn)行一些有趣的創(chuàng)新,以將其帶入Gemini的未來版本。

「明年,你將會(huì)看Gemini超強(qiáng)進(jìn)化」。

看來,正如網(wǎng)友所說,我們離GPT-5降臨的那一天也不遠(yuǎn)了。


相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章