国产一级特黄录像片,拍摄av现场失控高潮数次,海角国产真实交换配乱

首頁 > AI資訊 > 行業(yè)動(dòng)態(tài) > Gemini多模態(tài)時(shí)代開啟！DeepMindCEO揭秘超進(jìn)化體融進(jìn)AlphaGo，明年面世

Gemini多模態(tài)時(shí)代開啟！DeepMindCEO揭秘超進(jìn)化體融進(jìn)AlphaGo，明年面世

新火種 2023-12-17

來源：新智元

圖片來源：由無界 AI生成

谷歌帶著Gemini真的來了，多模態(tài)能力震驚全網(wǎng)。下一代模型將融合AlphaGo深度強(qiáng)化學(xué)習(xí)技術(shù)，2024年面世。

真正可以叫板GPT-4的模型，當(dāng)屬谷歌Gemini。

Gemini一經(jīng)放出，強(qiáng)大的多模態(tài)能力演示刷屏全網(wǎng)，而GPT-5的話題瞬間也被推上了熱搜。

扔掉PaLM 2，谷歌Brad、辦公全家桶等全線產(chǎn)品也將脫胎換骨，得到Gemini的加持。

谷歌官方稱，Gemini Ultra超大杯將在明年發(fā)布。

而在Gemini正式放出之前，就有接觸過內(nèi)部測試的人士評(píng)論到，「2023年如果是大模型元年的話，2024年很有可能是Gemini年」。

正如谷歌DeepMind負(fù)責(zé)人Demis Hassabis所說，Gemini的時(shí)代來臨了。

據(jù)透露，AlphaGo深度強(qiáng)化學(xué)習(xí)技術(shù)正在融入Gemini模型中，2024年的下一版本將會(huì)超級(jí)進(jìn)化。

32k上下文，三種杯型

ChatGPT誕生后風(fēng)頭無兩，讓退居幕后的聯(lián)合創(chuàng)始人Sergey Brin心急如焚。

7月，他曾被爆出重回公司參與下一代AI系統(tǒng)的研發(fā)。

Gemini論文作者列表中，他的名字赫然在列。

關(guān)于60頁Gemini技術(shù)報(bào)告，網(wǎng)友做了一個(gè)濃縮版。

1. 用Jax編寫，使用TPU進(jìn)行訓(xùn)練。雖然沒有詳細(xì)解釋，但其架構(gòu)似乎與Flamigo類似。

2. Gemini Pro的性能類似于GPT-3.5，而Gemini Ultra據(jù)說優(yōu)于GPT-4。Nano-1（1.8B 參數(shù)）和 Nano-2（3.25B 參數(shù)）設(shè)計(jì)為在終端設(shè)備上運(yùn)行。

3. 32K上下文長度。

4. 非常擅長理解視覺和語音。

5. 編碼能力：與GPT-4相比，HumanEval的大幅躍升（74.4% Vs 67%）。不過，Natural2Code基準(zhǔn)顯示的差距要小得多（74.9% Vs 73.9%）。

6. 關(guān)于MMLU：用COT@32（32個(gè)樣本）來說明Gemini優(yōu)于GPT-4似乎有些勉強(qiáng)。在5個(gè)樣本設(shè)置中，GPT-4更勝一籌（86.4% Vs 83.7%）。

7. 除了確保「所有數(shù)據(jù)濃縮工人至少獲得當(dāng)?shù)厣罟べY」之外，沒有關(guān)于訓(xùn)練數(shù)據(jù)的任何信息。

Gemini模型中杯、大杯、超大杯三種體量模型在不同能力上的語言理解和生成性能。

以下幾張圖，是關(guān)鍵對(duì)比數(shù)據(jù)。

Gemini在文本基準(zhǔn)上的性能，與外部模型和PaLM 2-L的比較。

圖像理解方面，Gemini Ultra始終優(yōu)于所有的模型。

語音基準(zhǔn)上的評(píng)估結(jié)果，Gemini Pro在語音識(shí)別，以及自動(dòng)語音翻譯都優(yōu)于其他模型。

網(wǎng)友點(diǎn)評(píng)

交錯(cuò)文本圖像生成

一位開發(fā)者Brian Roemmele發(fā)現(xiàn)Gemini Ultra確實(shí)略勝一籌。

根據(jù)技術(shù)報(bào)告，Gemini Ultra模型是在YouTube數(shù)據(jù)上進(jìn)行深度訓(xùn)練的，因此它可以從視頻（《黑客帝國》）中的一個(gè)場景推斷出一系列靜態(tài)圖像，并從中寫出文字?jǐn)⑹觥?/p>

而Roemmele在 ChatGPT-4 Turbo上進(jìn)行了測試后，發(fā)現(xiàn)它無法推理出這樣的輸出結(jié)果。

Gemini Ultra也會(huì)以圖像和文本相結(jié)合的方式做出響應(yīng)。這就是所謂的「交錯(cuò)文本和圖像生成」。

之所以能做到這一點(diǎn)，是因?yàn)樵撃Ｐ褪窃诙嗄B(tài)輸入的基礎(chǔ)上訓(xùn)練出來的。

下面這個(gè)便是Gemini Ultra，從毛線球到編織成品文本與圖像的生成。

多模態(tài)+工具

在這個(gè)樣本中，我們看到Gemini Ultra在執(zhí)行一項(xiàng)任務(wù)時(shí)，充分發(fā)揮了多模態(tài)訓(xùn)練和微調(diào)的威力。

這種協(xié)同作用的發(fā)展規(guī)模在目前的人工智能模型中尚屬首次。它將多模態(tài)與工具使用相結(jié)合：畫圖搜索音樂。

揭秘「魔術(shù)」

更厲害的是，Gemini Ultra還可以看懂魔術(shù)。

Roemmele表示，通過對(duì)經(jīng)典魔術(shù)的辨別，可以看到了Gemini統(tǒng)一多模態(tài)模型的特點(diǎn)。由于模型中的YouTube視頻訓(xùn)練，它可以理解序列并通過邏輯得出結(jié)論。

接下來，就是見證奇跡的時(shí)刻了。給到一個(gè)右手拿硬幣的圖，讓Gemini去描述。

把硬幣變沒后，Gemini Ultra能夠一步步總結(jié)剛剛所看的所有過程。

最后，根據(jù)邏輯推理出結(jié)果。

Gemini多模態(tài)做題

Reddit一位網(wǎng)友上傳了一張截圖，他自己稱這是在Gemini下實(shí)測的結(jié)果。

圖中是一名高中生解答物理題的過程，他讓Gemini對(duì)解題過程進(jìn)行批改，如果有誤就讓他做出正確答案。

Gemini讀出了圖中學(xué)生解題思路的問題，并且成功做出了答案。

而我們自己在把同一道題給到GPT-4，它第一次嘗試回答時(shí)，到一半突然「夾住了」。

當(dāng)要求它重新回答時(shí)，GPT-4才正確地判斷了學(xué)生的解題思路有問題，并給出了正確答案。

而同樣的情況在Reddit網(wǎng)友身上也發(fā)生了。

Gemini Nano將大模型戰(zhàn)火燒到了手機(jī)端

而這次谷歌發(fā)布的Gemini，不僅僅是對(duì)OpenAI用GPT-4定義的「大模型SOTA」的回應(yīng)，還直接將大模型的戰(zhàn)火燒到了移動(dòng)端，現(xiàn)在壓力來到了蘋果這邊。

Gemini的三個(gè)版本Ultra Pro Nano，針對(duì)從數(shù)據(jù)中心到手機(jī)都進(jìn)行了優(yōu)化，可以應(yīng)對(duì)不同用戶在不同使用場景下的各種需求。

Gemini Nano是谷歌為移動(dòng)設(shè)備上任務(wù)構(gòu)建的最高效模型。現(xiàn)在它已經(jīng)可以在谷歌的Pixel 8 Pro上運(yùn)行。

作為首款專為Gemini Nano設(shè)計(jì)的智能手機(jī)，Pixel 8 Pro利用谷歌的人工智能Soc Tensor G3的強(qiáng)大功能提供兩項(xiàng)擴(kuò)展功能：記錄器中的摘要和Gboard中的智能回復(fù)。

在本地運(yùn)行的Gemini Nano可以讓用戶的敏感數(shù)據(jù)不離開離開手機(jī)，在沒有網(wǎng)絡(luò)連接的情況下使用大模型能力。

除了現(xiàn)在已經(jīng)能在Pixel 8 Pro上運(yùn)行的Gemini Nano之外，未來通過Bard的智能助手功能，Pixel手機(jī)可以解鎖更強(qiáng)大的Gemini版本。

在Recorder中進(jìn)行總結(jié)

Gemini Nano現(xiàn)在可以為Pixel 8 Pro 上的錄音機(jī)中的內(nèi)容進(jìn)行AI總結(jié)。

用戶可以在不聯(lián)網(wǎng)的情況直接對(duì)自己錄制的對(duì)話、采訪、演示等內(nèi)容的生成摘要。

這個(gè)功能就可以幫助用戶將之前自己記錄下來的冗長內(nèi)容語音內(nèi)容快速清晰地梳理出來，便于進(jìn)一步的使用和整理，不得不說真的非常方便。

通過Gboard能在用戶的聊天中進(jìn)行智能回復(fù)

在Pixel 8 Pro中，Gemini Nano可以支持Gboard中的智能回復(fù)功能。

在手機(jī)上的AI模型現(xiàn)在可以在WhatsApp上試用，明年將推出更多應(yīng)用程序，可以通過對(duì)話感知能力提出高質(zhì)量的回復(fù)，節(jié)省用戶大量的時(shí)間。

Gemini時(shí)代來臨了

作為谷歌DeepMind的領(lǐng)導(dǎo)人，Demis Hassabis也是興奮不已，并表示「Gemini的時(shí)代來臨了」。

最新Wired的采訪中，Hassabis直言道，谷歌今天宣布的人工智能模型Gemini為人工智能開辟了一條未被實(shí)踐的道路，可能會(huì)帶來重大的新突破。

「作為一名神經(jīng)科學(xué)家和計(jì)算機(jī)科學(xué)家，多年來我一直想嘗試創(chuàng)造一種新一代的人工智能模型。而這些模型的靈感來自我們所有感官互動(dòng)和理解世界的方式」。

「Gemini是向這種『多模態(tài)』模型邁出的一大步」。

他繼續(xù)道，「到目前為止，大多數(shù)模型都是通過訓(xùn)練單獨(dú)的模塊，然后將其拼接在一起，來實(shí)現(xiàn)多模態(tài)能力」。

「對(duì)于某些任務(wù)來說，這是可以的，但是在多模態(tài)空間中，無法進(jìn)行深度復(fù)雜推理」。

這似乎是在暗指OpenAI的技術(shù)。

我們都知道，ChatGPT的多模態(tài)能力，是由GPT-4、DALL·E 3、Whisper多個(gè)模型組合而實(shí)現(xiàn)的。

今年5月的谷歌開發(fā)者大會(huì)I/O上，劈柴首次官宣，谷歌正在訓(xùn)練一個(gè)新的、更強(qiáng)大的PaLM繼任者，名為Gemini。

Gemini的命名也有深層的寓意，是為了紀(jì)念谷歌大腦和DeepMind兩個(gè)團(tuán)隊(duì)實(shí)驗(yàn)室的合體，并向美國宇航局Gemini致敬。

7個(gè)月的時(shí)間，關(guān)于Gemini的各種爆料也是層出不窮。

而現(xiàn)在，谷歌以驚人的速度研發(fā)出Gemini，著實(shí)在年底之前來了一次重磅反擊。

Hassabis說，新模型能夠處理不同形式的數(shù)據(jù)，包括文本之外的數(shù)據(jù)，這是該項(xiàng)目從一開始就愿景的關(guān)鍵部分。

許多人工智能研究人員認(rèn)為，能夠利用不同格式的數(shù)據(jù)是自然智能的一項(xiàng)關(guān)鍵能力，而這正是機(jī)器所缺乏的。

ChatGPT等AI大模型因從強(qiáng)大的互聯(lián)網(wǎng)數(shù)據(jù)中學(xué)習(xí)，獲得了靈活且強(qiáng)大的泛化能力。

但是，盡管ChatGPT和類似的聊天機(jī)器人可以用同樣的技巧，來討論或回答有關(guān)物理世界的問題，但這種表面上的理解很快就會(huì)瓦解。

許多人工智能專家認(rèn)為，要使機(jī)器智能取得重大進(jìn)步，就需要AI系統(tǒng)在物理現(xiàn)實(shí)中賦予身體，即「具身」。

Hassabis表示，谷歌DeepMind已經(jīng)在研究，如何將Gemini與機(jī)器人技術(shù)相結(jié)合，與世界進(jìn)行物理互動(dòng)。

「要實(shí)現(xiàn)真正的多模態(tài)，你需要包括觸覺和觸覺反饋。將這些基礎(chǔ)型模型應(yīng)用于機(jī)器人技術(shù)有很多希望，我們正在大力探索」。

目前，谷歌已經(jīng)朝著這個(gè)方向邁出了一小步。

5月，該公司宣布了一款名為Gato的AI模型，能夠?qū)W習(xí)執(zhí)行各種任務(wù)，包括玩Atari游戲、為圖像添加字幕，以及使用機(jī)械臂堆疊積木。

今年7月，谷歌RT-2機(jī)器人模型，便是通過語言模型來幫助機(jī)器人理解和執(zhí)行動(dòng)作。

為了讓AI智能體更可靠，就需要為其提供動(dòng)力的算法必須更加智能。

前段時(shí)間，OpenAI曾被曝出開發(fā)一個(gè)名為「Q*」的項(xiàng)目，網(wǎng)友紛紛猜測可能用到了「強(qiáng)化學(xué)習(xí)」，這是AlphaGo的核心技術(shù)。

不過，Hassabis稱，谷歌目前正在按照類似的思路進(jìn)行研究。

AlphaGo的進(jìn)步有望幫助改善未來模型的規(guī)劃和推理，就像今天推出的模型一樣。我們正在努力進(jìn)行一些有趣的創(chuàng)新，以將其帶入Gemini的未來版本。

「明年，你將會(huì)看Gemini超強(qiáng)進(jìn)化」。

看來，正如網(wǎng)友所說，我們離GPT-5降臨的那一天也不遠(yuǎn)了。

Tags:

大模型谷歌 Gemini

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法，不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。交易和投資涉及高風(fēng)險(xiǎn)，讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前，請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

Gemini多模態(tài)時(shí)代開啟！DeepMindCEO揭秘超進(jìn)化體融進(jìn)AlphaGo，明年面世

32k上下文，三種杯型

網(wǎng)友點(diǎn)評(píng)

交錯(cuò)文本圖像生成

多模態(tài)+工具

揭秘「魔術(shù)」

Gemini多模態(tài)做題

Gemini Nano將大模型戰(zhàn)火燒到了手機(jī)端

在Recorder中進(jìn)行總結(jié)

通過Gboard能在用戶的聊天中進(jìn)行智能回復(fù)

Gemini時(shí)代來臨了

大模型公司紛紛被收編！創(chuàng)始人們逐漸變成了“最討厭的自己”？

大模型廠商“輸血”不斷，百川智能完成50億元A輪融資！

算力不足，小模型成AI模型發(fā)展下個(gè)方向？

字節(jié)“扣子”正式加AI戰(zhàn)場！2024年的大模型能否實(shí)現(xiàn)彎道超車？

給你的員工一個(gè)智能伙伴飛書AIready了嗎？

熱門文章