首頁 > AI資訊 > 行業動態 > 谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

新火種    2024-05-15

OpenAI出手再次驚艷世界,谷歌果然坐不住了。

GPT-4o掀起的一片“AGI已至”的驚呼聲中,剛剛,Google DeepMind首席執行官哈薩比斯親自攜谷歌版《Her》登場:

同樣能聽會看還有嘴,不僅能幾乎沒有延遲地和人類流暢交流,通過攝像頭,這個名為Project Astra的AI助手甚至能直接幫忙讀代碼:

谷歌還祭出了自己的硬件優勢,帶來一波AR和大模型的夢幻聯動。

一邊擼狗一邊玩轉大模型已經成為現實(手動狗頭)。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

這一波操作下來,戰果如何尚未可知,網友們反正是興奮了起來:

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

而正面硬剛GPT-4o,還只是谷歌鉚足了勁,在I/O大會上釋出的冰山一角。

兩個小時的主題演講里,AI被提及了121次,CEO劈柴哥還猶嫌不足。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

于是,對標Sora能生成一分鐘長視頻的視頻生成模型Veo來了:

Gemini 1.5 Pro不僅面向所有人開放,上下文窗口還從100萬token直接一步邁向200萬,一口氣能讀1500頁PDF。

連Android,現在也緊緊跟谷歌大模型Gemini綁定,搖身一變成為以AI為內核的操作系統。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

總之,信息量多到爆炸,相比之下,OpenAI不到半個小時的發布真的很隨性了。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬谷歌版《Her》登場

第一時間引發最多討論的,當然是谷歌版《Her》——Project Astra。

Project Astra基于Gemini系列模型打造,谷歌表示,研究人員們希望這樣的智能助手,能真正在人們的日常生活中提供幫助。

有意思的是,OpenAI總裁哥Brockman昨天在場外補充了有關GPT-4o多模態能力的更詳細視頻,而谷歌這邊,哈薩比斯也是第一時間在X上更新了與這樣一個智能助手的互動。

看樣子,Ta不僅能完成幫忙找眼鏡這樣的基礎工作。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

幫忙搞點文藝創作,解答一下專業書上看不懂的內容,也都是信手拈來。

還有Google DeepMind的工作人員干脆和Project Astra一起看起了I/O大會直播:

不少網友都認為,這是谷歌對OpenAI的GPT-4o的正面回應。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

不過嘛,網友們也關注到了不少問題,比如,Project Astra的延遲似乎還是比GPT-4o長,谷歌的演示中也沒有體現是否能打斷智能助手說話。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

值得關注的是,Project Astra背后,是Gemini系列模型的進一步升級迭代。

比如,Gemini 1.5 Pro的上下文窗口來到了驚人的200萬token。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

谷歌還最新推出了Gemini 1.5 Flash這一輕量級模型,并開源了27B的Gemma 2和視覺語言模型PailGemma。

60秒長視頻生成

你可能已經默默在心里比較了一番Project Astra和GPT-4o的高下。

但橋豆麻袋,說起來,谷歌被OpenAI突然狙擊,可不止這一回。

還記得在春節期間搶盡谷歌風頭的Sora嗎?

谷歌的回應,雖遲但到——

谷歌最強視頻生成模型Veo來了。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

Veo可以生成1080p的高質量視頻,生成視頻的長度也看齊Sora:最長超過1分鐘。

谷歌還強調,Veo生成的畫面一致性出色,并且可以hold住各種風格。比如“延時拍攝”和“航拍”這種術語,直接寫在提示詞里,Veo都能get。

目前,谷歌已經和電影制作者展開了合作,在電影項目中探索Veo的應用。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

與此同時,谷歌的圖片生成模型Imagen也迎來更新,Imagen 3發布。

官方提到,與此前的模型相比,Imagen 3的視覺偽影更少,生成的圖像細節拉滿,并且在生成文字方面效果也很好。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

△提示詞:一張莊嚴的圖書館入口的照片,刻有“中央圖書館”字樣

另外,谷歌此次還推出了音樂生成模型Lyria。

Gemini進入全線產品

在這些跟OpenAI叫板的“肌肉”展示之外,谷歌對大模型應用的看重,也在此次I/O大會中盡顯。

英偉達科學家Jim Fan就他的I/O觀后感中表示:

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

還不止是搜索,這一次,谷歌可以說是把Gemini塞進了全線產品中,包括谷歌搜索、Android,以及谷歌郵箱、谷歌Photos等。下面我們劃劃重點。

1、谷歌搜索

基于Gemini,谷歌搜索推出AI概述(AI Overview)新功能,徹底化身AI搜索。

用戶在搜索框輸入問題,馬上就能得到一個AI總結的答案,包括相關鏈接。

而且是超長問題都能處理的那種,比如:

AI Overview秒秒鐘就會列出五星好評且距離燈塔山近的店,并附帶課程標價,連店在地圖上的位置都標記了出來:

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

對于這種復雜問題的搜索,谷歌表示采用了多步推理技術,可以將復雜問題拆解成一個個小問題,然后自動對問題進行排序回答。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

多步推理加持下,AI overview已經脫離了純粹的搜索——把制定計劃一并搬進了搜索引擎里。

比如直接讓它為一個團體制定一個為期三天的易于執行的餐飲計劃。

AI overview一鍵給出了方案,每個方案都可以點擊修改,下方還可以一鍵將食材加入購物車:

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

還沒完,當你沒有想法、問的問題比較籠統時,谷歌搜索還會AI自動將搜索結果整理成一個個“群組”,為你提供建議。

比如問:在達拉斯找一個餐廳慶祝周年紀念日。

搜索出的結果會按照音樂餐廳、具有歷史魅力的餐廳等一鍵分組。再往下翻,頁面會從餐飲逐漸擴展到電影、酒店、購物等。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

此外,谷歌搜索還支持視頻搜索了。

演示中,唱片機出故障,只需一邊錄制視頻一邊說出疑問,谷歌AI Overview就會立刻分析故障原因,并給出處理建議。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

谷歌搜索AI Overview功能將在本周開始在美國推出,后面將陸續推至其他國家。

2、Android 15

谷歌把Gemini也帶到了安卓系統中。

憑借直接內置的Circle to Search功能,用戶使用簡單的手勢“圈”一下手機上看到的任何內容,就能進行搜索。

比如圈出練習題,就能一鍵獲取答案。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

目前這一功能,已在Pixel和三星的部分設備上使用。

此外,還可以在一個應用之上隨時調出Gemini助手層,隨時使用。你還可以將Gemini生成的圖片直接拖到Gmail等應用中,直接詢問某個視頻中的具體信息,不用滑動翻文檔詢問某個PDF中的信息……

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

甚至連電話反詐,都用上Gemini了:聽到關鍵字“把錢轉到安全賬號”,馬上就能給出警報。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

總之,官方強調,現在,Gemini在手機上現在不止是一個App,更是安卓體驗的基礎。

3、谷歌Photos

谷歌Photos基于Gemini也推出了新功能——Ask Photos,可以一鍵從圖庫中幫你找到想要的照片和視頻。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

比如你想知道自己的baby是什么時候學會游泳的,Ask Photos會從你在谷歌Photos中存儲的成百上千張照片中查找出含游泳、游泳證書等相關圖片,最后總結給出回復:

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

Ask Photos這一功能將在今年夏天推出。

4、谷歌Workspace

Gemini也接入到了谷歌Workspace提供的一套生產力和協作工具中,包括谷歌郵箱、谷歌Docs、谷歌Calendar等。

這使得在這些工具間進行跨應用工作變得更加容易。

例如在谷歌郵箱中自動分析郵件以及附件,識別整理好收據,然后一鍵在Drive和Sheets中處理。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

5、NotebookLM

谷歌AI筆記應用NotebookLM也大升級。

如下圖所示,當你提出一個問題后,背后的Gemini模型就會結合NotebookLM中的筆記內容,進行多模態的語音對話式回答。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

也就是說,所有筆記都可以變成交互式教材。

第六代TPU

最后,在硬件部分,谷歌也帶來了新消息:

第六代TPU Trillium將在今年向云客戶提供。

與TPU v5e,Trillium的峰值計算性能提高4.7倍,HBM和帶寬增加了1倍,芯片間互聯(ICI)帶寬也增加了1倍。另外,Trillium的能效比TPU v5e高出了67%以上。

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬

那么今日份的發布會筆記,就先做到這里了。

你覺得谷歌這波表現如何?

從美股盤后的情況來看,似乎有點emmm……

谷歌硬剛GPT-4o!60秒視頻生成模型雖遲但到,還把上下文窗口卷到了200萬


相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章