谷歌最強大模型Gemini2.0被抬上來了,網友:好科幻
機器之心報道
作者:Sia、楊文
能搜網頁、寫代碼,還能教你打游戲。
OpenAI 接連幾天的「轟炸」,已經讓人審美疲勞。
作為應對,周三,谷歌推出新一代至強 AI 大模型 Gemini 2.0 Flash 。
網友體驗先走一波。
就模型所看到的內容實時對話, 感覺就像科幻小說一樣。
通過共享屏幕,實時討論論文,這個研究助理很強啊。

讓AI在對話過程中自然地生成圖像。

現在,一個提示詞就能生成包含步驟說明和配圖,食譜blog,一步到位。
據谷歌介紹,除了能生成文字外,還能直接生成圖片和語音。
不僅如此,2.0 Flash 還能調用第三方應用和服務,比如可以使用谷歌搜索、運行代碼等功能。
從今天開始,開發者可以通過以下幾種方式嘗試使用 2.0 Flash 的測試版:
Gemini 的 API 接口
谷歌的 AI 開發平臺:AI Studio 和 Vertex AI
不過,生成圖片和語音的功能暫時只對「早期合作伙伴」開放,要等到明年 1 月才會向所有人開放。谷歌表示,在接下來幾個月里,會把 2.0 Flash 的各種版本整合到多個產品中,包括:
Android Studio(安卓開發工具)
Chrome 開發工具
Firebase(應用開發平臺)
Gemini 代碼助手
主力模型 Gemini 2.0
今天發布的 Gemini 2.0 Flash 的實驗版本,是 Gemini 2.0 系列的第一個模型,也是當前主力模型。
它反應速度快(低延遲),性能強大,代表了谷歌 Gemini 最頂尖的技術水平。
除了速度是「前任」的 2 倍, 支持圖像、視頻和音頻等多模態輸入外,2.0 Flash 現在還支持多模態輸出,比如原生生成的圖像與文本混合,以及可控制的多語言文本轉語音( TTS )音頻。
它還能夠原生調用工具,如谷歌搜索、代碼執行以及第三方用戶自定義函數。

下面這張圖展示了 Gemini 不同版本在各項測試中的表現對比。
總體來看,新模型在編程、數學和多模態處理方面都有明顯提升,特別是在代碼生成方面的進步最為顯著。
有趣的是,在長文本理解( MRCR )這一項上,2.0 Flash ( 69.2% )反而比 1.5 Pro ( 82.6% )表現差一些,這是少數幾個沒有進步的指標之一。

圖表展示了Gemini不同版本在各項測試中的表現對比。
Gemini 2.0 Flash 的正式版本將于 1 月份推出。但在此期間,谷歌正在發布一個 API —— Multimodal Live API(多模態實時 API ),幫助開發者構建具有實時音頻和視頻流功能的應用程序。
網友們已經快樂地玩耍起來。

能幫你畫好下一步棋子的位置。來自X網友@robertriachi
使用 Multimodal Live API,開發者可以創建實時的多模態應用,這些應用能夠接收來自攝像頭或屏幕的音頻和視頻輸入。該 API 支持集成各種工具來完成任務,并且能夠處理自然對話模式。
比如,對話中的打斷。這和 OpenAI 的 Realtime API 很像。
在對話中自然地生成圖像,就像人類聊天時隨手畫個示意圖一樣自然

對圖像的后續編輯

一邊處理實時音頻輸入,一邊執行數據可視化等復雜任務

Project Astra:通用助手的曙光
今年 5 月份,谷歌發布了通用 AI 助手研究原型 Project Astra ,這是一個多模態 AI 智能體項目,旨在為用戶提供一個能夠理解和響應復雜、動態真實世界「 AI 助手」。
這次,谷歌對搭載了 Gemini 2.0 的最新版本 Project Astra 進行了一系列改進:
更流暢的對話:Project Astra 現在能夠用多種語言和混合語言進行交流,對各種口音和生僻詞匯的理解也更加精準。
新工具的運用:借助Gemini 2.0,Project Astra 能夠使用谷歌搜索、谷歌鏡頭和谷歌地圖,使其成為你日常生活中更加得力的助手。
更強大的記憶功能:增強了 Project Astra 的記憶能力,并確保你可以控制其記憶。它現在能夠保持長達 10 分鐘的會話記憶,并能記住你過去與它進行的更多對話,從而為你提供更加個性化的服務。
更低的延遲:通過新的流媒體功能和原生音頻理解技術,智能體能夠以接近人類對話的延遲速度理解語言。
他們正致力于將這些功能引入谷歌產品,如 Gemini app 以及眼鏡等其他形態的產品。同時,他們也開始在原型眼鏡上測試 Project Astra。
在官方演示視頻中,外國小哥用一部安裝了最新測試版 Project Astra 的 Pixel 手機進行測試。
收到一封包含公寓信息的電子郵件后,它可以告訴你公寓大門的密碼,并記住它。

只需要使用攝像頭拍攝衣服上的標簽和洗衣機上復雜的按鈕,它就能告訴你這件衣服是否能機洗、漂白、烘干,以及洗衣機該如何使用。

還可以把朋友讀過的書發給它,讓它以此分析出朋友的讀書品味并推薦相關書籍。

偶遇一輛巴士,問它是否可以去唐人街附近。Project Astra不僅可以搜索出該巴士的行駛路線,還能回答出沿線著名地標。

此外,小哥還戴上原型眼鏡來測試Project Astra,效果相當酷炫。
只需一個問題指令,它就能進行天氣預報、告訴你是否可以騎自行車進公園,搜索沿途是否有超市等。

Project Mariner:瀏覽器版「賈維斯」
Project Mariner 是一個基于 Gemini 2.0 構建的早期研究原型。它通過 Chrome 瀏覽器插件,能理解你屏幕上的所有內容 —— 不管是文字、代碼、圖片還是表單。
它的厲害之處在于,在 WebVoyager 基準測試中,Project Mariner 作為一個獨立智能體設置,完成網頁任務的準確率達到了 83.5% ,這在目前來說是相當不錯的成績。
雖然現在可能還有點慢,準確度也不是百分之百,但這項技術正在快速進步。
為了確保安全,谷歌做了很多防護措施。
比如,它只能在你當前打開的網頁標簽里操作,要做一些重要的事情(比如網購)時,還得先問問你同意不同意。這就像有個助手幫你辦事,但重要決定還是由你來做。
Jules:有經驗的編程助手
Jules 是一個懂編程的智能助理,直接集成在 GitHub 工作流程中。假設你有一個程序問題需要解決,它能理解問題,制定解決方案,然后在你的指導和監督下把代碼寫出來。
就像是你多了一個有經驗的編程搭檔,能幫你分析問題、規劃方案、寫代碼,但最終的決定權還是在你手中。你可以隨時檢查它的工作,確保一切都符合你的要求。
游戲及其他領域的智能體
谷歌 DeepMind 一直喜歡用游戲來鍛煉 AI 的能力,就像前幾天推出的 Genie 2 ,只要給它一張圖片,它就能創造出可以玩的 3D 世界。
現在,他們又在 Gemini 2.0 的基礎上開發了游戲智能體。
它特別有意思,能看懂你在玩什么游戲,理解游戲畫面里發生的事情,然后實時跟你聊天,給你建議該怎么玩。就像有個資深玩家朋友在旁邊指點你。

他們還和 Supercell 這樣的大游戲公司合作,在《部落沖突》這樣的策略游戲和《卡通農場》這樣的模擬經營游戲中測試 AI 。AI 需要理解不同類型游戲的規則和挑戰,這可不是件容易的事。
更厲害的是,這個智能體還能用谷歌搜索,幫你找到網上的游戲攻略和技巧。就像是一個既懂游戲、又知道去哪找答案的玩伴。
除了在虛擬世界中探索智能體能力,谷歌還在嘗試將 Gemini 2.0 的空間推理能力應用于機器人技術,幫助智能體在現實世界中提供幫助,不過目前仍處于早期階段。
參考鏈接:
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_content=
https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
https://x.com/simonw/status/1866942603020910866
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。