首頁 > AI資訊 > 行業(yè)動態(tài) > 谷歌Gemini:挑戰(zhàn)GPT只是序幕,顛覆英偉達(dá)才是最終目標(biāo)

谷歌Gemini:挑戰(zhàn)GPT只是序幕,顛覆英偉達(dá)才是最終目標(biāo)

新火種    2023-12-17
在2023年的最后一個月,谷歌在社交平臺上“低調(diào)”的官宣了新一代大模型Gemini。不過Gemini一經(jīng)上線便吸引下了行業(yè)內(nèi)外人士的廣泛關(guān)注,很多觀點(diǎn)都表達(dá)出Gemini將成為GPT-4最強(qiáng)勁的對手,甚至碾壓GPT-4的存在……

原文來源:大模型之家

作者:王昊達(dá)

圖片來源:由無界 AI生成

根據(jù)官方介紹Gemini已經(jīng)實(shí)現(xiàn)各項(xiàng)參數(shù)超越GPT-4,特別是多模態(tài)領(lǐng)域包括圖像、視頻音頻等領(lǐng)域都有著突出的領(lǐng)先優(yōu)勢。并且Gemini是第一個在MMLU(大規(guī)模多任務(wù)語言理解)方面優(yōu)于人類專家的模型,而MMLU也是測試AI模型知識和解決問題能力的最流行方法之一。

從數(shù)據(jù)上來看,Gemini在自然語言處理、智能對話系統(tǒng)、信息檢索等領(lǐng)域,可以使其更好地適應(yīng)和解決復(fù)雜的語境和任務(wù)。強(qiáng)大語言處理能力還可以為人們提供更高效、精準(zhǔn)的信息和服務(wù)。

今天,谷歌官方表示Google AI Studio和Google Cloud Vertex AI將把Gemini模型集成到應(yīng)用程序中。同時,用戶可以在Bard中體驗(yàn)集成了Gemini Pro的測試版本大模型。值得一提的是,在Gemini AI官方介紹Gemini是Google即將推出的AI模型,由DeepMind和Google Brain聯(lián)合AI團(tuán)隊(duì)的專家創(chuàng)建。同時Gemini AI也鄭重聲明“Gemini AI”的名稱是 Google 的財(cái)產(chǎn),且不隸屬于 Google AI。

視覺新體驗(yàn),多模態(tài)功能成新發(fā)力點(diǎn)

在眾多功能展示中,Gemini最受業(yè)內(nèi)外人士以及媒體關(guān)注的便是其多模態(tài)能力帶來的體驗(yàn),在官方介紹視頻中,Gemini可以對正在變化的視頻進(jìn)行分析和理解,并且形成相應(yīng)的描述。同時,在給出相應(yīng)文字介紹時,Gemini還通過音頻的形似對文字內(nèi)容進(jìn)行復(fù)述,在復(fù)述的過程中還包含了一些擬人形態(tài)的氣口、停頓以及趣味性的對話,使得模型與使用者的交流更加順暢自然。

在大模型之家的體驗(yàn)中,大模型之家使用對集成了Gemini Pro的大模型Bard給出了部分《清明上河圖》的圖片作為指令,讓Bard進(jìn)行識別。Bard也清晰的給出了對于圖片的識別和描述。

除了介紹了《清明上河圖》的內(nèi)容,集成了Gemini Pro的大模型Bard還總結(jié)了《清明上河圖》的主題。它表示:畫中描繪了北宋汴京城的繁華景象,展現(xiàn)了北宋時期的經(jīng)濟(jì)繁榮和社會穩(wěn)定。

Gemini能夠同時處理多種類型的數(shù)據(jù),包括文本、圖像和視頻,從而實(shí)現(xiàn)更豐富和全面的信息理解和表達(dá)。這種能力的實(shí)現(xiàn),依賴于Gemini的底層架構(gòu)可以將不同的數(shù)據(jù)源轉(zhuǎn)換為相同的向量表示,然后再根據(jù)不同的任務(wù)生成相應(yīng)的輸出。這種架構(gòu)的優(yōu)勢在于,它可以利用不同數(shù)據(jù)源之間的關(guān)聯(lián)性和互補(bǔ)性,提高模型的泛化能力和創(chuàng)造力。

在圖像識別和描述能力上,Gemini通過多模態(tài)架構(gòu)與應(yīng)用相結(jié)合,使用了一些先進(jìn)的計(jì)算機(jī)視覺和自然語言處理的技術(shù),如目標(biāo)檢測、場景分割、圖像字幕、文本摘要等,來實(shí)現(xiàn)圖像到文本的轉(zhuǎn)換,并且在文本中包含一些圖像的重要信息和細(xì)節(jié)。這種結(jié)合的優(yōu)勢在于,它可以提高模型的準(zhǔn)確性和完整性,展示模型的分析和理解能力。

多尺寸部署,為商業(yè)化打好前站

在首批公開的信息中,Gemini同時提出了三種不同尺寸的大模型,由大到小分別為Gemini Ultra、Gemini Pro以及Gemini Nano。

其中,Gemini Ultra是Gemini系列中最大、最強(qiáng)的模型,擁有超過1000億的參數(shù),可以處理高度復(fù)雜的任務(wù),例如高級推理、規(guī)劃、理解等。而通過MMLU的測試的也正是Gemini的Ultra版本。

據(jù)大模型之家了解,谷歌采用了自研TPU為Gemini的提供模型訓(xùn)練,根據(jù)Gemini模型的大小和配置,谷歌為其配置了大型的TPUv4加速器群,用于進(jìn)行機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)。TPU的設(shè)計(jì)旨在提供高效的張量計(jì)算,使其在訓(xùn)練和推理深度學(xué)習(xí)模型方面能夠取得卓越的性能。

TPUv4加速器的部署方式,即以4096芯片為單位的"SuperPods"。每個SuperPod都與專用光纖交換機(jī)連接,能夠在短時間內(nèi)動態(tài)重新配置芯片,形成3D環(huán)形拓?fù)浣Y(jié)構(gòu)。而Gemini Ultra,在每個SuperPod中保留一小部分芯片,以支持熱備份和滾動維護(hù)。谷歌通過采用自主研發(fā)的硬件加速器成功擺脫對英偉達(dá)等企業(yè)的算力依賴,從而在算力方面取得了更好的成本效益。這不僅實(shí)現(xiàn)了降低成本,還提高了效率。

而作為現(xiàn)在就可以體驗(yàn)到的Gemini Pro也是Gemini系列中最平衡的模型,它擁有約100億的參數(shù),可以擴(kuò)展到多種任務(wù),例如文本生成、圖像描述、代碼編寫等。在集成到Bard后,大模型之家明顯的感覺到Gemini Pro任務(wù)處理速度以及多模態(tài)能力的提升。

除此之外,Gemini 還推出了可以運(yùn)行在設(shè)備端,例如移動手機(jī)、平板電腦等場景的小尺寸模型Gemini Nano,擁有約10億的參數(shù),可以為用戶提供一些便捷的AI功能,例如摘要、翻譯、智能回復(fù)等。

目前,Gemini Nano已經(jīng)接入谷歌旗下手機(jī)產(chǎn)品Pixel 8 Pro,用戶可以通過Recorder和Gboard等應(yīng)用來體驗(yàn)Gemini Nano。Gemini AI設(shè)計(jì)了專為設(shè)備端部署而設(shè)計(jì)的Gemini Nano 1和Nano 2兩個模型。Nano-1和Nano-2模型的參數(shù)規(guī)模分別僅為1.8B和3.25B。盡管規(guī)模相對較小,但在檢索相關(guān)任務(wù)上表現(xiàn)出色,并在推理、STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))、編碼、多模態(tài)和多語言任務(wù)中顯示出顯著的性能。這些模型在摘要生成和閱讀理解任務(wù)中表現(xiàn)優(yōu)秀,并通過每個任務(wù)的微調(diào)來進(jìn)一步優(yōu)化性能。

在商業(yè)化道路上,Gemini系列的多尺寸模型允許谷歌為不同行業(yè)和用戶需求提供定制化的解決方案。Gemini Ultra的大規(guī)模模型適用于處理復(fù)雜的高級任務(wù),可以提供個性化的服務(wù),而Gemini Pro和Nano則更靈活,適用于廣泛的應(yīng)用場景,包括移動設(shè)備、智能家居等,為用戶提供更加個性化、綜合性的體驗(yàn)。

通過多重部署方式,Gemini模型擴(kuò)大了對所有人的可訪問性。大模型之家認(rèn)為Gemini模型的多尺寸設(shè)計(jì)有助于構(gòu)建更為強(qiáng)大和多樣化的AI生態(tài)系統(tǒng)。將不同尺寸的Gemini模型引入到開發(fā)者和合作伙伴生態(tài)系統(tǒng)中,可以為谷歌激發(fā)更多創(chuàng)新,鼓勵開發(fā)者在各個領(lǐng)域中應(yīng)用Gemini模型,從而進(jìn)一步擴(kuò)大其在人工智能領(lǐng)域的影響力。

隨著Gemini的落地,谷歌想要在大模型領(lǐng)域,鞏固大廠“強(qiáng)者恒強(qiáng)”的優(yōu)勢。對于OpenAI的GPT與Meta的LLama而言,谷歌Gemini在模型規(guī)模、訓(xùn)練數(shù)據(jù)、優(yōu)化策略等方面,Gemini都表現(xiàn)出了領(lǐng)先的優(yōu)勢,這無疑帶來了壓力和挑戰(zhàn)。與此同時,國內(nèi)的百度、騰訊、阿里等大廠也在積極投入大模型的研究和開發(fā),并持續(xù)在底層技術(shù)上進(jìn)行創(chuàng)新。

然而,在大模型的角力中,單純的技術(shù)優(yōu)勢并不足以保證在大模型領(lǐng)域的長期領(lǐng)先,大模型的產(chǎn)業(yè)實(shí)踐,也決定了大模型所能影響的廣度。例如OpenAI即將在明年年初上線的GPT商店,便是擴(kuò)展生態(tài),探索多領(lǐng)域?qū)I(yè)大模型落地的重要一步。與此同時,國內(nèi)的百度、騰訊、阿里等大廠也在積極投入大模型的研究和開發(fā),推出了各自的大模型產(chǎn)品,并持續(xù)在底層技術(shù)上進(jìn)行創(chuàng)新。

而縱觀整個大模型格局,國內(nèi)大模型的研發(fā)和應(yīng)用仍然需要長期且持續(xù)的中文語料數(shù)據(jù)和行業(yè)數(shù)據(jù)的澆灌,同時在基礎(chǔ)設(shè)施層面增強(qiáng)先進(jìn)、有效的算力的開發(fā)。大模型之家堅(jiān)信,隨著未來越來越多優(yōu)質(zhì)大模型走進(jìn)生成式AI的“深水區(qū)”,將推動各大廠商在技術(shù)研發(fā)和創(chuàng)新上的投入,技術(shù)上的角力,引領(lǐng)產(chǎn)業(yè)迎來良性發(fā)展的循環(huán)。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章