首頁 > AI資訊 > 行業動態 > 太狠了,Anthropic剛拿到天價融資,OpenAI就打了一巴掌回去

太狠了,Anthropic剛拿到天價融資,OpenAI就打了一巴掌回去

新火種    2023-09-28

圖片來源:由無界 AI 生成

一直處在熱度頂端,從來不缺新話題的AI圈,今天又出大事了。

美西凌晨12點,人工智能初創公司Anthropic在官推透露亞馬遜將對其進行最多40億美元戰略投資。根據雙方達成的合作協議,AWS將成為Anthropic技術研究、模型開發等關鍵任務的主要云服務提供商,為Anthropic團隊提供AWS Trainium和Inferentia芯片來構建、訓練和部署其未來基礎模型。作為相應的回報,Anthropic承諾,將為亞馬遜托管服務Bedrock提供 "增強型支持",為全球各地的AWS客戶和亞馬遜開發人員開放其基礎模型使用權和搶先訪問模型定制及微調的獨特功能。

本以為這筆亞馬遜迄今為止在生成式人工智能領域的最大投資已經足夠吸睛,誰料4小時后,OpenAI就緊跟著穩準狠地丟出一枚更加勁爆的重磅炸彈:發文宣布正逐步為 ChatGPT 推出新的語音和圖像功能,允許用戶與 ChatGPT 進行語音直接對話或展示正在討論的內容。簡言之,就是ChatGPT會看、聽、說了。

消息一出,評論區徹底沸騰了。網友激動表示,想到你快,沒想到你這么快!被“Open AI正在徹底革新世界”征服的同時,也感慨“又有多少創業公司的飯碗要被搶了”。

兩者相比之下,Anthropic的重磅融資新聞,妥妥被OpenAI蓋過了風頭。在人工智能多模態交互賽道上,OpenAI再一次跑在了前頭。

|拍張冰箱照片,告訴你今晚吃啥

根據OpenAI官方博文,這次更新的主要內容有兩點:基于圖片的對話和實時語音對話。

先說說最讓人驚嘆的圖片聊天功能:當你下班回到家,又一次為晚餐吃什么而發愁時,只需要拍下冰箱和食品儲藏室的照片給ChatGPT,它就能為你推薦食譜,并在一步一步問答中講解做法;晚餐后,可以通過拍照和圈出問題集,讓ChatGPT幫孩子輔導數學難題;在旅行中更是相當于帶了一位專屬導游,隨手拍下一個地標照片發給ChatGPT,它就能講解景點的有趣之處。

ChatGPT回答調低座位攏共分五步,接著給出詳細解答,并表示如果手邊有工具可以發給它看,以便提供進一步的指導。

用戶接著拍下一張自行車零部件的局部照片,用官方繪圖工具圈出示意問這是不是快拆桿?ChatGPT說你這是螺栓,需要找一個六角形扳手。

于是用戶上傳了工具箱和說明書照片問道:“我有你說的這個工具嗎?”ChatGPT迅速識別出來,并準確提示用戶工具位置,需要選擇的尺寸和使用方法。——實在是太強了!

除此之外,OpenAI還推出了語音聊天功能。用戶可以與ChatGPT實時語音對話,比如隨便想一個角色,讓它用這個當主角給家里的小孩講睡前故事(點開下面視頻聽故事);或者吃著飯忽然吵得急赤白臉時,把ChatGPT叫出來參與評判,解決爭論。

這項語音功能由一款新的文本轉語音模型提供支持,能夠僅僅通過文本和幾秒鐘的樣本語音生成類似人類的音頻。OpenAI與專業的聲音演員合作,為每個聲音創建了模型,用戶可以從5種不同的聲音中挑選自己喜歡的。內置的開源語音識別系統還可以將用戶的口語轉錄成文本。

OpenAI表示,這兩項功能將在接下來的兩周內向ChatGPT Plus和企業用戶開放。其中語音功能將在iOS和Android上推出(在設置中選擇加入),圖像功能將在所有平臺上提供。

|多模態新模型始于2022,OpenAI早就“遙遙領先”

今天放出的ChatGPT-4語音和圖像更新的模型,官方版本叫GPT-4V(ision)。根據OpenAI釋出的報告顯示,多模態新模型GPT-4V其實早在去年就已經訓練好了,只是出于人工智能安全和合規考量才等到現在放出來。

在報告中,OpenAI解釋道:其最新開發的GPT-4V是一款具有視覺能力的語言模型,具備分析用戶提供的圖像輸入并指示GPT-4進行分析的功能。這個模型融合了文本和視覺兩種模式,拓展了過去僅限于文本的系統的影響范圍和潛在風險。

為確保安全性和效用,它采用逐步部署策略,首先提供給一小部分用戶試用,以便收集反饋和識別潛在風險,如系統誤報或人臉識別的隱私問題等。

OpenAI進行了全面的綜合評估,包括聘請外部專家進行倫理測試和建立性能度量標準。評估確實發現了一些局限性,涉及到科學、醫學建議的準確性、刻板印象、無根據的推斷等。但為緩解這些問題,OpenAI已經采取了一系列措施,例如增加安全訓練數據以拒絕不當請求,并改進系統以應對文字和圖像的挑戰。

OpenAI下一步將繼續關注是否允許模型執行某些行為,提高全球用戶的語言和圖像識別能力,以及提高人像處理的精確度。

回想去年11月,就是OpenAI發布ChatGPT帶來無與倫比的想象力,開啟了人工智能新時代,人類社會從此與過去不同。可也就是在絕大多數人還不知道大模型為何物的那時,OpenAI已經開始訓練融合視覺與語言的多模態AI系統,并負責任地進行安全評估和風險控制。不得不說在生成式人工智能的疆土上,OpenAI絕對是一騎絕塵,“遙遙領先”了。

|百模大戰背后的AI生態之爭 ,奧特曼永遠“雖遲但到”

實際上,回看今天AI領域的兩個重磅消息,無論是亞馬遜闊綽出手40億美元與開發“ChatGPT最強競品”Claude2 的Anthropic組建聯盟,還是背靠微軟支持的OpenAI高調官宣具備視覺和語音功能的多模態新模型GPT-4V,又或是谷歌舉全軍之力押注、誓要成為全球最強人工智能模型的Gemini——這場科技巨頭軍備競賽與AI公司百模大戰的背后,其實是奮不顧身的AI生態之爭。

而正處于AI生態浪潮之巔的多模態領域,可以跨越多種感官和數據源。通過聲音、肢體語言、信息載體和環境等各種通道,充分模擬人與人之間的交互方式,為計算機提供無限接近于人類感知的場景,堪稱計算機視覺和交互式人工智能的終極融合。

可以說,誰最先在多模態大模型上完成布局,誰就搶占了當前AI生態的最有利先機。不僅可以依托強大的技術平臺吸引龐大的用戶群體、形成積極的開發者社區,從而實現更多應用程序的落地轉化,還能聯動廣大的云計算、數據管理等基礎設施提供商,獲得更樂觀的資本注入,在市場中扮演不可或缺的關鍵角色,進而推動整個AI生態系統的創新。

作為OpenAI一號領導者,Sam Altman本人商業嗅覺的超高靈敏度,也成為使OpenAI始終保持生成式人工智能領先玩家的因素之一。

今年5月,他在美國國會有史以來最引人注目的 AI 主題的聽證會上,不僅沒有被刁難,反而備受禮遇,成為全場的核心話事人,呼吁對 AI 進行監管,兩天后旋即發布ChatGPT手機端APP;8月在微軟發布必應聊天企業版后,推出ChatGPT企業版與其最大的投資者兼合作伙伴展開直接競爭;又在谷歌宣布自己的AI“大殺器”Gemini后,用DALL·E 3碾壓級的圖像處理能力把業界驚艷了一把。可以說在每個GenAI圈熱點事件之后,都有Sam Altman帶著OpenAI緊追不舍的“雖遲但到”,帶來一波更大的高潮。

如今,在多模態模型應用普及市場上,ChatGPT又不負眾望,打贏了一次小戰斗。

有網友已經在期待更多的天馬行空變成現實。比如,拍下每頓飯的照片讓ChatGPT計算熱量攝取,直接把調自行車座位的說明生成教學視頻,接入DALL·E 3等等。還有網友調侃道:“離我的AI女友又近了一步”。當然如果ChatGPT能看著照片回答出“Sam Altman藍色背包里都裝了什么”就更好了。畢竟在OpenAI的想象國度里,永遠都蘊藏著讓你意想不到的更大驚喜。

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章