Meta首發變色龍挑戰GPT-4o!AI股盤中上漲展現利好態勢。
作者:小巖
編輯:彩云
前幾天,OpenAI率先推出了GPT-4o,在業內引起了不小的反響。究其原因,是因為GPT-4o的橫空出世再次創立了一個多模態模型發展的新范式。
為什么這么說呢?通常情況下,傳統的多模態基礎模型會為每種模態采用特定的“編碼器”或“解碼器”,以便將不同的模態分離開。然而,這種方法大大限制了模型的發揮,使其有效融合跨模態信息的能力變差。
而OpenAI所推出的GPT-4o就能有效解決這個問題,因為它是首個端到端訓練的,跨越文本,視覺和音頻的模型,所有的輸入和輸出,都由單個神經網絡處理。GPT-4o與以往的所有模型都不盡相同,也正因此,OpenAI將其稱為“首個原生多模型”。
不過,“首個”的頭把交椅還沒有坐熱乎,OpenAI就遭遇到了Meta的挑戰。就在最近,Meta團隊發布了混合模態Chameleon(變色龍) 。它可以在單一神經網絡無縫處理文本和圖像,10萬億token訓練的34B參數模型性能接近GPT-4V,刷新SOTA。
如此看來,OpenAI的新產品剛推出不久,便遇到了足以與之相抗衡的對手。
Chameleon:多模態文生圖大模型,Meta在生成式AI方向上的新王牌。
作為Meta獨家推出的王牌產品,Chameleon有什么獨特之處呢?
與GPT-4o一樣,Chameleon采用了統一的Transformer架構,使用文本,圖像和代碼混合模態完成訓練。以類似文本生成的方式,對圖像進行離散“分詞化”,最終生成和推理交錯的文本和圖像序列。
因為使用了這種“早期融合”的方法,所有的pipeline從一開始就被映射到一個共同的表示空間,因此模型可以無縫處理文本和圖像。不過,任何事情都有正反兩面。早期融合的設計雖然可以使模型做到“無縫銜接”,但與此同時,也給模型訓練帶來了重大的技術挑戰。對此,Meta研究團隊引入了一系列架構創新和訓練技術。
數據結果表明,在純文本任務中,340億參數Chameleon的性能和Gemini-Pro相當;在視覺問答和圖像標注基準上,刷新SOTA,性能接近GPT-4V。
性能卓越,架構獨特,Chameleon的未來將呈現怎樣的發展前景?
正如我們前面所提到的那樣,傳統上的文本生成模型會通過多任務指令調整以提高對各種任務指令的理解能力,而圖像生成模型則專門針對特定任務進行優化。但是,Chameleon在圖像和文本生成任務上都采用了大規模多任務指令微調,使其性能得到顯著提升。這表明了縮放策略在tokenizer-based圖像生成模型上的通用性。
譬如,以下4張圖像是按照下面的文字說明依次創建的:
(1)撒哈拉沙漠中戴著草帽和霓虹太陽鏡的小仙人掌。
(2)一只人手的特寫照,手模特。高質量。
(3)一只主角是浣熊的動漫人物,準備用武士刀進行史詩級戰斗。戰斗姿勢?;孟搿⒉鍒D
(4)一塊寫著“1991年”的幻想風格停車標志。
此外,Chameleon在架構上也具有自己的獨特之處。它使用了解碼器transformer,類似于常見的文本模型,這也是它與GPT-4o的相同之處。但是,Chameleon也具有與眾不同之處。它能夠輸入和生成文本和圖像,這使得其能夠處理多種任務,包括文本引導的圖像生成和編輯,文本到圖像生成,文本任務等,這無疑展現出了Chameleon的出色的性能。
它可以根據不同的提示生成簡短或長篇的字幕,并回答有關圖像的問題。
舉例來說,想象一只狗拿著一根棍子。
提示問題:狗拿著什么?
模型生成:棍子
提示:非常詳細地描述給定的圖像
模型生成:在這張圖片中,有一只狗用嘴叼著一根棍子。在畫面的背景中,還有草地和樹。
如今,各式各樣的AI模型如雨后春筍般不斷冒頭,想要在一眾競爭對手中站穩腳跟,就必須擁有核心競爭力。目前來看,Meta的Chameleon是很有競爭力的,它的的強大性能為更圖像生成工具帶來了更加連貫,更符合輸入提示的圖像生成能力。它不僅能夠處理復雜對象,還能夠在處理時涵蓋到多個約束條件的提示,展現出卓越的表現。這對于提高圖像生成的創造力和應用于元宇宙等領域有著積極意義。
AI能力進步速度快不快,與其訓練數據是否全面,是否具有偏見密切相關。所以,對于AI技術的應用,透明度將是加速進步的關鍵。如今,Chameleon的開源工作為多模態語言模型鋪平了道路,為更高質量的圖像生成和理解邁出了堅實的一步,讓我們看到了更多的希望。
科技巨頭接連出新品帶來強勢利好,人工智能AIETF盤中漲超1.8%。
最近一段時間,AI賽道是相當熱鬧的,一眾科技巨頭爭相推出自己最新的AI大模型。
上周開始,OpenAI和谷歌分別推出了GPT-4o和升級版Gemini 1.5 Pro。在此之后,Meta也不落人后,于近日發布了“混合模態”基座模型Chameleon??萍季揞^接連推出新產品無疑形成了強勢利好,使得市場上出現了積極的反饋。
根據5月20日數據反饋,早盤人工智能AIETF(515070)小幅低開后走高,截止北京時間中午12:00,最高漲幅超過1.81%。而持倉股中中國軟件領漲超5%,太極股份,光迅科技,新易盛以及寒武紀等個股跟漲。
2024年的AI行業處于群雄逐鹿的狀態,無論是海外的科技巨頭,還是國內一線的互聯網公司,都在積極訓練和迭代自身的模型能力,堪稱神仙打架。它們所推出的模型產品,無論從進階維度,還是從模型能力而言,都已經上升到了極高的水準之上。大模型由最初的大語言模型向多模態不斷進階;從最基本的文本到文生圖,文生視頻的維度不斷擴充。
AI巨頭們連續發布的新品勢必會在全世界范圍內掀起一波新的AI浪潮,在這波浪潮的帶動下,諸如人工智能AIETF,機器人ETF等AI產業鏈也會受到催化,從而刺激相關市場的上漲。
圖片來源于網絡
文字資料參考:
https://baijiahao.baidu.com/s?id=1771929098337506888
https://baijiahao.baidu.com/s?id=1799539959494108784
公眾號“新智元”文章《Meta首發「變色龍」挑戰GPT-4o,34B參數引領多模態革命!10萬億token訓練刷新SOTA》
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。