首頁 > AI資訊 > 最新資訊 > 智象未來多模態大模型3.0全球首發,創始人兼CEO梅濤演講實錄來了

智象未來多模態大模型3.0全球首發,創始人兼CEO梅濤演講實錄來了

新火種    2025-01-03

2024年12月28日,智象未來科技有限公司在安徽省人工智能產業先導區啟動儀式中,宣布智象多模態生成大模型3.0與智象多模態理解大模型1.0同時發布。上海電影集團、中國移動咪咕音樂、科大訊飛等企業參加。加拿大工程院外籍院士、智象未來創始人兼CEO梅濤進行現場演講。

圖片

梅濤指出2024年是人工智能技術持續發展的一年,在這一年中有多個人工智能技術的標志性事件。

2024年人工智能技術發展的五個標志性事件

Sora的出現標志著視覺生成領域取得了重大突破;GPT-4o體現了大模型從單一語言模態向多模態(如圖像和視頻理解)的跨越。GPT-o1的推出讓我們將關注點從大規模預訓練轉向了推理優化,進一步提升了大模型的邏輯推理能力。通過GPT-o1機器能夠像人類一樣進行反復思考、推敲,展現出更加接近人類的思維方式。

此外,借助于這些先進的大模型技術,我們還可以極大地促進具身智能的發展,使得機器人不僅能夠執行任務,還能在復雜環境中做出靈活判斷并采取行動,真正實現“思考”與“行動”相結合。最后,但同樣重要的是AI正在成為推動科學發展的重要力量。例如,今年的諾貝爾物理學獎及化學獎均頒給了人工智能專家,這充分證明了“AI for Science”的巨大潛力及其對未來科技發展的重要意義。

圖片

人工智能的本質是建立連接

為什么現階段能夠出現所謂的“智能涌現”?今年的“大腦獎”獲獎者們揭示了計算科學與神經科學融合的巨大潛力,這種跨學科的合作為人工智能的發展鋪平了一條道路。

大模型的神經網絡與人類大腦在運作機制和構造上展現出了高度的相似性。深度神經網絡實際上是對人類大腦皮層認知過程的一種簡化模擬。這表明,大模型可能與人類大腦的構造有著本質上的一致。人類認知的核心在于構建大腦神經元的“連接”,而人工智能的本質也是構建人工神經元之間的“連接”。

正是由于構造和機制的相似性,我們今天能夠一起見證“智能涌現”。隨著技術的進步,人工智能大模型有望展現出超乎想象的能力,不僅在模仿人類思維方面取得進展,還將在解決復雜問題和創新領域中發揮重要作用。

圖片

大模型通往AGI的兩條路徑

在當前工業界,通往通用人工智能(AGI)有兩大主流技術路徑。其一是以GPT為代表的通過next token prediction方式,將人類數千年來積累的龐大文本知識庫進行高度濃縮,例如,GPT-4等萬億級參數規模的大語言模型。然而,隨著數據資源的日益消耗,這一路徑也面臨著增長極限的挑戰。

另一條路徑則是以Sora為代表的擴散模型(diffusion model),該模型致力于將復雜的視覺信息及物理交互過程納入學習范疇,旨在構建能夠理解并模擬人類與真實世界互動的多模態模型。智象未來也是在這條曲線上參與全球競爭,拓展技術邊界,探索更加全面和深入的物理世界的理解和生成能力。雖然兩條路徑各有側重,但隨著研究的深入和技術的融合,一個統一的大模型架構出現也很有可能。

圖片

直面Scaling Law的四點思考

假設Scaling Law一直有效的情況下, 5年后大模型研發資源預判:能源需求增加200倍、預訓練費用增加250倍、模型計算量和算力規模增加10000倍、高質量數據增加至1000倍。那么作為一家創業公司,應該如何持續增長?

思考一:多模態大模型一定是通往AGI的必經之路

多模態大模型是通往AGI的路線,是從單一的文本模態過渡到多模態,多模態理解再到多模態生成,最后多模態生成和理解實現統一。這也是商業化落地最快的一條通路,更是各大廠商的必爭之地。

圖片

思考二:大模型研發正在從預訓練過渡到推理優化的階段

人類有兩種思考模式,一種是快思考、一種是慢思考。GPT-4o代表快思考,GPT-o1代表慢思考。在GPT-o1之前,大模型企業多投入在預訓練上,o1之后我們把推理優化賦能到大模型上面,使得我們自己的大模型能力能夠提升一個臺階。

圖片

思考三:AI仍在探尋產品的市場契合點

當前,人工智能技術仍處于快速發展的初級階段。在邁向市場化應用的過程中,我們需要跨域兩個鴻溝。一個鴻溝是,實現從強大模型到專業用戶有效應用的躍遷。盡管現有的AI模型規模龐大、功能強大,但仍存在概率性的“幻覺”現象,即輸出結果可能不完全符合實際情況。另一個鴻溝是,如何將服務于專業用戶的能力普及至普通用戶群體,降低大模型的使用門檻。梅濤指出,解決以上兩個鴻溝的方案是,基礎模型的研發與建設仍需大量投入,從而提升模型的準確性與可靠性,這是支撐大型AI企業持續發展的根基所在,并且通過不斷產品與運營優化,提升用戶體驗,彌合AI產品的“最后一公里”問題,這樣才能讓每一位用戶都能輕松享受到人工智能帶來的便利。

圖片

思考四:高質量的版權數據資產,將成為人工智能企業核心競爭力之一

“高質量的版權數據資產,將成為人工智能企業核心競爭力之一。”這是梅濤分享的第四個思考,他進一步闡述至2028年,大模型訓練將消耗掉人類歷史中積累的大量數據。“面對未來可能出現的數據匱乏狀況,我們應當提前布局,思考應對策略。”因此構建和積累高質量的版權數據資產顯得尤為重要。這不僅關乎于企業的競爭力,更是推動人工智能技術持續發展的重要基石。因此,如何有效利用現有數據、探索新的數據來源以及數據使用創新方式,將是擺在所有人工智能企業面前思考的首要問題。

智象未來的業務支撐

梅濤表示,基于以上的思考,智象未來從2023年3月成立之初,就明確了“1+3+N”的商業化布局。即以1個大模型為基礎,通過3條產品線形成市場觸點,深度了解用戶需求,滿足使用場景,服務商業環境。

圖片

智象多模態大模型是我們企業發展的關鍵引擎,在模型能力達成后,就是我們的應用產品,這可以確保技術成果迅速轉化為商業應用。今天我榮幸地宣布,智象未來已攜手合作伙伴,共同構建了版權數據業務。自此,智象未來可以向用戶提供擁有版權保護的應用數據。模型、數據、應用,這三者構成了我們通往通用人工智能的穩固三角支撐。

圖片

截至目前,智象多模態大模型已經擁有國內最全的多模態版權語料庫,擁有數十萬小時版權視頻素材,上萬個授權IP,涵蓋超過70%華語影視數據,已形成上億條AIGC二創素材,在影視、文旅、通信、營銷、教育等場景得到廣泛應用。在商業化方面,已累計服務了全球100多個國家和地區的1000多萬用戶和4萬多家企業客戶。目前智象未來已經在北京、上海、深圳、香港等地區設有常駐機構,并作為安徽省人工智能先導區的零號入駐企業落地合肥。

活動現場,智象未來與人民網、上海電影集團、彩訊科技、捷成華視網聚、安徽聯通、中國移動咪咕音樂等12家生態伙伴企業代表簽約,形成集技術研發、產業化應用、市場推廣于一體的生態體系。

智象多模態大模型全面升級

本次發布的智象多模態生成大模型3.0帶來了圖像和視頻生成能力的全面升級。具體包含了畫面質量與相關性提升、鏡頭運動和畫面運動更可控,以及多場景驅動的優化。同時,智象未來還推出了智象多模態理解大模型1.0版,通過對物體級別的畫面建模以及事件級別的時空建模,實現了更精細、準確的圖像與視頻內容理解。

圖片

梅濤介紹說:大模型3.0版,相較于1.0與2.0版本,實現了顯著的技術飛躍與創新突破,是全球首創的擴散自回歸模型,這一架構巧妙地將自回歸模型與擴散模型融為一體,不僅繼承了DiT模型在圖像生成上的優勢,還通過結合自回歸模型的方式,有效降低了模型規模與計算成本,實現了性能與效率的雙重優化。

圖片

此外,3.0版在控制能力上也取得了關鍵進展,實現了對鏡頭運動和局部運動的精準操控,進一步提升了生成內容的畫質與動態表現力。并且,引入的混合成像模型MOE架構,確保了在保持高生成質量的同時,顯著加快了推理速度,為實時或近實時的應用提供了可能。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章