黃仁勛明天登港!沈向洋3小時重磅演講:發布多款大模型,具身智能激情碰撞
作者 | 許麗思
編輯 | 心緣
智東西11月22日報道,今日,一年一度的2024 IDEA大會在深圳舉行,這場由美國國家工程院外籍院士沈向洋發起的人工智能盛會,以粵港澳大灣區為窗口,深入探討了全國及全球視角下的大模型算力趨勢、具身智能、AI+編程、AI for Science、低空經濟等熱點議題。
作為IDEA研究院創院理事長,沈向洋進行了近3小時的主題演講,期間發布多個IDEA研究院創新成果,包括通用視覺大模型、營銷創作大模型、經濟大模型、運籌決策大模型、投資大模型、化學領域專家大模型、低空管理與服務操作系統等。面向具身智能,IDEA研究院宣布分別與騰訊、美團、比亞迪展開合作。
在人工智能發展過程中,沈向洋認為,算力、算法和數據是最重要的。他直言,過去十幾年,英偉達是人工智能行業最了不起、最成功的一家公司。“英偉達硬生生把自己從自己從做硬件、芯片的乙方變成了甲方,今天能拿得到英偉達的卡就可以說是成功了一半。”
沈向洋現場透露,明天黃仁勛會到香港科技大學接受榮譽博士學位的授予,而他準備現在和黃仁勛討論一些關于技術、領導力和創業的故事,特別是在針對算力發展的問題,探討未來十年還會不會像過去十年那樣能夠達到100萬倍的增長。
▲沈向洋現場公布明天將與黃仁勛進行對談
他還強調,具身智能是接下來非常大的機會。如今的多模態模型實際上沒有真正地理解物理世界,而要走向世界模型,必須要靠機器人。機器人最后會走向千家萬戶、走進每一個家庭,這是一件激動人心的事情。
據了解,IDEA大會于2021年首度舉行,匯聚產學研企界領袖,致力構建一個凝聚數字經濟多方力量的國際化平臺,是粵港澳大灣區最具影響力的科技盛會之一。
一、“講卡傷感情,沒卡沒感情”
“我最近一直講的一句話叫作‘講卡傷感情,沒卡沒感情’。”沈向洋說,如果需要進行人工智能的發展,需要大量高性能顯卡的支撐,可以把它想象成是信用卡,弄100張卡,就需要三四千萬元的投入。
沈向洋談道,近年來,人工智能的蓬勃發展讓整個行業充滿期待。在其發展過程中,算力、算法和數據這“三件套”至關重要。
先看算力。計算行業在過去四五十年里,算力不斷提升是關鍵。英特爾提出的摩爾定律表明每18個月算力增長一倍,然而隨著人工智能尤其是深度學習的發展,對算力的需求更高了。
沈向洋覺得,英偉達成為了人工智能領域最了不起、成功的公司。從硬件芯片制造商轉變為行業主導,其出貨量巨大增長,產品供不應求。如2023年H100的出貨量龐大,國內公司和美國的采購數量都非常可觀,馬斯克還搭建了10萬張H100卡的集群。
大模型的發展是算力需求增長的重要原因。大模型參數量從百億到千億再到萬億,模型變大對訓練要求高,數據量也需增長,對算力的需求與參數呈平方關系。
從增長倍數來看,如果一年漲十倍,十年的增長倍數驚人。從摩爾定律到黃氏定律,黃氏定律是基于模型訓練對算力的需求概念。摩爾定律18個月漲一倍,十年是100倍,而一年漲四倍,十年則是100萬倍,這解釋了英偉達市值過去十年漲300倍的現象。
對于未來十年算力的需求增長,沈向洋稱目前并不確定。不過明天,黃仁勛將到香港科技大學接受榮譽博士學位的授予,之后雙方會進行對談,討論技術、領導力、創業的故事,也順便請教他一下未來十年的發展還會不會有100萬倍的增長。
而在算法方面,沈向洋提到自2017年Transformer架構出現以來,人工智能、深度學習和大模型基本沿著此路線,通過堆數據和算力不斷發展。在GPT-4之后,雖然GPT-5尚未推出,但OpenAI不斷帶來新技術突破,如多模態的GPT-4o以及新的推理學習能力o1。算法領域不斷有人創造新算法實現突破,方法范式的轉移尤其值得思考。
過去幾個月,國內一些公司和初創企業在o1這條道路上取得良好進展。其算法突破思路在于,此前大家關注的GPT系列主要是預訓練,預測“下一個token”,通過對數據進行聰明壓縮以快速給出答案。而新的范式變革是增強學習,它更像人的思考過程,有后訓練、后推理過程。
增強學習并非新事物,很多人都用了,特別是AlphaGo下圍棋就用了此方法。如今其新特點是其打法更通用,不像以前一個系統只能解一個問題。就像o1不僅可以處理數據、編程,還能涉及物理、化學等多個領域。在算法方面,未來幾年沿著SRL這條道路有望出現令人驚艷的發展。
針對數據方面,沈向洋提到,大模型的蓬勃發展,不僅體現在大參數上,數據量多也是重要方面。
以GPT為例,GPT-3出現時用了2T數據,GPT-4據說用了12T,不斷訓練后大概用了20T,這是目前互聯網上能獲取的較干凈的數據量,約20萬億。GPT-5遲遲未出,若出現,他認為數據量大概會到200T規模。互聯網上已難找到這么多數據,所以要合成數據來訓練未來模型。
沈向洋舉了個例子說明1T數據的含義:約等于500萬本書、20萬張高清照片或500萬篇論文。人類歷史上的書籍總量大概21億Token,微博有38億Token,Facebook約140T數據,但社交媒體上的數據質量不高。一個人從小學到大學真正學到的知識大概是0.00018T,讀完大學學到的東西相當于1000本書。
ChatGPT等人工智能主要用互聯網數據,互聯網發展40年,公眾在網上發布了的大量信息,可以說為人工智能的訓練做了準備工作。另外,無論訓練哪種語言的人工智能,底層高質量數據多為英文,人工智能時代英文重要性可能增強。
二、發布通用視覺大模型DINO-X,具身智能合作騰訊美團比亞迪
計算機視覺技術在真實世界的應用場景十分廣泛。然而,過去主流的小模型方案,難以應對碎片化、多變的長尾需求,限制了技術落地規模。
自2022年起,IDEA團隊從目標檢測出發,打造了精準度、通用性、泛化能力兼優的DINO系列視覺大模型。本次大會就發布了該系列最新的DINO-X通用視覺大模型,擁有真正的物體級別理解能力,實現開放世界(Open-world)目標檢測。無需用戶提示,直接檢測萬物。
與此同時,IDEA團隊還推出行業平臺架構,通過一個大模型基座,結合通用識別技術結合,讓模型不需重新訓練,就可邊用邊學,支撐多種多樣的B端應用需求。
沈向洋強調,計算機視覺在機器人和具身智能方面也將是發展的重要方向,機器人最終會走向每一個廠房、每一個家庭。
現場一連宣布了IDEA研究院在具身智能領域布三個合作:與騰訊合作,在深圳福田區、河套深港科技創新合作區落地建設福田實驗室,聚焦人居環境具身智能技術;與美團合作,探索無人機視覺智能技術;與比亞迪合作,拓展工業化機器人智能應用。
活動中,IDEA團隊還分享了正在進行的AI助盲應用研究。
而針對快速騰飛的低空經濟領域,沈向洋總結了低空經濟的發展四大關鍵因素:
一是應用為王;二是政府為主,需要程序、法規、政策支持;三是技術為底;四是安全至上。安全、效率、成本非常重要,只有這些事情做好才能保證支持大規模的飛行。
大會現場,IDEA推出了低空管理與服務操作系統OpenSILAS1.0Alpha版,還攜手17家產業伙伴發起OpenSILAS創新聯合體,旨在打造開放共享、技術領先的系統和平臺,建立有實際系統支撐的標準體系。
三、合成數據能節省八成以上成本,大模型落地金融運籌投資
大模型能力的涌現,離不開互聯網時代的海量數據養料積累。據沈向洋分享,如今數據存量告急,對使用合成數據來訓練未來模型的需求越來越迫切了。
在這個方向上,IDEA團隊研發了IDEA Data Maker,通過自研語境圖譜技術,解決過往文本數據合成方案的多樣性匱乏等問題,還能為合成數據引入“指導手冊”,以圖譜為綱,指導用于合成的語境采樣。
實驗結果顯示,IDEA團隊的方案能持續為大模型帶來能力提升,表現超過目前的最佳實踐(SOTA);從token消耗來看,平均節約成本85.7%。目前,該技術內測平臺已開放,通過API提供服務。
在拓展新前沿的同時,大模型價值創造也在進行時。大會上,IDEA發布了多個垂類行業應用落地進展,包括:學術大模型和AI科研神器ReadPaper、營銷創作大模型,以及面向經濟與金融領域的經濟大模型、運籌決策大模型、投資大模型。
▲經濟大模型
▲運籌決策大模型
四、已研發多款化學專家大模型,AI編程工具鏈12月份開放
在基礎研究愈發受到重視的當下,AI for Science是技術創新創業的重要方向。今年的諾貝爾物理學獎和化學獎,更是將這場科學革命推向聚光燈下。好的AI工具,可以幫助科學家做出更快、更好的科學發現。
IDEA團隊選擇了化學領域,從預測能力和數據能力入手,進行了研究和產業化實踐。
在預測方面,IDEA研發的多個化學領域專家大模型,分子屬性預測和化學反應預測能力均處業界領先水平;在數據方面,IDEA開發了化學文獻多模態大模型,聯合晶泰科技發布專利數據挖掘平臺PatSight,將藥物領域的專利化合物數據挖掘時間,從數周縮短至1小時。
除了科學研究之外,另一個技術范式正在被AI重塑的領域,是編程語言。
“全世界有那么多的編程語言,小語言、大語言、中語言,基本上沒有一個語言真正被大家所用的是中國人發明、中國人創造,這種現象我們是有機會可以改變的。”沈向洋說。
此次大會上,IDEA研究院的MoonBit團隊就展示了其AI for coding的最新成果。
MoonBit是專為云計算與邊緣計算設計的AI云原生編程語言及工具鏈,已具備完備的多后端支持和跨平臺能力,可在硬件上直接運行,支持RISC-V。MoonBit的開源開發平臺,將于12月正式開放。
據了解,MoonBit去年底剛開源只有幾百位用戶,今年3月用戶數量達到三千,不到半年翻了十倍的增長,如今已有將近3萬用戶。預計2025年底,MoonBit將會有10萬用戶,并爭取2026年底達到百萬級的用戶,成為粵港澳大灣區現象級的編程語言。
結語:AI發展,從推動經濟增長到增加人類福祉
過去十幾年來,人工智能的發展速度令人驚訝,人類許多自豪的能力都逐漸被AI接近甚至是超越。
更令人驚訝的是,如今人工智能的能力已經不再是純粹的單點能力的增加,而是通用人工智能整體能力的提升,對社會帶來帶來的影響也變得更為深遠。
沈向洋認為,從長遠的人類社會發展角度來看,巨大躍遷都是由技術創新帶來的。工業時代的全球GDP年均增速約為1%-2%,信息時代在3%-4%,而在人工智能時代,這個數字會是多少?
在他看來,未來人工智能、機器人的數量會急劇增加,帶來生產效率的巨大提升,GDP也可能會帶來百分之十幾的增長。
但是,AI的發展,能不能從推動經濟增長到轉化為人類的最大福祉?這是在探索AI的道路上,必須要思考的問題。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。