AIInfra往事之異構計算篇:吳韌與他的學生們
2013年9月底,吳韌受百度邀請,以杰出科學家的身份加入百度深度學習研究院(IDL),此時正值他五十知天命的年紀。
吳韌在人工智能領域耕耘多年,當時已是一名頂尖的AI計算科學家。2012年深度學習崛起前后,多年在AI領域的研究和工作經驗讓他堅信:這一輪人工智能競爭其實比拼的是計算能力。
所以,當百度找到他時,吳韌覺得 IDL 是一個能讓他大展拳腳的平臺,便在已知天命的年齡毅然選擇回國、加入百度,成為百度第四位杰出科學家。
吳韌的任務是從算力方面讓百度更好地迎接深度學習帶來的巨大改變和挑戰,他招募團隊幫助百度搭建異構計算平臺,并在上面研發超級計算機。換言之,當時百度 AI 整體基礎設施中的計算部分,都由吳韌來負責。
當時國內研究深度學習的計算人才屈指可數。
吳韌從各個渠道精心挑選了三個技術年青人——劉文志、顏深根、單羿——組成了異構計算團隊的核心,后來實習生黨青青轉正、孔暢加入,加上實習生孫剛(后自動駕駛算法獨角獸 Momenta 聯合創始人),七人構成百度 AI 計算的起點,共同開啟了深度學習時代的一段計算探索之旅。
數據、算法與算力是深度學習時代的“三駕馬車”——這個說法其實是吳韌在 2014 年 GTC 演講中最早公開提出來的。但相比前兩者,AI 時代的算力人才并沒有得到太多的重視。從吳韌加入百度,到他離開、異構計算團隊解散,吳韌帶領的 AI 計算團隊一直停留在六人規模。
作為 AI 崛起中不可或缺的 Infra 部分,算力設施與它背后的人才,實則為大時代的前進起到了不可磨滅的貢獻。的此次記錄,僅是一次對湮沒歷史的再現,也是一次對 AI 計算先行者的致敬。
吳韌與他的計算啟蒙
37年前,吳韌就認識到一件事:“計算能力是核心驅動力”。
吳韌在上世紀70年代生于四川德陽,爺爺和年輕時候的父親都是一名木匠。吳韌遺傳了父輩愛鉆研的特質,從小也培養了極強的好奇心和探索欲,從初中開始就喜歡鼓搗家里的電器。
當時通訊技術剛興起,電視機也剛在全國范圍開始普及,吳韌的鼓搗器件就從木材變為了時興的無線電,從礦石收音機到更高級的收音機、電子管的音響、電子管的電視機等等,無一不是吳韌的研究對象。
組裝電視機時,沒有電路圖,吳韌就基于僅有的布線圖一遍遍嘗試,憑借有限的資料、更多是自己的想象去開拓、設計,最終居然組裝成功。
成年后的吳韌向回憶,這其實是一個需要經歷很多想象、推理與計算的過程,需要反復試錯,與他后來探索 AI 計算的研究具有異曲同工之處。
1983年,吳韌第一次接觸到計算機。當時,他在成都氣象學院電子系(如今的成都信息工程大學工程)讀大三,剛認識計算機后就對這個看起來像電視機、但又要神秘許多的電子物件產生了濃厚的興趣,開始自學有關計算機的一切知識,包括編程,從此在計算的道路上越走越遠。
僅三年時間,1986年,吳韌就編寫出了中國大陸第一個中國象棋程序。
那時,AlphaGo 還要數十年后才誕生,在國內的計算機領域,像這種“寫一個計算機程序、讓它在棋局上戰勝別人”的任務是完全沒有資料可參考的。吳韌只有LISP語言教材中的一個簡單的搜索算法(AlphaBeta 搜索算法),剩下的所有細節都要靠自己“想象”,這也成為了他進入AI領域后一個非常重要的練習。
在象棋程序的完善中,吳韌切身體會到:“它”(象棋程序)的進步是可以量化的,即計算能力的提升!
此時的吳韌便已經意識到算力在計算程序運行中的重要性。
1990年,吳韌入職美國一家做字符識別的公司,負責用AI的方法做識別前的各種分析和處理。但是他逐漸希望能獲得更加專業的AI研究的訓練,所以過了一年多,他便辭職去了英國,進入倫敦大學攻讀AI專業的博士。
接下來,吳韌在人類象棋上的兩項研究讓他在AI屆名聲大噪。
博士期間,吳韌研究的《反溯算法及其應用》,證明了一個“被認為是平局的中國象棋殘局炮高兵單士象必勝士象全”其實是可以取勝的局。該反溯算法改進了當代計算機科學泰斗、圖靈獎獲得者肯·湯普森發明的經典算法,震動了整個計算機界。
業界對肯·湯普森的工作有改進的工作是深藍(97年擊敗國際象棋世界冠軍)的前身——深思,它的作者許峰雄博士把湯普森的數百個芯片組成的國際象棋計算機做到單芯片上,取得突破,也才有了后來IBM深藍的成功。
計算機博弈研究是AI研究的一個重要課題,是機器智能、兵棋推演、智能決策系統等人工智能領域的重要科研基礎。基本上,每一次機器博弈都會引起全球人工智能熱潮。
接著,2000年,吳韌加入硅谷享譽盛名的惠普實驗室。
要想獲得進入美國惠普實驗室的門票必須要滿足以下三個條件之一。第一、某個學科(分支)的學科帶頭人;第二、世界名人;第三、其博士研究成果要對該公司的發展有極大的幫助。
此時吳韌憑借《反溯算法及其應用》已經是世界設計計算機中國象棋程序的頂級人物。
在惠普實驗室,他獨立設計開發出了一款中國象棋超級程序,并用中國現存最早的象棋棋譜“夢入神機”命名。該程序兩度獲得計算機象棋奧林匹克比賽冠軍,讓吳韌成為全世界設計計算機中國象棋程序的頂級專家。
吳韌的程序跟當年的國際象棋程序類似, 追求的是極其精簡的知識編碼,最高效的策樹搜索算法以及優化到極致的程序設計。在最頂級的競爭當中,勝出的人必須在這三方面都必須是最頂級。這種無止境的對知識、算法、效率和下面支撐的算力的追求,也讓吳韌在他后續的各項工作中如魚得水。
在研究計算機中國象棋的過程中,吳韌已經脫離了單純享受下中國象棋的樂趣,他更大的感受是來自AI的進步:“它還使我們認識到機器能夠思維,而且能達到一種什么樣的水平。”
對算力的追求,也讓吳韌對計算本身尤其是硬件實現額外關注。得益于惠普實驗室得天獨厚的條件,從2005年起,他開始采用GPU來進行通用計算。
據了解,吳韌應該是最早一批使用 GPU 進行通用計算的人之一,并且在用GPU進行大數據解析和機器學習方向取得很大成功。
(正是有了如文中他們在AI Infra的探索與貢獻,中國的AI事業才能站在前人辛苦打下的地基上持續前進,誠如今天的大模型,不日將推出《智譜狂飆365天》一文,揭秘中國這家最像OpenAI的大模型公司“智譜AI”在過去的2023年的崛起史,在OpenAI、Google、Meta、Anthropico、Mixtral等一眾海外公司引領了大模型的今天,看智譜如何摸索出中國大模型的一條路,歡迎添加作者微信 zzjj752254 來聊。)
2010年吳韌所在的實驗室成為英偉達首批認證的、世界范圍內7個CUDA實驗室中的一個,吳韌也在其中升職為首席研究員。
在這五年里,吳韌就曾思考過:如果我的計算能力能夠有數量級的增長,跟別人比能有什么不一樣?世界上有沒有一款新的硬件,能把計算能力做得更好?
前26年,吳韌一直致力于計算機博弈研究,加入惠普實驗室后他開始認識到GPU作為新計算平臺的價值,而隨后在AMD收購ATI、推出異構計算時,他判斷異構計算將主導世界未來計算的走向。
由于吳韌在惠普實驗室對英偉達生態系統的貢獻,AMD朝他拋出了橄欖枝,所以吳韌在2011年加入了AMD的異構系統架構(HSA)團隊負責整個HAS軟件和生態系統。
所謂異構計算,就是將CPU與GPU搭建在一起;更進一步說,是將兩種或多種擅長不同任務的計算硬件結合在一起、使其發揮各自所長,完成計算任務。
早在第一次開發中國象棋程序時吳韌就已經意識到計算能力的重要性,這一次他終于真正踏進計算的世界。
在 AMD 待了兩年后,吳韌便選擇回國加入百度IDL,因為他認為百度IDL在新的方向上選對了。
那一陣,深度學習風靡業界,只因Hinton(“AI教父”)的研究給AI信徒指引了一個新方向——深度學習算法。
國內百度率先展開了行動,成立了深度學習研究院,并由李彥宏掛帥坐鎮,親自出任院長,由當時負責領導百度多媒體部的慕尼黑大學博士余凱任副院長。
在為深度學習研究院(IDL)網羅人才時,吳韌也收到了橄欖枝,同期因為百度的AI夢而加入的還有Facebook前資深科學家徐偉、美國新澤西州立大學統計系教授張潼、谷歌大腦項目聯合創始人吳恩達等等人工智能領域的技術大牛。
英偉達過來的劉文志
2013年9月底,吳韌正式加盟百度深度學習研究院出任杰出科學家,負責給百度搭建異構計算平臺。
吳韌的加入其實是王海峰拍的板,當時王海峰作為執行負責人協助李彥宏創建了IDL。
跟年輕時不同,此時年近半百的吳韌已經失去了對權力的欲望,一心想要借助百度的資源做件大事——就是用異構計算方式去設計一個專用的超級計算機,用于AI訓練。因為他已經看清了算力對這一輪深度學習的重要性,他認為大算力能夠給百度帶來巨大競爭優勢。
在其他人眼里,深度學習是全新的技術,而在吳韌的眼里,這只是歷史的一次重演。
吳韌愿意來百度做超級計算機有兩個前提:一,這是一個特定的領域。吳韌做事喜歡選一個特定的領域進入,不能是其他人都搶著做的領域,而百度是國內率先做深度學習,也有資源做超級計算機;二,這是他擅長的領域。從系統軟件、硬件到網絡,吳韌都懂。
為了做超級計算機,吳韌還跟上級王勁“借了”200萬美金。當時王勁是百度技術體系的老大,他從1991年起在硅谷的多家公司擔任過技術和管理職務,其中包括甲骨文、informix和E-Loan等,2010年4月加入百度后,逐步為百度構建起一個強大的技術研發體系。
“200萬”的事情其實是這樣的:有一次開總監會,王勁帶著吳韌和其他總監們坐高鐵從北京到無錫去看百度的數據中心。在火車上,吳韌就把自己想要做超級計算的想法告訴了王勁,他認為自己的超級計算機完全可以改變未來AI的競爭局面。
沒想到王勁一次就聽進去了,沒有吳韌想象中的反復說服、磨嘴皮子,回去后便批了200萬給他。
錢的問題解決了,但光桿司令吳韌還需要一個團隊。經過一番挑選,劉文志、顏深根、單羿陸續加入成為核心,黨青青、孔暢和實習生孫剛也逐漸加入,吳韌的異構計算團隊有了雛形。
招這幾個人吳韌是有所考量的,如劉文志是英偉達出身,顏深根對系統軟件設計有概念,單羿是硬件背景,懂芯片加速機器學習算法,黨青青主要做軟件。
劉文志是第一個加入的,此時劉文志剛從英偉達出來,正在尋找新機會,他把簡歷發給吳韌的當天就收到了回復,兩個月后百度便給他發了offer。
在這幾個人中,劉文志的學歷最低,只有碩士學歷,但吳韌認為他極其聰明。后來,劉文志也是最先從吳韌團隊撤離的那一個——早于2014年ImageNet大型圖像識別挑戰賽(ILSVRC)風波便離開了。
劉文志本科時就接觸到高性能計算,他學的是計算化學專業,主要研究內容是利用有效的數學近似以及電腦程序計算分子的性質,例如總能量、偶極矩、反應活性等,并用以解釋一些具體的化學問題。
計算化學有一個很大的問題,就是實驗成本很高,其中計算機實驗成本高是時間長造成的,經常需要幾百臺機器來計算。劉文志對解決這個問題很感興趣,他的編程能力也不錯。
那時中國高校還沒人研究過這個問題,也沒幾個人會寫這類程序。
在中科院讀碩士時,劉文志便開始專心研究這個方向,第二年進研究所后用了三個月就完成了第一個計算,讓他的導師很是吃驚。
碩士畢業時因為在CUDA社區很有名的緣故,劉文志順利地進入了英偉達。
CUDA是NVIDIA在2006年推出的一種通用并行計算平臺和編程模型,它利用NVIDIA GPU中的并行計算引擎以比CPU更有效的方式解決許多復雜的計算問題。今天,CUDA社區有超過400萬的開發者,CUDA生態已經成為英偉達在AI芯片領域占據領先優勢的強大壁壘。
2007年年底CUDA開始在中國推行,2008年劉文志就開始做CUDA,并以網名“風辰”聞名于CUDA社區,劉文志是國內最早推廣CUDA的開發者之一,有名的還有周斌、趙開勇、陳實富等人。
劉文志在英偉達的上司是王鵬,王鵬喜歡工程技術勝過做領導,面試時王鵬問劉文志未來的目標是什么,劉文志說“三年后你升一級,我也升一級,我升到你的位置”,隨后兩個人都笑了。
從這時起劉文志便開始顯露他的鋒芒與聰明果決。
兩人一起搭檔工作到2013年,王鵬因為綠卡原因必須回美國,希望劉文志接替他的工作,但此時劉文志去意已決。
因為他發現英偉達的HPC業務很吃學歷,并且中國人在英偉達不受重視,后便跟王鵬達成一致,重新找到一個更合適的人。
新人上任三四個月后,劉文志就遇上了吳韌百度IDL這個機會。
在英偉達,劉文志協助王鵬建立了北京CUDA團隊,并負責將大規模GPU計算集群應用于石油和天然氣行業。
彼時AI深度學習尚未爆發,石油勘探中的高性能計算是英偉達在中國最盈利的Tesla業務方向。但劉文志已經意識到深度學習的未來以及HPC(異構并行計算)對人工智能的重要性。他判斷,一旦深度學習普及,對GPU的需求量級將擴大百倍以上。后來的事實甚至超出劉文志的預料——實際上是擴大了近萬倍。
所以即便2013年12月百度給的offer并不是那么令他滿意,劉文志也接了,正是因為他看到了深度學習與異構計算的趨勢,而百度IDL是國內最早做深度學習的。
加入后,劉文志一邊跟著吳韌做深度學習的AI平臺和算法相關工作,一邊協助吳韌建立團隊,不日,顏深根、單羿、黨青青、孫剛、孔暢也陸續加入。
懂系統軟件設計的顏深根
顏深根是異構計算團隊的第二個創始成員。
他博士還沒畢業就被吳韌拉進團隊,那時顏深根還在美國做訪問學者,吳韌把他從美國挖了回來。
吳韌看中顏深根在博士期間負責過AMD的一個項目經驗:把AMD的GPU在OpenCV上跑起來。
這個項目不僅涉及到計算,還涉及到很多計算機視覺(CV)的算法,比如要做邊緣檢測、人臉識別都需要專業人士去設計的這些算法。
那時顏深根還不了解深度學習,偶然一次接觸還是一次他的師弟告訴他,現在出現了一個新的機器學習算法叫深度學習,非常強,跟以往的機器學習算法都不一樣,邊緣檢測、人臉識別這些只靠深度學習就能搞定。
但由于當時要忙博士論文,所以他一直拖到2013年才開始去了解深度學習。
顏深根最早接觸AI是在哈工大讀本科的時候,他在那里學習了自然語言處理、搜索引擎等相關的知識,從這時起他便逐漸對AI產生興趣。
在中科院讀博士時他一開始其實是想繼續研究自然語言處理,但陰差陽錯之下最后選擇了高性能計算,但他內心一直對算法念念不忘。
讀博期間,顏深根聽同宿舍的師兄說博士要發論文才能畢業,而他那位師兄博士讀了五六年還沒能畢業,這讓顏深根非常擔心自己也畢不了業。
但沒想到2012年、2013年他連續兩年在并行計算頂級會議PPoPP發表長論文(大陸首次),不僅不用擔心畢不了業,還超額完成論文任務。
2013年的那篇頂級會議PPoPP論文發布后,顏深根獲得了一次去美國北卡州立大學作訪問學者的機會,在這期間他開始去研究深度學習,才發現深度學習跟高性能計算聯系非常緊密,需要大量計算的支持。
也正是在美國訪問期間,顏深根看到了吳韌在微博發的招聘異構計算方面人才的信息。
其實在發現這則招聘信息之前,顏深根就已經被吳韌注意到:
因為一次顏深根回答了一個網友有關高性能計算的問題,這個網友正是吳韌團隊的實習生黨青青。
所以顏深根很順利地成為了吳韌團隊繼劉文志之后的第二個成員。
多年以后跟回憶往昔,顏深根感慨在百度的一年半時間里,他們做的事頂在別的地方三四年,做了很多具有挑戰性、有意思的工作。
(2015年左右,一大批AI公司創立,脫穎而出的“AI四小龍”將中國AI事業帶入到從研究到落地的階段,其中之一的曠視,創業十載,在風雨中飄搖多年,如今正站在懸崖邊搖搖欲墜,焦急地等待上市祈求脫困,令人唏噓,曠視的十年也是中國過去十年中AI公司的興衰成敗,接下來將推出《曠視創業十年的艱辛與無奈》一文,歡迎添加作者微信 zzjj752254 交流。)
2014年初,顏深根正式加入百度IDL異構計算團隊,一開始團隊想在AMD的機器上把深度學習跑起來,因為團隊有很多這方面的經驗。
首先吳韌就是AMD前異構系統首席軟件架構師,顏深根博士期間也為了把OpenCV在AMD的GPU上跑起來做了很多這方面的工作。
另一件事是組建了國內第一個深度學習超級計算機Minwa,吳韌負責系統設計,顏深根負責系統軟件。
有了超級計算機之后便開始進行大規模的訓練,在這個過程中,吳韌他們在Hinton之前率先發現了用數據并行和模型并行去做AlexNet神經網絡。
當時有兩個深度學習框架可選,一個是ConvNet,一個是Caffe。
如果要基于ConvNet去做大規模訓練,但ConvNet只能做兩張GPU的,做更多GPU就得做擴展。
那時賈揚清的Caffe剛出來,但也只能支持一張GPU。吳韌他們需要的是能夠支持在一個集群上跑的架構,那時一個集群一般是8張GPU。
無可奈何之下,只能自己設計一個可擴展的并行方案。這個項目主要由顏深根負責,而當時行業里沒有任何可參考的案例。
顏深根他們分析了AlexNet神經網絡,發現有兩個部分,前面是五層卷積,后面是三層全連接。但這兩部的計算、通信特點都不一樣。
他們發現,五層卷積其實可以用數據并行這種方式來做,后面三層全連接可以用模型并行的方式。
那會兒還沒有數據并行、模型并行的概念,后面業界才將這兩種并行方式命名為數據并行和模型并行。但在當時,這都是顏深根等人手推出來的,推公式,把矩陣乘拆開去做計算。
有了這個發現后,當他們準備寫代碼去實現時,Hinton團隊發了第二篇論文,介紹了如何做AlexNet的并行方法,跟顏深根他們想的方法相同。
這個方法后來成為一個非常經典的方法,奠定了數據并行和模型并行的一個基本方式。
除此,顏深根等人也可能是業內第一個將GPU多卡計算的通信優化算法—Ring Allreduce應用到深度學習領域的研究團隊。
當時,顏深根他們在做數據并行時需要做大量通信,彼時只有MPI可用,但MPI自帶的Allreduce算法性能很差,他們不得不自己去優化。
顏深根想了很長時間,設計出來一種計算方式可以保證通信量不會隨著GPU數量增加而增加,即用多少GPU,通信量都是恒定的。
他把這個算法講給在美國的吳韌聽了以后,吳韌非常認可,還取了個名字叫“Butterfly”,因為算法畫圖顯示是一個蝴蝶形狀。
結果一年后百度另一個團隊發現這個算法早已在高性能計算的歷史中存在了,叫Ring Allreduce——其通信成本是恒定的并且與系統中GPU的數量無關,并且僅由系統中GPU之間的最慢連接確定。Ring Allreduce能減少不同 GPU 之間的通信時間,從而允許將更多時間用在有用計算上。
因此這種情況下,雖然是顏深根他們自己研究出來的“Butterfly”算法,但新人老路,只能說應該是第一個將Ring Allreduce應用到深度學習領域的團隊。
到了2014年底,吳韌、顏深根他們已經可以做到128張GPU同時并行了,領先國內廠商多年。
在團隊里,顏深根主要跟單羿合作,兩人一個負責系統一個負責算法,顏深根認為單羿是一個很有格局的人。
有硬件背景的單羿
單羿在顏深根之后加入,他清華博士畢業后就選擇了創立僅一年半的百度IDL。
單羿擁有很強的硬件背景,在博士期間做了很多芯片相關的事情,基本上是用FPGA芯片加速機器學習算法。
單羿本碩博均就讀于清華電子工程系,2008年起在汪玉門下讀博士。
汪玉本碩博同樣就讀于清華,博士師從楊華中和謝源,07年開始留校任教,單羿是他的第一個博士生。
兩人第一次見面時,汪玉問他想研究什么方向,單羿說自己想做跟互聯網相關的(例如搜索引擎)、能賺錢的方向。
當時單羿暑假在微軟亞研許峰雄博士手底下做實習生時,就是做的搜索引擎方向,汪玉提議他沿著暑假實習的話題繼續做。
做的具體事情是:用芯片加速搜索引擎中的機器學習算法,這既跟電子系有關,而且搜索引擎、微軟亞研也是當時 AI 領域最熱的關鍵詞。
谷歌當年提出了PageRank,是為了在搜索引擎優化中評估網頁優化的成效,這背后其實是很簡單的機器學習,但后來隨著搜索引擎越來越重要,像SVM、PageRank越來越多的機器學習算法都應用到里面,這背后開始蘊含著大量的計算壓力。
當時大家都用CPU去做這種計算,但在微軟,許峰雄提出了用FPGA芯片去加速機器學習。
許峰雄曾經為IBM開發“深藍”(Deep Blue)計算機,打敗了世界棋王,因此得名“深藍教父”,他在做深藍時就想到可以用FPGA芯片去加速機器學習算法,后來到微軟亞研后發現微軟也有這方面的場景,便提出了用FPGA芯片去加速機器學習,解決搜索的延遲,算得更快。
這個項目由正式員工徐寧儀,和清華博士在讀的單羿、中科大碩士在讀的歐陽劍兩個實習生負責。
用FPGA芯片去加速搜索引擎,即把搜索引擎里面的機器算法芯片化。
涉及的方面非常多,例如不同算法的硬件實現,當時CPU還在串行計算里面打轉,單羿他們就用矩陣乘法做了很多優化,開始用并行計算發現算得更快。
08年單羿開始做稀疏矩陣向量乘(SpMV),那時SpMV是一個很數學的東西,很少有機器學習領域的人會關注,更何況當時機器學習還沒火。
單羿設計了專用的芯片架構,用FPGA芯片去加速稀疏矩陣向量乘法,做到了當時世界上最快的成績。
09年單羿還發了一篇用FPGA芯片去加速經典的排序算法RankBoost論文,成為了該領域來自中國大陸的第一篇論文。
從2007年到2010年,單羿都在微軟亞研研究如何用FPGA芯片去加速搜索引擎,他每天靠微軟亞研的可樂機續命,基本都是忙到凌晨三點下班,早上八九點繼續上班。
同時這也是單羿博士的課題,“用芯片去加速機器學習”這個課題最后開創了汪玉博士生團隊的一個研究新方向。
這三年單羿用芯片加速搜索引擎中的機器學習,做了十多種機器學習算法的芯片加速,那時他就理解到,除了計算以外,存儲也很重要。如今從 Flash 到 DDR,到片上存儲等等一系列存儲架構,包括現在近存計算這些概念,都是單羿那時玩過的概念。
大概2010年的時候,他結束了微軟亞研的實習,轉去做博士的另一個方向:用芯片去做立體視覺。上一個項目“用FPGA芯片去加速搜索引擎”也被微軟亞研接手,用到了搜索引擎、云計算當中。
而歐陽劍碩士畢業后沒留在MSRA,去了百度,干了大概一年多時間,他還是堅定地認為在MSRA做的“用FPGA芯片去加速機器學習”這件事對百度是很有價值的,所以他又在百度繼續干,后來百度也開始意識到用芯片來加速搜索引擎的重要性。
歐陽劍也從此一路高升,在此后百度宣布旗下昆侖芯片業務成立獨立新公司——昆侖芯(北京)科技有限公司時,身為百度芯片首席架構師的歐陽劍出任該公司CEO,帶領百度努力跨越自研芯片的鴻溝。
后來徐寧儀從微軟亞研出來后也去了百度,由于他的背景便加入了歐陽劍的組,兩人再次成為同事。
單羿研究立體視覺是因為汪玉跟日本三菱重工的一個合作項目。三菱重工想在新加坡做一個道路的自動通行系統,類似國內的ETC,但它不需要人,只有一個龍門架上面各種攝像頭、傳感器,埋在地下的線圈,降低了人的消耗,三菱重工想要在第二代系統里面只用攝像頭,其他都省略掉。
這就涉及到檢測追蹤,例如車牌識別,車的外形尺寸識別,三菱重工的想法是在路邊兒立一個桿,就像電線桿一樣,然后上面掛一個雙目攝像頭的立體相機。
這個項目始于2009年10月,當時汪玉的電子系派單羿來做芯片實現,清華自動化系的張長學團隊負責算法,派的是胡瀚,即后來 Swin Transformer 的作者、現在MSRA視覺組的老大。
單羿跟胡瀚都是 2004 級的清華本科,胡瀚在自動化讀直博,單羿在電子系讀直博,兩人在這個項目里認識。后來同一年去百度IDL當了同事,再后來單羿去創業,胡瀚就去了MSRA。
但當時自動化系對系統和芯片的了解并不深入,他們的算法多是堆各種各樣的特征,拼湊在一起,然后調調參數、權重,有一個精度不錯的結果就丟給單羿。對于單羿來講,這是不能直接運作的,因為在芯片實現的時候,每一份計算都代表的是芯片的代價,而單羿要用最高的能效去實現這個算法。
所以給到他的代碼就只作為參考,單羿不得不自己去啃OpenCV那些算法,當時大概有 100 多個軟件算法的模塊,他把絕大部分都寫成芯片的代碼,還為此做了一個芯片的OpenCV庫。
前面一年在做OpenCV基礎算法的芯片化,后面兩年都在研究立體視覺。最后在 2012 年給三菱交了差,單羿也拿到了三菱的博士生獎學金,還發了一篇ACM的文章,這篇文章討論了用FPGA芯片來加速世界上最快的 1080P 分辨率下的立體視覺系統。
這個項目后來微軟也希望能用于 Kinect 機,但是由于其對近距離的手勢識別比較差,微軟便放棄了。單羿后來向回憶,“如果能在Kinect機上用起來,它的量會很恐怖。”
在那時,單羿已經堅定地認為視覺未來一定是往3D走的,后來隨著深度學習受到廣泛關注,單羿在深鑒、賽靈思、AMD時還一直有一個小團隊堅持用AI來做立體視覺。
2020年用AI做雙目攝像頭有了突破,當時單羿在AMD,他發現賽靈思的汽車用戶 Continental 跟斯巴魯提了同樣的需求——用 AI 去做立體視覺,他才意識到這件事兒必須要做,而且是件大事,能夠替代激光雷達,所以單羿便出去創建了鑒智機器人。
通過三菱重工項目,單羿從最初想要用芯片去加速機器學習,慢慢才發現計算機視覺的算法也是機器學習,做搜索引擎的算法也是機器學習,所以他認為用芯片去加速機器學習是很多領域都需要的,這是一個很重要的事情。
后來他又思考能否用更多的資源去做虛擬化的加速,便引出了在博士期間做的第三個項目:單羿博士最后一年在IBM研究院實習,這期間他發了一篇有關“機器學習的芯片在云端虛擬化”的文章,被引用很多次。
單羿是第一個開始思考做這件事的人。
他結合OpeStack框架,把FPGA芯片的加速器在云端虛擬化了,這樣多個用戶就能共享該虛擬的加速器。
2014年博士畢業后他便加入了百度IDL異構計算團隊,跟著吳韌進入互聯網,當時百度還跟英特爾有合作,正是把FPGA 放在云端去加速Deep Learning算法。
劉文志、顏深根、單羿是國內最早跟著吳韌把深度學習跟異構計算結合起來的那批人。
隨著劉文志、顏深根、單羿三個主力就位,后面黨青青、孔暢、孫剛也陸續加入,吳韌的異構計算團隊初顯雛形。
黯淡離場
2014年,百度在AI的布局越來越廣,4月百度成立了大數據實驗室(BDL),5月百度在美國加州的科技大本營成立了硅谷人工智能實驗室(SVAIL),將自家研究院建到谷歌旁邊的同時,還挖了谷歌大腦的聯合創始人吳恩達。
此次百度深入硅谷,正是為了與谷歌在AI上一較高下。
深度學習研究院改為深度學習實驗室(沿用“IDL”的名稱),百度研究院也正式組建起來,研究院當時包括IDL、BDL和SVAIL。
在硅谷的人都了解吳恩達,他在人工智能領域是公認的領軍人物之一。成為百度首席科學家之后,吳恩達將全面負責百度研究院,并與百度在北京的研究人員展開緊密合作。
在百度成立深度學習研究院,將AI確定為重要戰略方向時,百度的技術體系老大王勁就一直在全球尋覓一位AI領軍人物,此次吳恩達加盟百度,王勁是幕后至關重要的操盤手,而吳恩達的匯報對象也正是王勁。
但也有一種說法是請吳恩達是余凱的主意,兩人曾是舊識。
隨著吳恩達的加入,百度研究院聚齊了一眾高手,包括王勁、余凱、吳韌……
但很快吳韌的異構計算團隊面臨了一次分崩離析的危機。
2015年6月,百度在ImageNet國際計算機視覺挑戰賽(ILSVRC)中超額提交行為暴露,國外技術媒體紛紛借機報道,稱百度在超算比賽中作弊。
輿論壓力下,百度隨后承認了違規行為,并就此事道歉和調查。一周后百度公布事件的調查結果,開除此次參賽的異構計算團隊負責人吳韌。
在當時百度研究院負責人吳恩達發布的公開信中,承認吳韌在挑戰賽中曾指示初級工程師們每周進行超過2次的提交,違反了ImageNet規定。解除吳韌之后,百度異構計算5人團隊由前Facebook資深科學家徐偉帶領。
吳韌被迫出局,手下的成員也大部分跟隨吳韌就此離開百度,一個中國異構計算的夢之隊就此解散。
但當年的真相也許并非如外界大肆報道的那樣。據了解:
首先,當時ImageNet官網上寫的是一個賬號每周最多提交兩次,但并沒有規定一個團隊只能注冊一個賬號,所以吳韌團隊的行為屬于無心之失,更達不到作弊的程度。
其次,這段時間的結果并不是真正意義上的參賽結果。當時2014年ILSVRC比賽結束后(百度并沒有參與),ILSVRC比賽主辦方允許各個研究團隊繼續上傳結果到服務器上,但這個結果不會被主辦方收錄到官方網站上,各個研究隊伍都會利用兩次競賽之間的時間上傳結果來驗證最新的研究和工程方案,真正2015年的ILSVRC比賽還沒開始。
當年也有參賽者指出,這就好比百米賽跑,ILSVRC是奧運會,各選手平時提交的是訓練成績,然后選擇最好的一次訓練成績公布給大家,但吳韌團隊身體素質好所以比別人多跑了幾次訓練賽。即吳韌團隊搭建的異構計算平臺比別人的大,所以可以在有限時間里跑很多次。但實際上比賽成績和跑多少次其實關系并不大,更重要的是算法本身是否有效,就像一個上限是13秒的運動員跑一千次可能也進不了10秒。
湯曉鷗當年也曾公開為吳韌發聲,批駁“作弊”一說。
在湯曉鷗看來,吳韌的異構計算團隊其實具備了與世界一流研究機構進行競爭甚至在某些技術點上領先的能力。他們的計算平臺能夠在五天之內提交40次的試驗結果,也從側面反映了他們的系統優勢。而從百度披露信息表明,參賽團隊成員都是高性能計算背景,并沒有實際的計算機視覺的研究經驗,才會導致對規則的誤解。
“這次事件的發展很是不幸,我相信造成的原因更多是誤解,然后被媒體過度放大。吳韌的工作是令人欽佩的,而目前部分媒體的報道有失公允。”
多年以后,再看當年的異構計算團隊、他們做過的事情,吳韌當時能組建這樣一個團隊,而團隊里的每個人都有所長,能力相互補足,還是很有遠見的。畢竟當時谷歌和Facebook都沒有想清楚要怎么做,國內也沒有這樣的團隊,全球都很少有。
更何況,深度學習跟高性能計算結合本身就是 AI 領域非常重要的創新。
或許,如果吳韌能在百度再多待兩年,百度或中國的 AI 發展歷史還有可能會被改寫。
各奔前程
多年以后,再看吳韌當年在百度IDL異構計算團隊的學生們,初出茅廬時每個人各有千秋但都青澀稚嫩,在吳韌的號召下組成了一支中國異構計算的夢之隊,而這支隊伍在吳韌的領航下正式駛入深度學習深水區。團隊設計的敏媧超級計算機,也點燃全球AI算力的軍備競賽!
當年,吳韌團隊在敏媧設計中并沒有采用當時英偉達自己的NVLINK,而是堅持NUMA 架構下GPU加 InfiniBand 網絡的設計,這也為英偉達后來全資收購InfiniBand技術的擁有者以色列Mellanox公司埋下伏筆。今天,英偉達GPU和InfiniBand網絡也已經成為AI算力的核心。
時至今日,距離百度IDL成立近十年之期,當年吳韌在百度的學生們已經全部成長為國內一線AI創業公司的中流砥柱,每個人都已成長為AI infra領域非常厲害的人物:
劉文志歷經商湯、華為,負責開拓過多條AI業務線,磨練多年后,如今創立了國產智能駕駛OS公司足下科技;
顏深根在商湯磨礪七年,幫商湯搭建了上萬張卡的集群,今天闖入大模型創立公司“無問芯穹”;
單羿創業深鑒科技兩年后賣給了當時全球第一大FPGA廠商賽靈思(Xilinx),現在又投身于做自動駕駛方案解決商鑒智機器人;
黨青青成為百度深度學習架構Paddle Paddle(飛槳飛槳)團隊主力;
孫剛作為聯合創始人的 Momenta 已經躋身國內自動駕駛算法公司第一梯隊……
出走百度的幾人,慢慢都找到了自己的人生方向。
52歲的吳韌并沒有就此沉淪,回到硅谷后創立了 NovuMind異構智能,一家專為行業提供ASIC芯片+訓練模型的全棧式AI解決方案的AI公司,很快便獲得了1500萬美元的A輪融資,估值達到1億美元。
其他幾人則分散在今天幾家老牌AI公司里面,那時它們還都屬于剛創業的嬰幼兒階段,急需年輕的血液補充。所以他們幾人又零距離見證了中國過去十年中這些AI公司的興衰成敗,而且每個人都置身其中,有的人還親自參與掌舵。
(接下來將推出《曠視創業十年的艱辛與無奈》一文,歡迎添加作者微信 zzjj752254 交流。)
在2014年,大量初創的人工智能公司集中出現。此后,隨著資本進一步加持,全球范圍內“Al”熱潮不斷迭起。后來的AI四小龍曠視、依圖、商湯、云從都是在這個時間段先后出現。
劉文志早于吳韌、顏深根、單羿他們離開百度,出去后他拿到了格林深瞳、曠視、商湯的offer。
最后他選擇了商湯,因為他非常相信湯曉鷗。
在商湯,劉文志做出了很多成績,例如和林達華一起推動并建立了深度學習訓練框架Parrots,以及推動推理引擎PPL,PPL亦成為商湯各項業務的技術基石。
2015年,劉文志把深度學習做到手機和攝像頭上,是商湯內部最早將深度學習訓練和推理分開研究的先行者;此外,他也是商湯智能汽車業務的創始成員之一,協助定義了商湯智能汽車產品和組織體系,確定 DMS、OMS、ADAS和AVP等產品,建立ASPICE流程體系,拿下多個重要汽車客戶。劉文志當年力推的DMS,如今已引領中國市場。
劉文志加入商湯時是抱著跟商湯共進退的想法,在商湯幾次生死攸關的關鍵時刻,他都發揮了重要作用。
例如,商湯第一次在人臉識別上跟曠視“干架”、并取得超過曠視的成績,就是劉文志、曹旭東和楊帆三個人聯手的成績,劉文志負責大規模的訓練平臺,曹旭東做AI算法,楊帆指揮人標數據。
但劉文志最大的作用應該是提醒湯曉鷗一定要搶占人臉識別在手機上的這個戰場。
當時曠視吳文昊率先布局手機端的人臉識別,而商湯在這件事上一直猶豫不決。劉文志知曉后,便分析現狀:如果手機的人臉識別全是曠視的技術,那么以后所有人都認為中國人臉識別技術是曠視最強,商湯發再多論文都沒用,用戶根本不會去看商湯有多少技術、有多少研究人員,只看手機中實際用到的技術來自于誰。
“如果手機的人臉識別被曠視占據了,商湯就不戰而敗了。”第二天商湯就讓王曉剛帶隊負責手機端的人臉識別。
還有一次是給本田的項目救火,就著本田項目的機會,劉文志開始把商湯的汽車業務拉了起來,成為商湯智能汽車業務的開拓者。
從商湯出來后,劉文志加入了華為,2020年出任華為諾亞AI系統工程實驗室主任,管理一個規模達一百多人的技術團隊。
他在華為研發的Bolt產品為華為手機提供算力支持,研發的Vega作為計算產業的關鍵組件為模型生產提供支持,參與領導了華為NLP大模型和搜索大模型的研發攻關,同時和海思相關團隊一起優化AI芯片軟件算法。
劉文志在華為的導師是王丙福,華為的5G之父,他非常感激王老師給他的幫助,讓他成功度過在華為的那些關鍵節點。
在華為干了2年8個月,出來后劉文志創立了足下科技,做國產智能駕駛操作系統。
而2015年經歷ILSVRC風波后,顏深根去了商湯,單羿加入了地平線,黨青青選擇留在百度,后來成為百度深度學習框架PaddlePaddle的研發主力。
顏深根加入商湯時,商湯才100多人。他是聽了孫剛的建議才下定決心加入商湯。
兩人都曾在中科院軟件所,同一個實驗室,同一級。顏根深比他早一年畢業,那時孫剛在微軟亞研孫劍團隊實習,顏深根去了百度IDL后,孫剛后來也想去IDL,經過顏深根對吳韌的極力推薦,孫剛才得以進去實習。
畢業后,孫剛跟著曹旭東去了商湯,兩人相識于微軟亞研,都在孫劍團隊。
聽了孫剛的建議,顏深根加入商湯,任數據與計算平臺部執行研究總監,負責搭建大規模高性能AI計算平臺和深度學習訓練框架,兩人再次成為同事。
顏深根團隊跟曹旭東團隊有合作,一個負責系統,一個負責算法,而孫剛是曹旭東團隊即懂算法又懂系統的人。
2016年,孫剛跟著曹旭東出去創立了自動駕駛公司Momenta,孫剛代表Momenta在ImageNet 2016中獲得場景分類亞軍,ImageNet 2017中獲得圖像分類冠軍。
在商湯七年,顏深根共經歷了三個階段:15年-16年從0開始,把團隊帶來起;17-18年穩定發展;19年之后開始擴大規模。這也符合商湯本身的發展。
在商湯,顏深根主要負責推動了三件事:
一是搭建了商湯的AI大裝置SenseCore。剛加入商湯時,每個算法同學的桌子下都放著一個臺式機,在上面做模型訓練,還是單機的訓練。顏深根進去第一年便搭建了第一個深度學習集群,由于他在百度已經搭建了128張卡,商湯就說要超過百度,最后搭了一個200張卡的集群。七年里不斷擴大,2022年顏深根離開時商湯已經有了差不多2萬張卡,從200張卡的集群變成了2萬多張卡的數據中心。
二是幫助商湯跟大學建立合作。創始團隊是CV背景,沒有高性能計算和系統背景,所以早期商湯要招聘相關人才,其實很難,也因為當時國內確實沒有什么這方面的人才。顏深根便負責幫商湯在系統領域跟高校建立合作,包括清北上交、南洋理工、中科院計算所等等。均是以項目的形式合作,學校提供學生,商湯給項目。
三是給商湯創收。顏深根負責搭建的計算平臺是業內比較前沿的,然后商湯把該計算平臺做成一個產品對外輸出,這塊給商湯帶來了上億的收入。
從商湯出來后,顏深根加入互聯網公司小紅書擔任AI平臺部負責人,但只干了兩個月就離開了,此時大模型風頭正盛,他覺得這是一個不可錯失的機會,便決定創業。
后來通過單羿,顏深根了解到汪玉也準備進軍大模型,于是兩人一拍即合決定合作,創立了大模型公司無問芯穹,目標是打造大模型軟硬件一體化最佳解決方案。
而單羿從百度出來后,選擇加入余凱創立的AI芯片公司地平線。
其實一開始余凱并沒有找他,從百度出來后,15年冬天余凱跑到硅谷去為自己的新公司挖人,當時他想找一個既懂深度學習又懂芯片實現的人,但問了一圈都沒找到合適的,因為這不是做芯片的事情,是一個高性能計算的事情,當時硅谷那幫設計芯片的人沒幾個懂深度學習。
后來謝源告訴余凱可以找單羿,余凱這才知道單羿在百度IDL的工作。謝源算是單羿的祖師爺,因為汪玉的博士導師其一就是謝源,而汪玉又是單羿的博士導師。
余凱一開始還不相信單羿的能力,問謝源這人能行嗎,謝源說除了單羿他可能再也找不到更適合的人了。
就這樣單羿成為地平線前十號員工,是其中唯一一個知道怎么把算法芯片化的人。
在地平線,單羿做了一個人臉檢測的算法加速,黃暢當時做算法的訓練,單羿負責把它翻譯成芯片的代碼。黃暢曾在百度深度學習研究院主任架構師,是余凱的下屬,2015年跟著余凱出來共同創立了地平線。
在地平線一段時間后,單羿有了自己創業的想法,于是和汪玉、姚頌、韓松一起創立了AI芯片公司深鑒科技。
沒想到很快受到國際大廠青睞,被收購了。
16年10月深鑒科技成立,2018年深鑒科技便以3億美金的價格賣給了美國芯片巨頭FPGA賽靈思,在業內引起一片轟動。
賽靈思收購深鑒是蓄謀已久,因為當時它想用AI跟英偉達競爭,補充自身AI能力最快速的辦法就是收購一個AI公司,當時全世界范圍內的標的不多,而深鑒是最大最早的團隊。完成收購后賽靈思便以深鑒為核心搭建了自己的AI體系。
當時,深鑒獲得了三星、賽靈思、聯發科國際資本的戰略投資,還量產了國內首批AI芯片-聽濤(28nm),拿到了GM、斯巴魯、TOYOTA等很多POC(這些POC也讓賽靈思看到要在汽車領域去做智能化,做自動駕駛,深鑒是最好的選擇),一切都在向好發展,為什么決定被收購呢?
2017年底,單羿跟汪玉談賽靈思收購的事情,他認為靠他們自己不一定有能力把AI芯片商業化,必須借助大品牌的力量。
如果自己做商業化面臨最主要的問題是:客戶在哪里?中國客戶都想自己做,海康、BAT都在自研芯片,那機會只可能在海外,被賽靈思收購便是進入海外市場的最便捷途徑。
作為團隊的負責人,單羿先隨著深鑒打包進入賽靈思,后來又跟隨賽靈思被收購進入了AMD。
第一次被收購后,單羿帶著100多人去了研發線,剛進去時他跟賽靈思CEO聊,想要300個人做端到端的解決方案,但是賽靈思沒同意,說他們是賣芯片,不是賣解決方案,不能搶客戶的生意。
到了AMD,四年后單羿的團隊終于達到了300人,但也花了三年時間。
而且這300人不只是做自動駕駛,還負責很多方向,包括汽車、工業、醫療、數據中心、筆記本、游戲,單羿想做的事情在賽靈思始終都沒能實現,這也導致他在賽靈思、AMD認清了一個現實——Founder(創始人)跟職業經理人是不同的。
“創始人能決定整個企業的走向,正如英偉達在很多關鍵節點做出了更迅速果決的選擇,因為黃仁勛不僅僅是CEO,還是創始人。”
在外企的四年,單羿的商業愿景一直沒能得到完全滿足。因為他被定位成一個研發的負責人,而不是一個BU的負責人,除了研發之外,他期待能主導技術-商業-資本的完整鏈路,從而改變行業。
所以2022年單羿成為自由身后,便跟百度IDL、地平線的同事都大龍一起創立了鑒智機器人,主打以視覺3D理解為核心的下一代自動駕駛方案。
這一次,他終于能再次以Founder的身份引領一家公司,在自動駕駛領域一展宏圖。
單羿希望能親自掌舵一家AI公司,他期待能用AI改變世界,改變整個汽車行業,在當前很多人并不相信AI能改變世界的環境里:
All in AI,這點很重要!
后記
吳韌一直有一個沒有實現的夢,就是做職業攝影師。閑暇之余他喜歡帶上相機,去戶外觀察、捕捉大自然的奇妙瞬間。
他最愛拍的是猛禽,因為猛禽是一種掠食性動物,處于食物鏈頂端,它們行動起來快如閃電。
從猛禽的存活之道中吳韌感受到了大自然的殘酷——生存,需要速度!而吳韌的一生也一直游走在時代的前列,吳韌認為這得益于自己總能站在更高更大的維度去看待周遭世界。
2014年,吳韌懷揣著做超級計算機的夢,從硅谷回來加入百度,在他的一生中,從1986年編寫出了中國大陸第一個中國象棋程序時,他便一直篤信計算能力的重要性。
他曾說過,當計算能力足夠強的時候,人工智能就會獲得人類右腦的能力——直覺。
2014年,吳韌曾在GTC大會上首次提出兩個公式“大數據+深度學習+高性能計算=更高智能”, 和 “大數據+深度學習+異構計算=成功”公式。
不曾想十年后,OpenAI踐行著“大數據+強算法+大算力”訓練出了GPT大模型,人工智能第一次涌現,世界因此迎來狂歡。
吳韌無形之中成為大模型的暴力美學早期推動者之一。
(正是有了如文中他們在AI Infra的探索與貢獻,中國的AI事業才能站在前人辛苦打下的地基上持續前進,誠如今天的大模型,不日將推出《智譜狂飆365天》一文,揭秘中國這家最像OpenAI的大模型公司“智譜AI”在過去的2023年的崛起史,在OpenAI、Google、Meta、Anthropico、Mixtral等一眾海外公司引領了大模型的今天,看智譜如何摸索出中國大模型的一條路,歡迎添加作者微信 zzjj752254 來聊。)
算力作為大模型的基礎設施,支撐著算法和數據,進而影響著AI領域的發展,今天,AI算法模型對于算力的巨大需求,推動了芯片業的發展,算力的重要性日益凸顯。在當前大模型創業中,甚至有著“得算力者得天下”的趨勢。
而當年因為吳韌或者說是百度的超級計算機夢,讓劉文志、顏深根、單羿、孫剛……這幾人相聚在百度IDL異構計算團隊。
這位一直致力于站在更高更大的緯度去看周遭世界的老人,如今已是花甲之年,雖然當年的超級計算機事業中道折戟,但他在AI領域的超前認知一直影響著這些學生,今天,他們全部都成為高性能計算、AI領域的佼佼者,有些人的風采甚至橫跨整個AI領域。
未來,吳韌在高性能計算領域那些未實現的夢,還等待著他的學生們繼續去豐滿。
數風流人物,還看今朝。
參考資料:
【獨家對話】從游走世界知名公司到創辦Novumind,吳韌如何練就頂級計算科學家本色?丨Xtecher 封面
關于 AI Infra,更多行業交流歡迎添加作者。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。