華為方舟實驗室計算機視覺CTO田奇:大算力大數據時代六大前沿CV探索
在剛結束的2019國際智能科技峰會上,華為諾亞方舟實驗室計算機視覺首席科學家田奇教授發表了以《大算力大數據時代的計算機視覺前沿探索》為主題的演講,并且在隨后的媒體溝通環節發表了自己對于AI算法、數據、算力等方面的觀點。
自2018年6月份底加入華為諾亞方舟實驗室,并擔任計算視覺首席科學家,田奇教授便一直主導諾亞方舟實驗室視覺方向的前沿研究,構建華為在各視覺業務下的算法競爭力和護城河。然而田奇教授和華為諾亞視覺實驗室成員一直都非常低調,媒體曝光率較少。華為諾亞視覺實驗室具體的研究方向和最新進展等相關信息也難以從網絡上獲得。
下文結合田奇教授在大會上的演講以及媒體溝通會上所交流的觀點,分別從諾亞方舟實驗室在計算機視覺領域的主要研究方向、相關研究成果、以及田奇教授對于人工智能產業發展的觀點等角度展開介紹,對華為諾亞方舟實驗室正在開展的工作帶來多角度的詮釋。
諾亞方舟實驗室六大CV研究方向及相關挑戰
目前,華為擁有著超過18萬名員工,在全球170多個國家經營業務,2018年營收額高達1085億美元,并且成功躋身財富500強第72位。在華為高速增長的企業財富以及超強的業務布局能力背后,最為關鍵的一股力量莫過于華為遍布全球各地的14個研發中心。
作為華為的AI研究中心,華為諾亞方舟實驗室便是這14大研究中心當中不可或缺的一員,同時也承載著華為打造世界頂級人工智能實驗室、幫助公司以及整個產業實現AI戰略轉型的宏偉使命。
以田奇教授為代表的AI研發人員主要專注于諾亞方舟實驗室計算機視覺領域的研究。據田奇教授介紹,諾亞方舟實驗室在計算機視覺領域的研究主要分為六個方向,它們分別是:底層視覺、3D視覺、語義理解、數據生成、視覺計算、視覺與多模態的融合。
第一個研究方向是底層視覺,該部分的研究課題主要致力于提升拍照體驗。目前低分辨率和噪聲是影響拍照體驗的重要因素,雖然對已拍攝的照片進行超分和去噪可有效提升用戶體驗,但是也存在噪聲統計特性難以估計、多重處理后原始圖像和噪聲難以恢復、圖像退化模糊之后還原難等缺點。
第二個研究方向是語義理解。圖像視頻內容中通常包含著非常豐富的語義信息,諸如扔東西、偷竊等個體行為以及聚會、斗毆等群體事件。因此,語義理解技術的發展能為平安城市、終端視覺等業務帶來巨大的商業價值。但目前相關技術的發展也存在一些挑戰,一方面,同類事件之間的不同表現行為不易辨識;另一方面,不同場景當中的相似行為可能代表的語義不一致。
第三個研究方向是3D視覺。相較于二維數據來說,三維數據中蘊含著更為豐富的信息,因此也被一致認為是計算機視覺的未來。但是三維視覺發展也面臨著眾多挑戰,以醫療影像為例:醫療影像的數據標注需要極為專業的知識,在大數據時代,獲取具有精準標注的醫療數據困難且昂貴;此外,醫療影像當中區分正常樣本和不正常樣本難度較大,譬如需要對一些器官病變的細微之處進行識別。此外,視頻數據當中存在大量的冗余信息,如何從這種海量的冗余信息中挖掘出有用的信息也是一個很大的挑戰。
第四個研究方向是數據生成。豐富的數據是算法研究的保障和基石,但是在實際場景當中,由于版權和隱私等限制會導致數據獲取難度大、人工標注成本高等問題。如何通過低成本的方式獲取實用的數據已經成為了行業發展的重中之重。通過現有的數據生成技術生成的數據大多存在圖像質量差、同質化現象嚴重等問題。
第五個研究方向是視覺計算。視覺計算是深度學習應用落地非常重要的一環,現在行業內有兩個研究比較多的課題方向:一個是現有網絡模型的壓縮與加速,另外一個就是自動搜索新的網絡結構。由于目前邊緣計算的算法相對獨立,行業缺乏統一的平臺,調用極其困難,而且行業內更缺乏一些針對特定視覺任務的網絡壓縮與加速算法,這導致了這一課題研究方向存在巨大的挑戰。此外,現在神經網絡人工構建策略費時費力,雖然網絡結構搜索能夠在一定程度上解決這一問題,但是其在算法和效率上仍有較大的進步空間。
第六個研究方向是視覺與多模態。真實世界中的數據存在語音、文字、圖片、視頻、雷達激光等不同的模態形式,不同模態的數據在計算機世界之中的相互轉換已經成為了一門專業學科。目前融合多模態信息的方案往往面臨數據異質性問題,即不同模態的信息難以統一表示;此外,評估多模態數據之間轉換性能的準則比較主觀,不能很好地進行客觀評價。這些方向正是需要行業加大研發力度的地方。
五大CV技術創新,田奇團隊的行業“藥方”
聚焦于計算機視覺研究的六大方向,面對行業提出的挑戰以及新的難題,田奇教授及其團隊成員積極攻克難關,通過新的算法以及求解模式給出了新的行業藥方——諾亞方舟實驗室給出了在神經網絡結構搜索(NAS)、目標檢測、行人再識別、網絡壓縮、三維物體檢測等方面的技術解決方案,并取得了優于行業的突破性創新成果。
在神經網絡結構搜索方面,現有方法的搜索網絡與測試網絡存在較大深度差異。如CMU和DeepMind聯合提出的DARTS方法中,搜索網絡只有8個單元,但是測試網絡有20個單元。然而,在較淺的搜索網絡中搜索到的結構不一定適合較深的測試網絡。如果直接增加搜索網絡的深度,又會導致顯存爆炸的問題。對此,華為提出一種新的網絡搜索方案。據悉,目前華為這一方案搜索到的網絡結構在CIFAR10測試得到2.55%的錯誤率,遷移到ImageNet上在移動設置下得到24.5%的Top-1錯誤率。這種新方法同時極大地降低了搜索開銷:相較于在ICLR 2019上發表的工作DARTS(搜索時間需要4GPU天),的新方法搜索過程僅需0.3GPU天,卻能得到更好的性能。
作為計算機視覺非常基本的技術,目標檢測對大量應用都有著廣泛的影響力。目前的物體檢測框架主要分為單階段方法和兩階段方法,前者速度更快而后者精度更高。目前最好的單階段檢測方法基于關鍵點的檢測,并且通過角點的組合,確定目標框。但是這種方法很難感知物體內部的信息,導致網絡生成很多的錯誤目標框。為此,華為提出了一種借助物體中心點去檢測物體目標框的方法,引入一個中心關鍵點,以篩選檢測出的目標框。如果待定的目標框的中心區域包括某個物體的中心點,則該目標框即為可能是正確的目標框,否則該目標框將被去除。實驗結果表明,在目前最具挑戰性的MS-COCO數據集上,該方法超過了所有已知的單階段檢測方法,并大幅度領先,領先幅度至少達到4.9%,幾乎達到當前最好的兩階段檢測方法的準確率。該方法目前已開源,并且獲得了業界同行大量關注。
行人再識別技術在平安城市、智慧園區等領域有著廣泛的運用。當前行人重識別數據標注方法存在著標注難、成本高等問題,為此,華為提出新的行人重識別解決方案來大幅降低標注成本,使得能夠在新場景中快速部署行人重識別模型。從實驗結果來看,華為的行人再識別技術,在弱監督場景下的準確率得到了顯著的提升。
網絡壓縮對端側設備上的應用具有重大價值。目前業內在不損失精度的情況下可達到數倍的壓縮加速比,但是由于隱私、法律、傳輸等方面的原因,用于壓縮訓練的數據常常不可獲得,進一步提升了該問題的難度。華為在沒有原訓練數據的情況下,采用生成網絡提供訓練數據,設計損失函數來得到和真實圖片達到相同近似分布的數據用于訓練,并做網絡壓縮。從得到的結果來看,在MNIST上,對LeNet-5架構的壓縮可以保持98.2%的準確率,超越之前最好的算法6%,接近使用真實數據的壓縮算法所獲得準確率。
對于可廣泛運用于無人駕駛當中的三維物體檢測而言,遠處物體二維圖像上很小的位移量便會導致三維空間上巨大的偏差,但是已有的算法很難達到非常高的三維覆蓋率。華為提出利用強化學習方法來進行軸向矯正。從實驗結果來看,在KITTI鳥瞰圖評估和三維物體檢測數據集上,華為提出的方法相較于當前最好算法Mono3D和Deep3DBox性能提升了6%左右。
深度學習仍在進步,算法與算力是相輔相成的
在演講結束后的媒體溝通環節,田奇教授介紹了相關技術以及研究在具體場景當中的運用,并且發表了自己對于算力、算法等方面的看法。
基于華為昇騰芯片,華為數據生態等多方面的資源支撐,田奇教授帶領諾亞方舟實驗室相關人員在計算機視覺多個領域開展研究,并最終將一系列研究成果運用于包括手機終端、智慧醫療、平安城市、安防、數字娛樂等實際的場景當中。田奇表示:“我們主要致力于通過我們的創新研究,使機器具有感知和理解周圍世界的能力,并最終實現我們的商業價值。”
最近一段時間以來,深度學習技術發展緩慢或者到了一定瓶頸的說法也一度成為各界人士討論的話題。在田奇教授看來,前兩年深度學習火熱起來其實與之前的長期積累分不開,只不過是大家到了爆發的階段才關注而已,目前深度學習也依然在不斷地發展和進步。
由于算力的提升,人工智能技術的發展也取得了巨大的進步。目前業內出現了AI發展該重算力還是重算法的討論,田奇教授針對這一問題闡述了自己的觀點,其本人表示:“在終端的運用上,算力的提升為大量的算法以及數據運算提供了便利,使得更多的算法有了用武之地;同時,超大型算法的訓練與求解又依賴于算力的發展。然而,沒有較好算法的提出,算力的價值也無法體現。算力就像電、而算法就像發明的電燈泡一樣。所以單純的算力至上或者是算法至上的說法都是錯誤的,算法與算力的關系其實更是一種交替融合、相輔相成的狀態。只是從學界和產業界來看,目前高校里面更注重算法的研究,而企業界因為具備大量的算力,于是相對更傾向于對算力的依賴。”
相關推薦
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。