可持續(xù)發(fā)展的人工智能
微軟亞洲研究院副院長劉鐵巖
可持續(xù)發(fā)展是一個非常重要的主題,無論是環(huán)保、健康、能源和材料,都與人類的生存和發(fā)展息息相關。隨著工業(yè)的發(fā)展和科技的進步,我們看到大氣、水質、土壤受到了嚴重的破壞和污染,維護生態(tài)平衡、保護自然環(huán)境,確保社會的可持續(xù)發(fā)展已經成為人類生存發(fā)展的根本性問題。一直以來,微軟在環(huán)保、節(jié)能方面投入了大量精力,而利用AI等技術解決環(huán)保、能源問題,實現可持續(xù)發(fā)展,也是微軟亞洲研究院的一個重要研究課題。
人工智能助力環(huán)保,潛力巨大
提到環(huán)保,大氣污染治理是其中一個主要方向。此前,微軟承諾到2030年實現負碳排放,到2050年,消除微軟自1975年成立以來的碳排放量總和,包括直接排放或因用電產生的碳排放,立足于科學和數學,為微軟的碳足跡負責。同時承諾未來四年內投入10億美元設立一項氣候創(chuàng)新基金,幫助加速全球碳減排、碳捕獲和碳消除技術的發(fā)展。
現階段一些大氣污染治理方式取得了不錯的效果,不過在精準度方面還有待進一步提高,不然很容易導致大氣污染治理和經濟發(fā)展之間產生難以調和的矛盾。而實現精準的大氣污染治理,面臨兩個挑戰(zhàn):首先,要知道當前各個地區(qū)具體的污染物排放情況,構建一份詳細的排放清單;其次,要了解針對某一類特殊排放物或者污染源進行處理之后,它們在多大程度上、會以何種方式去影響最終空氣的質量。
兩個問題看似簡單,實現起來并不容易。以排放清單估計為例,由于污染排放源復雜且不斷變化,我們需要理解各種排放物在各個地區(qū)每小時的變化,但又無法在每個排放源旁都擺放一個傳感器,去采集細粒度、高精度的排放數據。因此當前的排放清單估計,嚴重依賴于專家根據宏觀經濟信息進行排放普查,費時費力,缺乏精度保障。據專家估計,該精度只有60%左右。
排放估計機器學習模型:誤差降低65%
利用人工智能、機器學習技術自動估計精確的排放清單,可以節(jié)省大量人力成本,并且為決策提供更及時、有力的支撐。
首先,我們來構建一個機器學習模型,從大氣的污染物分布出發(fā),去預測排放清單。通常我們會需要大量訓練數據,這些數據需要包含不同類型的大氣污染物分布所對應的排放清單,但這正是我們要通過AI去解決的問題,因為現實中我們無法采集到細粒度、高精度的排放清單,訓練數據在這里出現了 雞生蛋、蛋生雞 的尷尬局面。
利用人工智能實現排放清單估算
我們注意到,這個問題的背后有一個反向問題,我們可以從排放清單出發(fā),通過推演獲得大氣中污染物的分布,這個問題的難度則要低得多。這里剛好可以用到微軟亞洲研究院近年來所提出的 對偶學習 思想。利用對偶學習,從大氣污染物分布出發(fā),經過排放清單,再回到大氣污染物分布,形成學習閉環(huán),我們就可以利用對大氣污染物預測的誤差,來驅動整個學習過程,最終獲得排放清單估計模型。
事實上,在環(huán)境科學領域,從排放清單推演出大氣污染物的分布,已經有一個被廣泛使用的系統(tǒng),叫做化學輸送模型(CTM),我們可以把CTM當作對偶學習閉環(huán)中的一環(huán),來實現學習過程。不過CTM系統(tǒng)有個小問題,它是一個離散系統(tǒng),不可求導,因此我們提出構建一個連續(xù)可導的函數,用它來逼近CTM系統(tǒng)。考慮到CTM中有非常復雜的化學反應,以及時空的對流擴散等過程,我們選用了一個相對復雜的復合神經網絡來實現。在該網絡里,我們用CNN實現了對地理位置的編碼,用LSTM循環(huán)神經網絡對時域信息進行編碼,用U-Net實現對空間信息的建模。
在過去的一年,我們與清華大學的科學家一起,基于1500個觀測站點的排放數據,評測了排放估計模型。實驗表明,相比之前的專家估計,機器學習模型不僅節(jié)省了大量的人力成本,還把相對的估計誤差降低了65%,極大提升了排放清單估計模型的精度。
排放估計模型實驗結果
一次CTM仿真,即可獲得精準的大氣化學反應曲面
當有了相對準確的排放清單估計之后,下一個問題就是,基于這個清單對其中的某種排放物或污染源進行控制,最終會如何影響大氣污染物的分布?如果每一次排放控制都經過一次CTM仿真才能獲得大氣污染物的變化,那幾乎要窮舉所有的排放狀況,才能全面掌握這個問題,這顯然不可行。
人們通常采用基于采樣的近似曲面估計方法去構建大氣化學反應的曲面,可以有效降低CTM仿真的復雜度,但這個曲面的精度和構建曲面時所需要的樣本點數目密切相關,而在實踐中想得到一個相對細致的大氣化學反應曲面,通常要采集幾百萬個樣本點,其中的運算復雜度非常高。
微軟亞洲研究院和清華大學合作研發(fā)了全新的方法,只需要經過一次CTM仿真就可以獲得精準的大氣化學反應曲面,這個算法背后的特別之處在于我們對于大氣化學反應機理的深刻認識。大氣中化學反應通常是可逆的,而且生成物的濃度與反應物濃度之間存在一定的定量關系。這個關系與只依賴于外部條件的一個化學平衡常數K有關,還與一個反應關系函數R有關。因此,我們不需要對每種反應物的濃度進行CTM仿真,只需要在一個基準濃度的CTM仿真基礎上,在外部條件不變的前提下,利用這個反應關系函數R直接估計出各種情況下生成物的濃度。在實際操作中,我們用神經網絡來對反應關系函數R進行建模,再用一定量的訓練數據去學習這個神經網絡的參數即可。
預測誤差從4.1%下降到2.5%
由于傳統(tǒng)基于采樣點來逼近化學反應曲面,會受到采樣點數目的限制,無法實現完全精準的曲面擬合。而我們的方法利用大氣化學反應的本質規(guī)律,不存在采樣點帶來的近似誤差。通過測試,新方法不僅節(jié)省了用于CTM仿真的大量計算資源,而且在預測精度上還將相對誤差降低了近40%。目前,該研究成果已經發(fā)表在環(huán)境科學領域頂級期刊《環(huán)境科學與技術》上,并已被應用于大氣污染治理的實戰(zhàn)。
關注AI背后的能耗,算法可以更精巧
人工智能是一把雙刃劍,一方面它可以幫助解決可持續(xù)發(fā)展所面臨的問題,如前文提到的大氣污染與能源損耗,另一方面,人工智能模型的訓練本身也要消耗大量資源。近些年人工智能領域有一個令人擔憂的現象,就是所謂大力出奇跡 人們過度依賴大模型、大數據去解決人工智能的精度問題,這不可避免要消耗大量能源。
例如,圍棋選手AlphaGo在戰(zhàn)勝人類世界冠軍的背后,是上千塊CPU和上百個GPU的消耗;自然語言預處理技術Bert背后需要幾十個TPU的支撐,才能夠完成一個有效的訓練;用于圖像生成的大規(guī)模對抗生成網絡也要消耗幾百個GPU。每一個人工智能系統(tǒng)本身,就是資源消耗大戶,AI自身的可持續(xù)發(fā)展問題又該如何解決呢?
作為研究人員,我們不禁自問:人工智能要發(fā)揮威力,一定需要消耗巨大的計算資源嗎?過去的5年里,我們基于這樣的思路,開發(fā)了一批高效實用的低功耗人工智能技術,包括讓計算復雜度與主題數目無關的高效主題模型LightLDA,只需300個CPU內核,就訓練出了比以往要用上萬個內核才能訓練出的模型還要大若干數量級的新模型;速度快、準確率高、內存要求低、分布式支持還可輕松快速處理海量數據的LightGBM算法,實現了比市場上最好的梯度決策樹算法還要快一個數量級的新算法;兼具快速、魯棒、可控等優(yōu)點的語音合成算法FastSpeech,將性能最好的語音合成引擎提速了近270倍,而且只需要使用低端GPU就可以實現實時的語音合成服務。
微軟亞洲研究院高效的人工智能算法
這些新技術因為低功耗、高效率,或是可以在同樣時間內訓練出性能更好的機器學習模型,已經應用于微軟的多個產品中,也受到了外界的廣泛關注。LightLDA模型為必應搜索引擎的上下文廣告提供了精細匹配的支持,增加了廣告拍賣的密度;LightGBM算法極大程度上推進了人工智能算法的平民化,受到了GitHub社區(qū)的青睞,同時也是必應搜索引擎后臺的核心技術之一;Fastspeech算法在微軟Azure的認知服務中支持15種語言的語音合成,也是市場上語音處理開源軟件的主流技術。
這幾個來自微軟亞洲研究院的高效算法只是一個開始,為了人工智能的可持續(xù)發(fā)展,我們不僅要關心算法的性能、精度,還要注意其背后的能耗問題。也希望這些算法設計的新角度,可以給大家一些啟示,去聚焦精巧的算法創(chuàng)新,做到事半功倍,以多快好省的方式,實現真正可持續(xù)發(fā)展的人工智能。
只有當人工智能算法本身具有可持續(xù)發(fā)展性,它才有資格、有能力去助力其他關鍵領域的技術轉型。我們熱切地呼吁人工智能領域的研究人員和從業(yè)者共同努力、精誠合作,用可持續(xù)發(fā)展的人工智能技術去真正推動人類社會的可持續(xù)發(fā)展。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。