楊敏:深耕自然語言處理架起與機器溝通的橋梁
在CCF-A類學術會議和JCR一區期刊上發表高水平學術論文80余篇,獲得中國人工智能學會2018年度最佳青年科技成果獎、2019年度CCF-騰訊犀牛鳥基金優秀專利獎,是中國科學院青年創新促進會成員……擁有這份亮麗簡歷的是來自天府之國的“90后”楊敏,抱著對自然語言處理技術的極大熱情,她在香港大學攻讀計算機科學專業博士之后,進入中國科學院深圳先進技術研究院數字所開啟了她的科研之路,目前是副研究員兼博士生導師。
為什么選擇深耕人工智能?楊敏表示興趣與熱愛是最大驅動力,“數據挖掘研究令人非常著迷,從大數據中常常能分析出有用和令人興奮的信息。”同時,楊敏也十分看好人工智能技術的發展前景,她認為隨著人類對先進便捷生活的不斷追求,人工智能必將在當中扮演重要角色。
讓機器聽懂人話?從模擬人類行為開始
近年來,隨著智能技術的普及,機器人逐漸在各個領域代替人工成為客服的主力軍。然而,人們在“人機對話”中常常會遇到程序繁瑣、答非所問的情況。如何讓智能客服更好地理解人類的真實需求?如何更快、更精準地反饋問題的答案?這些都是自然語言處理技術亟待解決的問題。
“要讓智能問答和人類問答達到相同程度,實際上是非常困難的。”楊敏說,“目前我們還處于弱人工智能時代,需要攻克認知智能,才能讓機器真正地理解問題、進行推理和解決問題,目前看來還有一定距離。”
為了讓機器讀懂人類的語言,楊敏團隊嘗試根據人類行為設計深度神經網絡模型。“比如人類在做一篇文章的閱讀理解時,通常會先粗略瀏覽整個文章的大致內容,第二遍再帶著問題精讀尋找答案,第三遍確保答案正確。” 楊敏團隊從人類閱讀認知角度出發,模擬人類閱讀認知過程中預讀、精讀、后讀三個階段,提出基于先驗知識的交互感知模型、目標感知的語義蒸餾模型、基于強化學習的語義反饋模型等,以更貼近人類閱讀認知的方式解決自然語言理解問題。
光有大數據不夠!知識圖譜給機器“補課”
當然,人工智能也有“過人之處”,強大的算力與大量的數據讓機器能夠快速獲得學習的資源,但只有大數據還遠遠不能達到人類的水平。
“盡管通過大數據的挖掘分析能夠得到很多有用的信息,但只有數據驅動是不夠的,人類之所以能夠快速做出決策,是因為擁有豐富的經驗常識和背景知識。”楊敏表示,她們團隊嘗試用數據驅動和知識驅動相結合的方式,通過建立完善的知識圖譜,補齊人工智能背景知識的“短板”。
此外,模型壓縮也是楊敏團隊主攻的技術方向。當對模型訓練的強度越來越大,數據量越來越多,精度越來越高時,消耗也會越來越大。特別是在線上運行時,由于模型過于復雜,反饋結果的時間會從毫秒級拖延成秒級,導致用戶體驗效果不佳。
“通過模型壓縮能夠在不影響運算精度的情況下,讓參數變少,效率提高,節省訓練時間的同時,降低對數據的要求,提升用戶體驗。”據楊敏介紹,團隊目前正與騰訊、神州泰岳等企業合作進行模型壓縮的攻關研究,主要應用于自然語言理解和推薦系統任務。
得理法律平臺
在應用落地方面,楊敏團隊還與深圳市得理科技有限公司成立了“法律人工智能聯合實驗室”,將自然語言處理和推薦系統的核心算法應用到司法領域,開發案件判決預測、類案智能搜索、法律智能問答等系統。
為科技之城貢獻力量
在楊敏加入深圳先進院之前,她曾在科技企業有過短暫的工作經歷,她感到科研機構與企業最大的不同之處在于,在科研機構能夠有機會深入研究一些“有難度又有研究價值的課題”,盡管短時間未必能很快看到結果,但能夠投入更多時間和精力專注攻克,希望能取得突破性的進展。
不僅如此,深圳先進院對于產學研融合的大力支持,也讓楊敏感到“能夠真正將基礎研究寫在祖國大地上”,既能打破技術壁壘,又能快速找到產業界合作的落腳點,快速驗證自己的算法是否實用。
楊敏團隊合照
來深3年,深圳帶給川妹子楊敏最大的感受是“科技之城”,“科研技術公司非常多,對于我們尋找產業合作伙伴和學生尋找實習工作都非常有利。同時,深圳出臺了非常多吸引高端人才的政策,使得深圳匯聚了全世界頂尖的人才,人才又反哺深圳,為深圳的發展作貢獻,形成良性循環,對于我們年輕人而言,充滿吸引力。”
版權聲明:凡本網注明“來源:中國科學報、科學網、科學新聞雜志”的所有作品,網站轉載,請在正文上方注明來源和作者,且不得對內容作實質性改動;微信公眾號、頭條號等新媒體平臺,轉載請聯系授權。郵箱:shouquan@stimes.cn。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。