專訪上海大學倪蘭教授:語言學與手語識別技術的融合突破,解鎖交流障礙|GAIRlive
在語言學的廣闊天地中,手語研究曾是一片未被充分開墾的荒地。
上海大學的倪蘭教授,作為中國大陸培養的第一位「手語語言學」方向博士,在談到自己選擇手語方向時仍忍不住感慨,“往前推二十年,語言學界幾乎無人涉足這一領域。”
然而,時光流轉至今,這一領域的現狀是否得到了改善?
二十年后的今天,盡管在這一領域人們的認識有了很大的進步,也有一些研究者開始從事手語相關研究,但比起語言學的其他方向,手語語言學仍然面臨著諸多問題和挑戰。
在2023年4月天津理工大學舉辦的手語信息化會議上,倪蘭教授作為語言學界的代表之一,感受到了這一領域的發展與局限。
她指出,在一眾與會者中,除了極少數學者外,大多數參與者都來自計算機科學和通信技術領域。這也意味著,盡管手語技術的研究取得了一定的進展,但對手語作為一門語言的深入理解仍然不足。
大多數的信息科學的研究人員利用計算機視覺技術進行了多年的手語識別研究,但遺憾的是,可能很多人并未真正意識到:手語是一種和有聲語言同樣的自然語言。
最近幾年很多科技公司推出的“手語數字人”試圖為聽障人士提供實時信息服務,但當流量盛宴結束,這些技術是否能融入日常生活、研發公司能否保留技術團隊、聽障群體是否真正接受這種翻譯方式、以及這些技術是否通過了國家權威機構的技術有效性鑒定,這些深層次問題卻鮮有人問津。
當技術熱潮逐漸冷卻,人們再次審視手語識別的核心問題。
倪蘭教授認為,過去人們普遍認為只要理解單個手勢的含義就能解決手語識別問題,但當AI和數字人出現后,機械地將漢語詞匯翻譯成手語,聽障群體卻難以理解機器自動生成的手語。
倪蘭教授比喻說:“就像外國人學習中文,如果他們按照英語的句法結構來組織漢語詞匯,那么他們說的漢語可能會讓人難以理解。同樣,手語也需要遵循其自身的語法結構”。
在技術開發方面,倪蘭教授認為,手語識別的核心問題在于手語的內部結構,包括語音構造、構詞方式和句法結構。
她指出,手語的語法結構問題,尤其是如何將手語表達轉換為相同概念的句子結構,是研究的核心。她的研究團隊正在努力解決這些問題,以提高手語識別的準確性。
在與計算機科學家的合作方面,倪蘭教授提出了兩個關鍵問題:如何利用技術手段處理長篇語料,以及如何實現標準樣本的標注。這樣的合作將有助于提高手語研究的效率,為計算機視覺技術在手語識別領域的應用提供充足的數據支持。
近期在與-AI科技評論的對話中,倪蘭教授從語言學視角梳理了手語研究中的關鍵問題,也講述了如何與計算機視覺專家開展手語識別系統的合作開發。
以下為對話(經編輯):
手語語言學研究一度無人涉足
AI科技評論:倪教授,如今“手語語言研究者”已經成了您的一個重要身份,但我想知道,您為何選擇做手語研究,最開始遇到過哪些難題?
倪蘭:在2000年左右,國內對手語語言學這一邊緣領域的研究認可度并不高。當時手語的研究主要是由特殊教育領域的專家進行,他們關注的是如何教授聾生通過手語學習漢語,語言學界幾乎無人涉足這一領域。
我的導師龔群虎教授在新加坡做博士后期間,注意到國外一些大學語言學系常常會有幾位專家專注于手語研究。由于他自己也會一些手語,他開始特別關注這一領域,并在此期間搜集了大量相關文獻資料。
2002年,龔群虎教授被引進到復旦大學時,將這些資料和想法帶到了國內。
2003年,我開始攻讀博士學位,導師詢問我是否愿意從事手語研究。當時我對此并不熟悉,但我愿意嘗試,所以導師就給了我一本美國語言學家寫的書,名為《Sign Language(手語)》。
這本書基于是1970年代加州大學圣迭戈分校和索爾克研究所一批學者針對手語的實驗工作而進行的研究,他們原本是希望探討聾人在沒有語言的情況下是否仍具有思維能力。他們以聾人和聽人為研究對象,發現聾人不僅具有思維,而且擁有自己的語言——手語,這一發現激發了一批研究者對手語的研究興趣。
我在閱讀這本書后也感到非常興奮,盡管當時國內沒有這方面的深入研究,中文研究資料也非常匱乏,但我發現手語研究與我之前從事的現代漢語語法研究有很多相似之處,手語研究中的許多問題也是漢語研究需要面臨的問題,所以從那時開始我對手語研究產生了濃厚的興趣。
AI科技評論:我留意到您是中國大陸培養的第一位「手語語言學」方向博士,博士期間在手語領域做了哪些工作?
倪蘭:博士期間我向導師表達了意愿,希望能專注于手語的語法研究。因為特教專業已經在手語詞匯研究方面做了很多工作,而在語法和手語的“語音”(盡管手語沒有聲音,但在語言學意義上可以被視為一種“語音”)方面,研究還相對較少。
從2003年開始,我跟隨導師進行研究,直到2007年畢業時,完成了中國大陸第一篇關于手語動詞的博士論文。
當時,香港中文大學也在進行手語研究,鄧慧蘭教授帶領的團隊極大推動了香港手語研究的發展。我2007年從復旦大學畢業時,國內的手語研究領域爭議還頗多,有人認為手語不過是一種輔助工具,缺乏系統的語法結構,不能算作一種真正的語言。由于懂得手語的學者寥寥無幾,這一領域的研究并未得到廣泛認可。因此,我并沒有以手語研究的身份應聘任何高校,而是憑借我之前的漢語教學經驗,成為了上海大學國際交流學院的一名語言教師。
后來,我有機會被派往國外工作,發現很多國家,包括我所工作的土耳其等國家,都有專門的手語研究者。2010年,中國殘聯和國家語委在北京師范大學成立了國家盲文和手語研究中心。它標志著手語、盲文研究開始受到更加廣泛的關注,這也是我國手語研究的一個重要轉折點。2012年,我和導師共同申請了一個國家社科重大項目,專注于中國手語數據庫的建設。作為句法子課題的負責人,負責長篇數據采集和相關數據分析工作,目前建立的手語數據庫存放在復旦大學。
AI科技評論:后來是怎么把手語工作帶到了上海大學?
倪蘭:參與中國手語數據庫這個國家社科重大項目的工作后,我向上海大學文學院提出了成立一個手語研究中心的想法。2017年,“中國手語及聾人研究中心”在上海大學成立。這是中國綜合性大學中首個專注于手語研究的校級研究機構。中心致力于開展手語和聾人的科學研究以及國家通用手語的推廣工作,我擔任了研究中心主任。
中國手語(CSL)是一個廣泛的概念,它可以包括國家通用手語和中國各地方手語。
2018年,經上海市語委推薦我們以特殊人群語言文字研究為特色申報了教育部、國家語委的“國家語言文字推廣基地”,2019年底、2020年初,我們獲批成為“上海市語言文字推廣基地”和“國家語言文字推廣基地”。這個過程的每一步都來之不易,記得我們當時在申報答辯時,有專家提問為何一定要以國家語言文字推廣基地的形式來進行相關研究。我回答,特殊人群的語言文字使用雖然涉及的人群相對較少,但相關研究需要得到國家和社會各界的認可和支持,以及制度、經費保障,否則難以長期持續。
2017年,“中國手語及聾人研究中心”在上海大學成立,倪蘭教授(右一)
當語言學背景學者參與技術開發
AI科技評論:上海大學對手語研究是很支持的,這很難得。國內還有哪些手語語言學研究團隊?
倪蘭:上海大學對于一些特色研究方向還是非常支持的,我們的研究中心設在文學院中文系,但我們有很多交叉研究,分布在計算機工程與科學學院、通信學院、社會學院、新聞學院、電影學院、外語學院等。
目前,包括復旦大學、華東師范大學、廈門大學等在內的許多外語界的老師也開始進入手語研究這一領域。當時我在復旦的師弟師妹們畢業后也分別進入不同的學校,如北京師范大學、上海外國語大學、上海師范大學、燕山大學和魯東大學等,他們在各自的崗位上繼續著手語研究。
總的來說,在國外,手語語言學研究已經是一個相對成熟的研究領域。在國內,手語研究仍然被視為一個特殊的研究方向。但我相信,隨著時間的推移,手語研究將得到更廣泛的認可和發展。
AI科技評論:手語語言學研究是一個方向,但國內關于手語的研究文章主要集中在計算機領域。現在您會和計算機視覺專家合作開發手語識別系統嗎?
倪蘭:確實存在這樣的現象。從2003年開始,我們著手進行手語語言學研究項目時,發現計算機領域開展手語識別研究有不少機構,如哈爾濱工業大學、中國科學技術大學和中國科學院等都有相關研究團隊,他們的研究主要集中在手語識別上,特別是孤立手勢的識別。
語言數據調查和分析,是語言學研究的基本方法,也是語言學理論研究的基礎。手語語言學者的研究主要是調查和描寫手語的實際使用情況,研究手語內部結構規律,語言的發展變化,以及與有聲語言的聯系和區別等。
AI科技評論:實地調查,意思是建設語料庫嗎?這對CV學者來說如獲珍寶吧?
倪蘭:語料庫建設是語言學的一種重要研究方法。對于語言學研究者來說,語料庫是進行語言研究的重要基礎,是觀察語言現象的重要來源。手語語言學研究的核心目標是通過語料來分析手語內部結構,建設手語語料庫是我們進行研究的基礎工作。
境外很多研究機構,包括香港、臺灣地區都有公開發布的手語數據庫,但中國大陸目前還沒有公開發布的相關手語數據庫。2017年,我們承擔了國家語委和上海語委的手語信息化項目,2018年,完成了部分數據采集和數據庫建設的初步工作,并在年底舉辦了研討會。當時我們邀請了國內計算機領域做圖像識別的專家,對我們的數據庫提出很多建議。目前,我們的語料庫已經收集了8萬多條數據,其中包括國家通用手語詞匯,以及許多手勢的地方變體,即同一個手勢的多種打法。未來我們希望將全國的地方手語數據都納入這個語料庫,成為中國手語研究的一個重要的數據來源。
在采集手語數據時,國際上的通行做法是,聽人不能直接參與調查,因為他們的參與可能會影響聾人自然地使用手語。因此,我們需要培養一批懂語言調查的聾人研究者,讓他們深度參與語料庫建設項目。在過去幾年中,我們在上海建立了一支團隊,包括年輕的和年紀較大的聾人,他們幫助我們采集數據,并參與各類手語項目。
手語語料庫的建設是一項社會性和系統性的工作,它需要各類人員的參與和合作。這個過程不僅是為了收集數據,也是為了培養聾人社群中的研究者。如果沒有來自這個群體的研究者,很難獲得有價值的數據,也很難得到聾人群體的廣泛認同。
AI科技評論:手語跨學科合作是合作哪些方面,遇到過哪些挑戰性問題?
倪蘭:與計算機專業背景的專家合作,我們希望通過語言學視角觀察到的規律和原則來輔助計算機視覺技術識別手語動作和意義。
目前的圖像識別和語言識別技術可以在不清楚語言內部結構的情況下,通過大量數據集訓練讓機器自動學習并得出結果。但在小樣本數據情況下,提供關鍵數據的標注可能會有助于減少誤差,提高識別的準確率。
手語識別技術發展的挑戰可能在于目前我們還無法提供大規模的標注數據。
國內一些科技公司研發手語數字人所依據的數據具有很大的同質性,缺乏突破。在這一領域要實現大的突破,需要有規范化、標準化,并且應用場景豐富、準確性高的標注數據,這是我們未來工作的一個重要方向。
手語數據庫建設由于肖像權、知識產權保護等問題,對外公開發布也是一個巨大挑戰。如何保證數據公開不會被他人濫用,如何設置權限來保護這些數據,同時確保它們能夠廣泛用于科學研究和教學。
AI科技評論:我知道手語作為一種視覺表現力極強的語言,其面部表情和頭部動作對于整個意義的表達至關重要,但如果涉及到肖像問題,會有合適的數據公開方式嗎,也就是說與“手語計算”領域的合作是不是更難?
倪蘭:在參加國際會議時,我們了解到一些處理方法,比如對眼睛部分打馬賽克,但這樣做會丟失重要的語義信息,如眼睛開合、皺眉等,這些都是手語理解中不可或缺的表情要素,一旦這些部分被模糊處理,就很難準確傳達手語的意義。
在數據采集中,除了基本的手勢詞匯,我們還采集了長篇語料,我們的學生正在對這些數據進行標注,目前我們使用的是單機版的標注方式。未來,我們希望能夠將其發展為網絡版,以便更多人可以共同參與標注。
AI科技評論:我們非常關注這些前沿技術是否您的手語跨學科研究有影響,包括去年推出的大型語言模型ChatGPT,以及今年的文生視頻模型Sora。這些人工智能的最新進展,您和團隊有接觸嗎?
倪蘭:我們一直在密切關注信息技術領域的快速發展,也鼓勵學生嘗試使用這些技術,了解相關的性能。這些技術從有聲語言角度看,在語言結構和精細度方面已經取得了令人難以置信的效果。但在手語領域,我還沒有看到特別出色的應用。
在美國,除了紐約城市大學,還有賓夕法尼亞大學也在進行手語識別方面的相關研究。圣地亞哥的索爾克研究所、芝加哥大學、加勞德特大學等研究機構也是手語語言學研究的重要陣地,他們在語言本體研究方面做了大量工作。
AI科技評論:最后想請問您,最希望得到計算機科學家的哪些支持?
倪蘭:計算機科學家需要手語語言學的標注語料,同時語言學也希望信息科學能夠為語言學研究提供技術支持,如語料的切分和機器的自動標注。除此之外,兩個領域的研究者需要共同探討哪些標注有助于手語識別和合成技術的發展,這些方面有可能也是我們人類識別語義、理解語言、使用語言的重要標記。
在本次對話中,倪教授還分享了手語語言學研究,如何為計算機視覺技術在捕捉和分析手語動作時提供理論指導。歡迎同道添加本文作者吳彤微信(icedaguniang)交流。
|GAIR live 圓桌預告
3月18日晚8點~10點,將舉辦主題為「AI+手語識別,技術革新與應用前景」的線上圓桌論壇。
本次論壇嘉賓有,美國紐約城市大學田英利教授、上海交通大學自動化系蘇劍波教授、上海大學計算機工程與科學學院方昱春教授、上海大學文學院倪蘭教授,共同分享他們的見解和研究成果。
“全球人工智能與機器人大會”(GAIR)始于2016年與中國計算機學會(CCF)合作創立的CCF-GAIR大會,旨在打造人工智能浪潮下,連接學術界、產業界、投資界的新平臺,而“連接三界”的全新定位也在此大會上得以確立。
經過幾年發展,GAIR大會已成為行業標桿,是目前為止粵港澳大灣區人工智能領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。
GAIR Live作為旗下視頻直播品牌,旨在輸出新鮮、深度、原創的大咖訪談與對話內容,打造輻射產、學、研、投的特色線上平臺。
|手語相關資料
1,《專訪紐約城市大學田英利教授:用多通道、多模態的方法「看懂」手語》
2,《Multi-Modal Multi-Channel American Sign Language Recognition
|IJAIRR正在邀約論文和專題
《國際人工智能與機器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,簡稱IJAIRR),是由新加坡GAIR研究院與世界科技出版社聯合出版的國際學術期刊。
作為全球首本專注于人工智能(AI)、機器人技術(Robotics)以及基礎科學交叉研究(Research)的期刊,IJAIRR致力于成為AI與機器人領域研究的權威發布平臺。
IJAIRR歡迎各類研究論文、評論文章、短篇論文、書評以及專題(Special Issue)形式的投稿。
我們特別關注那些在頂級AI會議上發表并現場展示,但缺乏長期沉淀平臺的優秀論文。為了給這些論文及其作者提供一個更廣泛的發表和推廣渠道,IJAIRR現正積極邀約相關論文投稿。
(1)“如果您在本領域頂級會議上發表的文章(或即將發表)不超過一年,我們將協助您稍作修改后在IJAIRR期刊上發表。
(2)如果您領導的團隊在頂級會議上有多篇論文發表,并希望在IJAIRR上圍繞特定主題策劃一個專題(Special Issue),我們誠摯邀請您深入討論合作事宜。
(3)如果您是頂級會議的組織者,并有意與IJAIRR合作,針對特定會議策劃一個專題(Special Issue),我們也期待與您具體商討合作細節。
IJAIRR期待與您攜手,共同推動人工智能與機器人研究的發展。
聯系人:IJAIRR創刊主編朱曉蕊博士
關于、GAIR大會、GAIR研究院(期刊和在線社區)的詳細介紹,請閱讀朱曉蕊教授的專訪
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。