從實驗室到現實,AI+手語識別,路向何方?|GAIRlive
在數據和算法塑造的現代世界中,人工智能正快速地推動社會變革。
在此背景下,一群學者將關注投向了社會邊緣群體——聽障人士。他們通過深入的研究和開放的對話,探索科技如何成為溝通的橋梁,為每個人帶來溫暖。
最近,組織的“AI+手語識別:技術革新與應用前景”線上圓桌論壇,匯聚了田英利、倪蘭、蘇劍波、方昱春四位教授,他們憑借對聽障社群和AI技術的深刻理解,進行了一場內容豐富的對話。
兩個小時的時間里,他們談到手語與計算機視覺技術、語言學技術的結合,還討論了倫理、隱私保護和實際應用等關鍵議題,為理解聽障人士如何與科技融合提供了新的視角。
這不免讓人回憶起喬布斯所言:“技術本身并不足以改變世界,關鍵在于技術背后的人。”這四位教授正是通過技術實現社會變革的代表。
田英利教授,作為計算機視覺領域的權威專家,這十年來專注于將手語識別技術應用于改善聽障人群的溝通。疫情期間,她團隊的手語識別系統的遠程測試引發了一個關鍵猜想:手語識別系統的有效性可能更依賴于上下文語義理解,而非細致的多層標注,這一發現為實際應用開辟了新的可能性。
倪蘭教授,擁有豐富的語言學背景,二十年來專注于“手語語言學”的研究。她探討了語言學對手語識別的深層意義,提出了在AI時代重新定義語言學家角色和貢獻的必要性。
蘇劍波教授,從產品開發視角出發,強調了手語識別技術面臨的實際挑戰,尤其是樣本采集的場景特定性與技術和產品通用性之間的平衡問題。
方昱春教授,同樣作為一位CV學者,指出手語識別的復雜性遠超人臉識別,并基于七年的研究經驗,對手語數據的收集和管理提出了見解,指出面部隱私保護技術“DeID”,可能為手語數據的安全共享提供新的解決方案。
這場論壇不僅促進了技術交流,更是跨學科合作的典范,正如在圓桌結束后觀眾所言:如果說交叉學科研究中最稀缺什么,那一定是敞開心扉的對話。
以下是線上圓桌的全文(經編輯):
01 全球視野下的突破
田英利:歡迎大家齊聚線上,也感謝的組織。我相信大家和我一樣,都對接下來手語識別討論充滿期待。在開始之前,請大家介紹下自己。
倪蘭:我是倪蘭,來自上海大學文學院,語言學及應用語言學專業。我進入手語研究領域至今已經整整二十年。在上海大學,我們成立了中國手語及聾人研究中心,這個中心致力于手語的學術研究和聾人群體的社會調查,以此增進社會對這個群體及其語言的理解。
蘇劍波:大家好!我是蘇劍波,來自上海交通大學和上海靈至科技有限公司。很高興有這個機會與大家交流我在手語識別方面的研究。我的工作最初源于人機交互領域,最開始并非專門針對聾啞或殘障人士。我的初衷是讓機器人能夠通過人類的下意識行為、表情和肢體語言來識別意圖和情緒。在這個過程中,我逐漸意識到手語在表達情感中的重要性,并開始專注于聾/啞人群的手語識別。
我目前的研究仍未完全區分健聽人和聽障人士的手勢識別,我將繼續在這個混合領域進行探索。希望今晚能與大家分享我的研究成果。
方昱春:我是方昱春,來自上海大學計算機工程與科學學院。自2017年起,我開始涉足手語研究,并深感榮幸能得到倪老師的支持和指導開展交叉學科研究。手語作為一門自然語言,遠不止是符號系統那么簡單,這深深吸引了我。我們有幸獲得國家文字語言委員會和上海市科學技術委員會科研經費的支持,在上海大學建立了專門的語言采集實驗室和推廣基地,并開展了相關教學課程建設。期待未來能與大家進行更深入的合作。
田英利:我是田英利,自1998年在美國卡內基梅隆大學開始接觸人的表情識別研究。在那里,我與導師和團隊共同創建了第一個微表情識別數據庫,多年來被同領域廣泛使用。在IBM工作三年后,我于2008年加入紐約城市大學,開始思考如何將計算機視覺研究應用于幫助有特殊需求的人群,特別是盲人和聾人。
手語作為聾人與外界交流的主要方式,不僅包括手勢,還涉及面部表情和身體動作。掌握手語對聾人和健聽人來說都不容易,因此,如果能開發出自動識別手語的技術,將極大地幫助聾人在就業和社交方面。
盡管各國都在努力,但手語識別仍面臨挑戰。我希望今天的論壇能讓我們更深入地理解這一領域,為未來的研究和產業應用提供實際指導。
田英利:第一個問題,關于手語識別領域的進展,盡管眾多團隊和個人已在這個方向上努力多年,但仍有許多值得探討的空間。國內外有哪些學術和工業團隊在這一領域取得了顯著成就?他們的研究成果是如何推動手語識別技術發展的?倪蘭教授,請您先開始。
倪蘭:作為從事語言學研究的學者,我對手語識別領域的認識可能不夠深入,但可以和大家分享一些我所了解的情況。
2003年當我們開始手語研究項目時,哈爾濱工業大學和中國科學院的自動化所、計算所等已在進行相關研究,早期側重于穿戴式設備而非計算機視覺(CV)。隨著CV技術進步,這個領域發生了顯著變化。
目前,國內活躍的從事手語識別技術團隊不僅包括哈工大和中科院的團隊,還有中科大的周文罡教授團隊已在該領域深耕十多年,北京聯合大學的姚登峰教授,作為聽障學者,他的研究具有獨特視角,他也正在建設中國手語和漢語的平行語料庫,讓聾人學生進入團隊采集手語數據,取得了不少成果。天津理工大學的聾人工學院多年前開始建設中國手語長篇語料數據集。我所在的上海大學自2017年成立手語研究中心起,就開始建立實驗室,采集手語視頻視頻,借鑒了國外數據采集的經驗,在較為純凈的背景下進行拍攝,便于計算機后期建模,盡管在實驗室采集,我們也盡量使用各種方式以誘導更自然的手語表達,以便獲取自然語料。
蘇劍波:我對手語識別領域的研究,起于對機器人領域的人機交互理論和技術的關注,并非一開始就專注于聾人手語。我更關心的是如何讓機器人能夠通過對人的手勢,乃至肢體行為的自動識別,來理解人類的情緒和意圖。
因此,我對相關團隊的關注點可能與倪老師提到的有所不同。
在機器人學領域,國內外許多研究機構如中科院自動化所、哈工大,以及我所在的上海交通大學和曾做過訪問研究的香港中文大學等,都在進行相關研究,盡管尚未形成完整體系。這些研究通常基于特定項目或產業化需求,利用計算機視覺技術和工具積累,在企業提出的應用需求上,開發各種能幫助殘障人士或聾啞人交流的技術或工具。
應用場景如政府機關職員或醫院中醫生與聾啞病人的交流,所需的語料庫相對有限,側重于典型詞匯的表達意圖或含義,而非全面的語言學研究。
但相似的是,我們的研究同樣從視頻入手,專注于語義和含義的識別,更側重于通用語料庫的應用。
方昱春:作為計算機視覺專業的學者,我踏入手語識別這一研究領域,最初是受到手語語言學的啟發,激發了我的研究熱情。
國內,中國科學技術大學手語識別團隊在手語識別領域取得了顯著成就。國際上,德國亞琛工業大學的研究團隊同樣在這一領域享有盛譽。這兩個團隊憑借超過十年的研究積累,發布了多代數據集,推動了孤立詞識別、連續手語識別和手語翻譯等關鍵問題的研究,并引領了整個領域的發展。
此外,中科院計算所、西安電子科技大學、清華大學、香港科技大學、西湖大學,中科院自動化所、合肥工業大學、東北大學近年來也在手語識別領域持續發表了高水平成果。天津理工大學也建立了數據集。
特別值得一提的是,中科院計算所陳益強研究員團隊,在基于數據手套的手語理解領域取得了顯著成就,他的團隊在聾校進行了教學應用和人機交互場景的探索。在2017年我們正準備采用計算機視覺技術進行手語識別時,陳益強教授鼓勵我們嘗試,盡管當時成功的可能性并不確定。畢竟,當時“人臉識別”取得了限定范圍應用,“手語識別”的難度無疑更高。
2023年,參與手語識別研究的學校和企業數量進一步增加。
國內外企業如小米、華為、騰訊,以及微軟、谷歌等也都積極參與這一領域的研究。很多企業關注開發具備手語能力的數字人,以提升人機交互體驗。
手語識別領域近年來的快速發展,新的數據集和相關競賽的頻繁發布預示著這一領域的未來潛力。
田英利:我接著談談我在美國做手語識別的經驗,以及對國際手語識別領域的觀察。
相比較而言,歐洲比美國更早關注殘障人士研究,但美國很快跟上了步伐,我很高興看到中國許多單位也開始這一領域的研究。這背后最大的推動力是人工智能和機器學習的進步,以及計算機算力的提升,使得原本不可能的研究變得可行。
正如剛才倪教授所說,早期手語識別研究,包括與語言相關的研究,一開始是依賴于穿戴手套等設備來捕捉手指運動,實現基本詞匯的識別。但現在,隨著技術的發展,尤其是微軟為游戲設計的RGBD攝像頭的應用,許多學校開始使用RGBD技術進行捕捉。這不僅提供了視頻信息,還增加了深度信息,極大地提高了計算機視覺算法的精度。
目前,手語識別的主要瓶頸是缺乏通用的大型數據庫。盡管自然語言學習領域數據庫技術已有顯著進展,但手語識別仍面臨挑戰。美國、德國,希臘、土耳其等國也在進行數據采集和識別工作。
我們的團隊自2004年起研究手語識別,結合計算機視覺技術和語言學研究,希望將人的表情、手勢和身體動作結合起來進行識別,滿足聾人的真實需求。
這個過程中,我們與很多高校建立起合作,比如羅切斯特理工大學(RIT),他們擁有規模龐大的聾人學院,超過1000名聾人學生;以及紐約城市大學亨特學院的Elaine Gale教授,她是一位失聰者,精通唇語,并在手語教育方面有著豐富的經驗。
所以我們團隊的工作流程相當于一條龍服務:RIT負責數據采集和標注,我們負責開發系統算法,然后Gale教授的團隊在他的課堂上與學生一起驗證我們的系統,并提供反饋,以便我們進一步改進。
我們意識到手語是一種完整的語言,不僅限于有限的詞匯。我們的目標是研究手語的語法結構,而非單一手勢。目前我們打造出一條針對美國手語的語法實時識別系統,能自動反饋學生手語的語法正確性,提供快速反饋。
我期望國內能建立跨學科的、成體系的研究環境,不僅僅是語言學者或計算機學院的獨立研究,而是能夠整合不同學科、聚集各類人才。我相信,隨著研究的深入,這一領域將會取得更大的進步。
02 從理論到實踐
田英利:第二個問題:如何從零開始構建并部署一套高效的手語識別系統,在這一過程中我們面臨了哪些技術難題?大家是如何克服這些難題的?還有哪些問題尚未解決?倪老師,請先開始。
倪蘭:手語識別系統構建不是我的專業,我可以從語言學的角度提供一些參考。在我看來,手語識別的過程類似于人類學習一門新語言的過程,我們需要理解詞匯的意義、語法結構,最終達到理解整個語言系統的目的。從某種意義上說,手語識別就是將人類的語言學習經驗傳授給機器的過程。
在構建手語識別系統時,我們需要解決的關鍵問題是如何匹配形式和意義。剛才田老師提到的方法,似乎是將整個句子視為一個結構來處理,而不是單獨識別每個詞。這種方法似乎更側重于語言單位的整體性,而不是單個詞的識別。
在國內,許多團隊可能是先從識別孤立的詞匯開始,然后逐步擴展到整個句子或段落的識別。但田老師提到的方法是不要求具體詞的精確識別,而是關注整個句子的意義匹配。這實際上涉及到語言學中的“語塊理論”,即“以意義為單位進行語言分析”。
我很想知道,田老師的方法是否需要人工標注句子的意義,以及在形式和意義的匹配過程中,如何界定語言單位,以及如何進行標注。這些可能是我們在構建手語識別系統時需要深入討論的問題。
田英利:倪老師,您提到的問題非常關鍵。確實,手語的連續性和句子間的切分對于理解整個表達非常重要。機器學習在切分方面可能與傳統語言學的方法有所不同。在我們的研究中,雖然我們沒有對每個詞進行識別,但我們確實對一些與語法相關的關鍵詞進行了識別,比如表示時間的“昨天”、“前天”以及“明天”、“后天”,這些都是通過手勢、位置和表情來表達的語法元素。
我認為,隨著對手語每個詞識別精度的提高,我們將能夠更好地理解整個句子。就像我們在說話時,即使每個詞都聽得懂,但如果沒有上下文的理解,我們也無法完全把握說話者的意圖。同樣,在手語中,上下文的理解也非常關鍵。同一個手勢,在不同的上下文中可能表達完全不同的意義。
總的來說,我認為,對手語中單個詞的理解是必要的一步,但同時,我們也需要關注上下文和整體句子的理解。這樣才能更全面地把握手語的含義。再次感謝倪老師您的寶貴意見,它們對我們的研究工作具有重要的啟發意義。
倪蘭:田老師,您剛才提到了語言理解,包括語法中的時間詞和疑問詞等。您在處理這些問題時,會考慮句子的語序嗎?比如,時間詞在句子中的位置,我們是將其放在句首、句中還是句尾?例如在漢語中,我們可能會說“我昨天去了哪里”,這里的“昨天”是放在中間的。您在研究中會考慮這種語法結構嗎?
田英利:是的,我們會考慮這些因素。我們不僅關注詞的位置,還關注它們的時間因素。
例如,我們不能在說出“倪老師,你吃飯了嗎?”這個問題之后,過了很久才做出詢問的表情(比如眉毛上挑),這樣的話,表情就與問題脫節了。因此,我們不僅要考慮表情發生的時間,還要考慮它與關鍵詞、問題句子的相對時間關系。這樣的考慮才能賦予其語法意義。在美國手語和中國手語中,這些都是關鍵問題。
蘇劍波:這個問題確實是手語識別領域中非常核心的技術難題。我很難說我們已經克服了哪些挑戰,或者更準確地說,我認為在手語識別方面,我們仍然面臨著大多數問題尚未解決的現實。
正如方老師剛才所指出的,手語識別是一個比人臉識別要復雜得多的領域。確實如此,十多年前,我有一個碩士研究生專注于人臉識別研究,他取得了非常好的成果,并發表了優秀的論文。畢業后,他去了香港中文大學攻讀博士學位,那里的導師希望他能將他在人臉識別研究中的經驗和成果應用到手語識別上。他深思熟慮了好幾個月,最終還是放棄了,因為他了解到手語識別的難度,所以沒有繼續這個方向的研究。
手語識別領域的要求和對不同場景的適應能力,以及對語言語料庫的積累,都使得它在模式識別領域中獨樹一幟。盡管我也是從計算機視覺和模式識別技術起步的,自然而然地會尋找能夠代表某一類模式的特征集合,這是我們這些受過模式識別專業訓練的人的本能反應。
但這種傳統模式識別領域內有效的方法,在手語識別領域可能就不那么適用了。手語的多樣性和變化性——場景、人物、職業的不同,甚至不同地區和方言的差異——使得手語的特征選擇和定位變得異常困難,遠遠超出了人臉識別等其他模式識別任務的復雜性。手語識別不僅包括靜態手勢的識別,還包括動態手勢的識別,這就像文字斷句一樣,不同的斷句方式可能導致完全不同的語言含義。手勢的這種“斷句”差異可能會導致真實含義的巨大變化,甚至完全相反的意思。更不用說不同國家和方言的差別了。
在實際研究過程中,我們可能都會遇到類似的經歷。如果我們基于公開的標準數據庫集進行手語研究,相對來說進展會比較容易。但如果我們基于真實人物采集的數據庫進行研究,難度就會大大增加,因為手語和手勢的特征提取也會變得非常個性化!因此,如何將這些研究成果轉化為廣泛接受的手勢或手語表達形式,是手語研究中極具挑戰性的問題。
在模式識別領域,無論是語音識別、人臉識別還是指紋識別,都有專門針對這些領域的工具和技術。然而,針對手語識別,我們似乎更多地是將其他領域的成功方法應用到這里,而沒有針對手語識別開發出專門的技術手段和算法。
這反映了我們在這個領域開發特定技術難度的問題,或者說是通用性的難以實現。我們現在所做的工作,大多是基于模式識別領域內公認的技術,如卷積神經網絡和各種濾波手段。然而,很難期望一個并非為特定領域中特定環境下解決特定問題而設計的工具,能夠將該領域的問題解決到極致。
我們提出了所謂的“特征完備性”概念,針對常用的幾百個手勢,無論背景、職業、應用場景和文化背景如何不同,人們在表達同一語義時手勢之間的相似性,及不同語義時的手勢之間的差別,都可以通過一個足夠完備的特征集合給予描述;同時,為了減少識別的計算量又期望特征的整體規模要足夠小,即特征之間的正交性。這是我們把在其他模式識別領域的一些成功思想,拓展到手語研究。
通過上海靈至科技有限公司和上海追求人工智能科技有限公司兩家公司的市場化合作,我們試圖將模式識別的通用技術應用于幫助殘障人士領域,他們擁有市場資源,能夠獲得特殊行業如多地聾啞學校的支持,從而采集特定的樣本。
但是,我們有時也會質疑,在特定場景下采集的樣本對于樣本的拓展性和通用性究竟有多大的價值?這很難說清楚。這些都是我們在手語研究方面的一些困惑和難點。我提出的問題多于解決方案,接下來請問方老師,您那邊有什么想法嗎?
方昱春:我先回答問題的第一部分,關于如何構建和部署手語識別系統。
我的研究小組還沒有開發出真正能夠應用于實際場景的手語識別系統。但是,在觀看了田老師的專訪后,我深刻地理解了為什么田老師的工作,倪老師會認為特別有價值。因為田老師她們選擇的問題——將計算機視覺方法應用于幫助學習手語的人,以便更準確地表達語法——實際上是手語語言學與計算機視覺模式識別交叉學科中的一個非常精彩的問題。
選擇這樣的問題進行研究,應該是非常有智慧,是交叉學科研究和應用非常好的例子。它不僅具有很高的實用價值,而且從語言學的角度來看,也具有很高的學術價值。這對我們來說是一個非常好的啟示。
手語方面,最大的困難在于數據標注。與自然語言相比,我們目前擁有的手語數據集標注量非常少。自然語言可以進行字、詞、語法、語義、語用的復雜標注,有大量的語言學家可以幫助完成這些工作。然而,要獲得如此詳盡的手語標注數據,難度就非常大了。這與手語本身的復雜性有關,它涉及到上半身多個部位的協調運動,并且具有很強的語言模式,這本身就是一個挑戰。
要像自然語言理解那樣去做手語理解,難度是非常高的。正如蘇老師剛才總結的一些經典問題,比如復雜性光照、背景復雜性、姿態復雜性等,這些都是我們在計算機視覺問題中需要面對的挑戰。這些問題可能只有一部分可以通過計算方法解決,但我認為選擇一個好的應用場景也很重要。例如,田老師語法糾正的應用就是一個實例。如果我們的應用場景是限定的,那么我們現在已經實現的一些視覺方法就可能落地應用。
至于其他的難點,可能要等到前面提到的數據采集和標注問題解決后,以及一個好的應用場景的選擇,我們才能慢慢理解手語,進而促進我們理解人類的語言智能和認知智能。在這個基礎上,可能會逐漸發展出更加普遍化的手語識別技術。
倪蘭:在討論手語識別的過程中,我們不得不提到語言學的分類。
我們知道,目前的許多語言學研究,包括像ChatGPT這樣的模型,主要處理的是文本,也就是我們所說的書面語。對于書面語的標注,我們有很多數據庫,無論是現代漢語還是古代漢語,都有相應的標注資源。然而,當我們轉向口語,也就是有聲語言時,雖然現在漢語口語的數據庫并不多。但至少在語音識別領域,我們已經有一定的標注基礎,語音標注可能主要關注元音和輔音等方面。
但在手語標注方面,我很想了解你們在計算機識別或合成領域主要需要什么類型的標注。我們在使用一些軟件進行語言學標注時,可以實現多層標注,最多可以達到50層甚至60層。但這樣的標注對于計算機的手語識別有用嗎?
我曾看過一些用于打榜的標注,比如西班牙手語的標注,主要是對個別詞進行切分和語義標注,而不是完整的詞匯切分。對于與語言學家的合作來說,你們最需要的標注是哪一種?你們需要標注到多少層,才能解決識別一個句子或一段話的問題?我對這個問題非常好奇。
田英利:對于視覺領域的手語識別來說,我們最關心的是語義理解。也就是說,當我們看到一整個手語句子時,我們想要知道它在表達什么意思。至于詞的層面,了解孤立詞的語義對我們來說已經足夠了,并不需要像語言學研究那樣進行50層細節的標注。
我們的主要應用目標是實現正常的交流,這是首要的一步。但是僅從視覺角度來解決這個問題基本上是不現實的,我們必須與語言學家、手語使用者,包括聾人社區合作,共同解決問題。
接下來,我們要考慮的是如何將這個復雜的問題簡化。就像自然語言處理一樣,即使是像ChatGPT這樣的大規模模型,最初的研究也是集中在“新聞報道”這樣比較官方、正式的內容上。只有在這些基礎工作做好之后,我們才能慢慢擴展到不同的口語或其他領域。如果第一步做不好,后續的工作基本上就無法進行。
倪蘭:那么回到這個問題上來,就是說在構建系統的過程中,我們需要對標注的規范達成一致的標準,對嗎?這是我們需要明確的。
田英利:確實如此,拿我們團隊來說,從一開始就明確了我們的研究方向。無論是系統開發還是視頻手語捕捉,我們都事先討論并決定了使用哪些傳感器,以及捕捉的詳細要求,比如是捕捉整個句子還是多個句子。我們最終選擇了多個句子的方法,這樣一來,我們就涉及到了不同句子之間以及不同詞之間的分割問題。
另一個挑戰是,正如我們在口語中不是每個詞都有意義一樣,手語中的手勢也不全是有意義的。有些手勢具有意義,而有些則沒有。在實驗室環境中,人們可能會刻意減少這些無意義的手勢,但在實際應用中,人們會自然地使用各種無意義的連接手勢。因此,如何準確地進行分割變得尤為重要。
我尤其想說一個插曲。當我們基本上開發出這個系統,并準備在課堂上進行測試時,新冠疫情爆發了,學生們無法到校上課。面對這種情況,我們不得不讓學生在家中使用手機完成作業,并將視頻發給我們進行系統測試。由于原本使用的是RGBD傳感器,現在D(深度信息)的部分沒有了,我們發現學生的視頻中手的位置、遠近不一,有時手勢甚至超出了畫面。
這對系統的考驗非常大。在這種情況下,即使我們不能識別每一個詞,我們也需要能夠理解整句話的意義。這就像我們在網絡通話中,即使偶爾丟失了幾個詞,我們仍然能夠理解整個對話或段落的意思。因此,我認為在實際應用中,我們不一定需要非常細致的多層標注,但我們需要能夠識別整個句子或段落的含義。如果我們能夠做到這一點,那么這個系統就可以投入使用了。
蘇劍波:我來補充一點。在實際應用中,我們面臨一個挑戰,那就是基于標準手語庫訓練出的識別系統如何應對真實用戶,比如聾人在實際使用中的手勢并不總是那么標準?
從模式識別的角度來看,這就像是你收集了大量的語料庫,但在實際應用中,如何將系統擴展到具體用戶的樣本上,你的系統可擴展性到底能達到何種程度?實際上,這非常制約整個系統的實用性。
田英利:這確實是一個問題。就像ChatGPT一樣,盡管它現在非常強大,但它也不能提供任何問題的答案。特別是對于幫助殘障人士的系統,一定要有個性化定制的那一步。也就是說,基本系統建成后,針對每個人的具體應用,必須有一個調整過程。這是必不可少的。否則,對于個人用戶來說,應用過程中會存在斷層。
蘇劍波:確實,我們需要一個標準系統作為基礎,然后針對特定用戶進行自我學習或調整的過程,這樣才能逐漸提高系統對該特定用戶的準確度。
田英利:是的,無論如何,還有另一個問題是關于用戶界面的。無論你的技術有多好,如果你的界面不友好,用戶就不會去使用它。
蘇劍波:對,所以這個磨合過程往往會讓用戶失去耐心。
田英利:這就是為什么我們在最開始的時候就要把聾人朋友納入到整個系統的開發中來。這些朋友對新技術充滿熱情,他們也愿意幫助和貢獻。然后再進行推廣。如果一個不成熟的產品在推廣時讓用戶決定不再使用,那么以后想要讓他們重新使用就會變得非常困難。
倪蘭:我理解蘇老師的困惑所在。可能因為美國手語的發展時間比中國手語要長,但在中國手語中,我們確實面臨著蘇老師提到的各種“地方變體”的問題。
對語言學家來說,語言的多樣性是語言成熟度的表現,我們非常樂于接受。但手語有自身的復雜性,有方言的問題,還有群體內部的異質性(因為不同的教育背景、家庭情況、聽損情況等,他們的手語使用情況千差萬別)。
不同于普通話,我們可能只關注發音是否標準。聾人群體中,手語的好壞差異巨大。即使在公認的手語較好的聾人中,也存在差異。很多聾人并沒有接受過系統的手語教育,他們大多靠自學。
手語的標準并沒有像有聲語言那樣有一個明確的評判標準。通用手語目前只是一些詞匯,而這些詞匯也是從各地手語中采集來的,未來還需要進一步完善。
實際上,我們比較過通用手語常用詞表和之前手語詞典的詞匯,發現詞匯差異并沒有我們想象的那么大。比如通用手語中的“安靜”是一個復合詞,即兩個手勢,但上海聾人可能只用一個手勢,這種情況實際上并不影響核心意義的傳達。
我特別關注田老師所做的工作,她不僅僅關注孤立詞的識別,而是關注整個句子意思的理解,這對我們有很大的啟發性。因為手語的方向和位置變化很大(例如我看到小孩學手語時在頭的位置打出“牛奶”的手語,其他人也能看懂),如果我們能找到一些工具專門提取手語中有價值的特征,可能會對手語識別技術非常有幫助。
田英利:我認為您補充得非常好。實際上,在應用過程中,即使我們無法準確識別單個詞,我們仍然可以通過視覺方法來理解整個句子的意思。
確實,要在現有技術水平下完全準確地通過視覺方法識別出所有意思有些困難。但蘇老師團隊的公司在針對特定場景研發技術,這非常能幫助到聾人。
例如,我們可以開發一些特定的產品,比如一個小軟件,專門用于醫療場景中的對話,包含與病痛或醫生溝通的詞匯。這樣,當他們去看醫生時,只需要使用有限的詞匯,比如三百到五百個,甚至幾個手勢,比如“肚子疼”、“頭疼”,就能表達他們的不適。這樣簡化復雜問題,即使不能完全解決問題,也能在實際生活中為殘障人士提供便利。
蘇劍波:是的,這是一個很好的方法。我們在實際操作中,可以先讓系統猜測病人可能的意思,然后再確認,這樣的交互可能更實用,而不是追求一次性識別出完整的意思。
田英利:在開發系統時,一定要將聾人納入系統的一部分。因為他們是系統的直接用戶,所以讓他們參與驗證可以大大提高系統的準確率。當系統明確知道他們的意思后,可以將其翻譯給醫生。即使醫生沒有學過手語,通過語音或文字的翻譯,就能理解他們的意思。
蘇劍波:是的,對于福利院、養老院或專門用于照顧殘障人士的機器人,它們可以通過人臉識別來識別出某個人習慣使用的手勢。經過一段時間的自我學習后,它們就能快速準確地識別出特定聾人的手語。但在許多應用場景中,機器人沒有這樣的機會進行學習,所以這一步就無法實現。如果能讓機器人長期陪伴一個聾人,那么這方面的壓力就會減少很多。這就是我們的方向。
03 AI的啟示
田英利:第三個問題,ChatGPT、Sora等大型語言模型在自然語言處理(NLP)領域取得了顯著成就。這些模型背后的設計理念和技術路徑,對手語識別研究有何啟示?方老師,請您先分享。
方昱春:我認為ChatGPT作為大模型的典型例子,其成功的實用化范例很大程度上依賴于海量數據的支持。那么,這對手語識別有何關聯呢?
我們認為,大型模型實際上是在大量文本語料上學習語義之間的關聯性。而手語識別處理的是視覺方式傳達的語義。人類在表達社會生活時,在語義空間中仍有許多共通之處。因此,我們認為大型模型的成功經驗可以借鑒,特別是在構建語義空間方面,可能會加速我們對手語理解的研究。
這目前還只是一個猜想,我們尚未真正付諸實踐。
此外,像Sora這樣的文生視頻大模型在多模態信息處理方面展現出了強大的能力。手語本身也是一種多模態形式,其形式是視覺信號,而內容傳達的是語言信息。因此,我們也認為Sora這種多模態的工作方式可以給我們提供很好的啟示。
主要在這兩個方面——語義和多模態——我們可以借鑒和使用大模型,對手語識別技術提供支持。
倪蘭:ChatGPT在2023年成為了最熱門的話題,從年初到年末都備受關注。在我們語言學界,ChatGPT的出現引起了巨大的轟動。以前我們認為理解語言需要依賴語言學家來提供有價值的信息,然而ChatGPT和Sora等模型似乎表明,只要有數據就足夠了。
許多學者也在探討:人工智能時代,語言學家能做些什么?
盡管在有聲語言識別,尤其是文本識別方面,人們可能認為語言學家的作用不再重要,但我認為在初期,語言學家提供的一些關于語言的重要信息是有價值的,包括語法結構等。
結構主義對我們人文領域產生了深遠影響,我們知道語音、句子和詞匯都是可以切分的,這種結構化的認識對于今天的大語言模型可能已經被遺忘,但它們最初的工作是至關重要的。
關于通用性,我們也在思考是否能夠在手語領域找到一些最核心的信息,比如它的結構。盡管目前缺乏大規模的數據集,但也許我們可以找到一些關鍵的手語信息,這可能對手語識別有一定的推動作用。在與方老師和其他老師的溝通中,我們發現,許多老師認為手語是一個無法結構化的混沌整體,但一旦進行了結構化分析,就可以反復應用這些規律,這就是結構的力量。
因此,我們可以從ChatGPT中得到啟示,思考在手語識別中哪些核心架構是關鍵的。
我記得在早期的GPT-3.0版本中,有些句子的搭配感覺有問題,但經過不斷的訓練后,它就能夠擴展。我們是否也能在手語識別中找到一些關鍵的結構?比如手語動詞的方向性,如果我們知道這一點,那么我們就不會將“我愛你”和“你愛我”識別成兩個獨立的手勢,而是能夠理解方向性動詞的開始和結束位置是可以標記成句子的主、賓語。還有手指的朝向,它也可以表示賓語,這些都是結構化的特征。我們在分析手形時發現,中國手語中表示”錢“的時候,很多人認為必須拇、食指要捏成圓形。但實際上,在實際使用中并不會完全捏圓,這時不捏圓和捏圓的手形在意義上沒有差別。當我們在語料中發現這兩種手形實際上不區別意義時,這是否可以提高識別的準確性?
所以,我認為一方面ChatGPT告訴我們需要大量數據的積累,另一方面也提示我們有些核心信息需要早期放入到標注中,或者在構建手語識別系統時,可以提供給計算機一些知識庫信息。
正如大家所討論的,實際應用中,每次向ChatGPT提問得到的回答都會有所不同,我們可以在缺乏數據的情況下通過關鍵信息讓系統不斷自我學習,自我應用。
當我們缺乏足夠的語言學者和標注人員時,未來實現自動標注可能是解決大數據問題的途徑,因為系統可以自適應地學習。
蘇劍波:這個問題我已經思考了很久。包括ChatGPT和Sora這樣的工具,從技術發展的角度來看,它們都是非常清晰的人工智能工具。
ChatGPT主要是基于文本的人工智能工具,而Sora則是基于圖像和視頻的人工智能工具。因此,從手語識別的角度來看,我個人感覺Sora對手語識別的幫助可能要超過ChatGPT。
我們一直在思考的問題是,傳統上我們總是需要從圖像或視頻中提取各種特征,無論是幾何特征還是統計特征,并評價這些特征能否表達圖像所代表的語義含義。從這個角度來看,無論是目標識別、運動分析、顏色識別,還是其他類似的任務,最終都要拓展到語義層面。
但我一直思考的是,比如我們觀看一段視頻或電影時,我們關注的是視頻中的人物、情節和行為,我們可以從頭到尾理解視頻的內容和意義,而不會過分關注計算機提取的圖像或視頻特征。那么我們在做手語識別時,真的需要通過提取視頻中的特征來識別手語的語義嗎?
當然,計算機視覺的傳統理論都是這樣,選用什么樣的特征表達關注的語義決定了基于計算的人工智能系統的性能,因此而考慮特征選擇和提取的魯棒性、速度和準確性。
Sora給我的沖擊是,它是通過視頻的方式來理解內容,但它的機理是什么?我不清楚。
它是通過傳統意義上的計算機視覺特征提取來完成視頻理解,還是通過其他手段?
這激發了我們對手語知識表達最有效的手段是什么的思考,包括語義的拓展和新的情緒、語義生成手段是什么?
如何讓機器人能夠生成手語來表達自己的意思,或者理解殘障人士的意思,并通過手語解釋給他們聽?
在這個過程中,可能真的需要理解人類的思考或意圖,這種計算模型是什么?
是否一定要基于我們在計算機視覺中學到的統計或幾何特征?
我不清楚,但我體會到了ChatGPT和Sora給我的這種反向刺激。
觀察人與人之間的交流時,包括健康聽人和聾啞人的交流,人們是如何通過各種手勢來理解他人的情緒或殘障人士的手勢含義的。
反過來說,計算機的計算能力遠遠超過人類,它是否一定要模仿人類不一定是計算方式的理解他人或殘障人士手勢的過程?
在這個過程中,它應該使用什么樣的特征和模型來表達?這些模型或特征未必是人類需要或使用的。
我們以前總是說人工智能首先要學習人類是如何獲得智能的,或者智能是如何進化的。我現在懷疑,計算機在發展人工智能或計算智能時,是否一定要走人類智能生成、發展和進化的同一條路?
田英利:回答您這個問題確實頗具挑戰性,因為關于人腦如何產生智能的問題,目前科學界還沒有確切的結論。
眾所周知,任何關于人類智能進展的研究,都會對計算機人工智能的發展產生重大影響。然而,即便是小孩子的思維也不是二進制的,而計算機只能通過0和1的二進制來進行運算。計算機必須依靠其強大的計算能力來模擬,甚至達到小學生水平的智能。
最近,得益于強大的計算力和海量數據,ChatGPT似乎實現了一個飛躍。但我們也必須承認,盡管ChatGPT取得了巨大進步,它提供的想法或答案并不總是準確的。有時我們開玩笑說,ChatGPT經常一本正經地胡說八道,看似頭頭是道,實則可能是錯誤的。
為什么會出錯?因為它缺乏判斷能力,只能依據以往的大數據來得出結論。
Sora也是如此,它可以基于幾個關鍵詞生成逼真的視頻,但這些視頻真的符合我們最初的預期嗎?并不一定。因此,我認為使用大數據進行手語識別仍然有一段路要走。
在我們的研究團隊中,我們在等待收集數據庫和標注數據的同時,采取了一種方法:我們直接從YouTube上獲取那些已經有手語翻譯的演講視頻,將演講內容作為標注,使用視頻中的小框內的手語進行識別,得到了不錯的結果。但這些都是比較官方的內容,涵蓋的范圍相對有限。另外,視頻中手語的質量也非常有限。
不過,我認為將來有了強大的計算力,可以將這類數據作為一種可行的備選大數據資源,利用現在的自主學習或無需標注的學習技術,自動剔除不準確的部分,提取最關鍵的語義信息。
這樣,我們就能理解手語者在表達什么,這已經足夠了。我們不需要精確地識別每一個詞。這是我們自己的一種嘗試和探索。
蘇劍波:目前我們通過這種方法實現目標是完全可行的。但從技術的完備性角度來看,我個人并不特別喜歡所謂的標注過程,因為任何標注都可能帶有標注者個人的主觀意圖。
正如在人工智能領域,比如早期讓計算機學習下圍棋,最初是通過學習人類的棋譜來進行的。但后來發現計算機無法判斷人類高手棋譜中的錯招和漏招,因此后來改變了策略,讓計算機自我對弈。
現在,計算機只知道圍棋規則是由人類設定的,但它通過自我進化來提高下棋技術,而不是通過學習人類的棋譜來達成目標。計算機圍棋已經通過這種方式達到了遠超人類的水平,但它并非是通過學習人類智能的方式實現的。
這個案例對我來說是一個極具啟發性的思路,它表明機器智能的進化和提升未必需要通過學習人類智能來實現。這是我的觀點。
田英利:然而,在最初階段,我們仍然需要人類的標注,正如您提到的圍棋例子,它有一套完整的規則。
對于手語和語言,尤其是受到地域限制的情況下,規則越明確,計算機學習的效果就越好。
但當規則不明確時,我們該怎么辦?最初的時候,一定要有人來教它,告訴我們如何進行。
方昱春:算法應該還是依賴了大量的棋譜數據,展現了記憶的巨大優勢。
倪蘭:蘇老師,這個問題在語言學上有一個解釋。
根據喬姆斯基(當代著名的語言學家和思想家)的理論,所有人類都有語言的潛質和本能,但如果把一個孩子扔到森林里,不讓他接觸人類,他其實很難學習到語言,仍然需要激發,需要父母不斷地為他提供語言數據的刺激和糾錯機制。
我們教孩子語言時,并不是只教他“a是b”這樣的句型,他就能照做。他會將規則用到極致,創造出我們從未教過的新句子。這其實和機器學習是一樣的,我們告訴它基本規則,然后它產生新的東西。當然,人類的語言機制可能更復雜。
所以,我們目前對手語的構造了解還不夠。很多時候,即使我自己的手勢并不標準,但有時候一個表情就能讓聾人立刻理解我想說什么。
我認為,我們的視覺捕捉到的信息比我們通過有聲語言表達的信息要多得多。如果我們對手勢和身勢語有更深入的了解,一定能幫助我們更好地理解他人的意圖和言語含義。手語雖然源自身勢語,但它已經發展出了一個相對完整的體系。
我們首先對身勢語了解不足,然后對發展出的手語的語法規則也沒有完全掌握,這就帶來了識別的復雜性。聾人在表達時,同時也會使用身勢語。我們可以做一個實驗,觀察視頻中的人邊說話邊打手勢,當把聲音關掉時,你完全不知道手勢代表的含義。聾人能將他們的身勢語和手語融合在起來進行表達。因此在手語識別時,我們如果不能區分身勢語和手語,就會覺得復雜,沒有規則。
手語是一種語言符號系統,它的表達有一定的限制性和語音規則。但因為它太復雜,融合了很多多模態要素,包括表情體態等,而我們對表情的認識和了解還遠遠不夠,這就是為什么手語識別起來異常很困難。
田英利:我覺得蘇老師提出的問題非常有趣,技術上如何解決?
倪老師談到的也確實如此,有時候我們的語言只占交流的30%,大部分時候,尤其是在家庭中,有時甚至不需要說話,一個眼神就足以傳達意圖。人的交流有多個渠道,我認為不需要準確地識別出每一個字、每一個細節才能進行應用。
所以,我們現在自然地過渡到了下一個討論議題,即盡管技術困難,包括特征提取的難度,但我們如何克服這些困難,在現有的技術條件下盡可能地幫助聽障人士的生活?
04 技術與現實的碰撞
問題四:從技術研究走向實際應用,我們可能會遇到哪些現實困難?如何將手語識別技術更好地融入到聽障人士的日常生活中?
方昱春:從計算機應用系統的角度來看,難點集中在“接口設計”上。
許多信息類產品,如果對使用者的約束太多,例如人臉識別時需要用戶配合特定的姿勢、光照條件和設備,那么用戶在受限的環境中使用,體驗就會不佳,最終這項技術也可能被拋棄。為了讓聾人能更好地使用我們的技術,應該提供一種更自然、更無感的體驗,讓他們能方便地在更多公共場合中感知語言的表達。因此,我認為一個適當的接口是走向實際應用中的一個典型問題。
還有其他一些問題我們在前面的討論中已經涉及過,比如手語的變化性很大,我們如何滿足用戶的個性化需求?這些都是需要解決的問題。
另外,我們也多次提到手語識別的難度很高,這會影響我們開發的技術的精度,這些情況都是存在的,這些因素都會影響到整個技術的實際落地和推廣。
倪蘭:去年我和方老師合作指導了一個關于應急手語的學生科創項目。大家普遍認為聾人群體在日常生活中會頻繁使用手語,但實際上,聾人群體是多元化的,也包括那些不會打手語的聽障人士,他們的手語熟練程度和教育水平也各不相同。他們對字幕和文本的理解能力也不盡相同,因此我們需要確定哪些場景最需要手語識別技術。
有時,我們在新聞中看到的手語翻譯可能并不總是被聾人理解,但它代表了一種對語言權益的尊重。
如果手語識別技術能夠發展到聾人在日常生活中都能方便使用,就像拿出手機發短信那樣簡單,那將是一個巨大的進步。之前vivo曾推出過手語識別和合成技術,聾人朋友嘗試使用后發現,輸入一句漢語可以逐字打出手勢,但如果要識別一個聾人打的手語句子,目前的技術水平還做不到。
在需求分析方面,我們可能需要深入了解聾人最迫切的需求場景,比如醫療領域,中老年聽障人士的需求尤其大,他們可能更依賴手語。與年輕人不同,他們可能不太熟悉語音轉文字的電子設備。在這種情況下,我們需要考慮手語數據應該采集自哪些人群,以及把醫療術語翻譯成手語的挑戰,因為很多術語可能在手語中并不存在,直接翻譯反而會造成誤解。
因此,我認為可能需要將“語音識別”與“手語識別”結合起來使用,并且要考慮數據庫采集對象的多樣性。
另一個場景是教育領域,聾人也需要學習手語。在學習手語的過程中,提供標準化和規則化的內容是很重要的。
例如,鄭州工程技術學院等院校在招收全國各地聾人學生時,會先培訓他們共同使用一套手語,然后在四年的學習中不斷練習和使用。
在教育領域,我們需要考慮如何為聾人提供課程支持。目前,招收聾人的學校大多使用字幕機,但我們需要更深入了解聾人在哪些場合需要這些產品,并考慮在窗口、銀行等公共服務場所的應用。我認為手語識別產品可能需要結合多元化的模式,如果只依賴單一的手語識別,可能會在某些場合受到限制,因為情況特別復雜,尤其是在中國這樣地域廣闊的國家。手語有很多地域分支,統一的標準可能無法滿足所有聾人的需求。
蘇劍波:我這邊的工作主要是關于機器識別聾人的手勢,并將其翻譯給健聽人,以便在各種環境中,如服務窗口、教育場所或醫療場所,促進聾人與健聽人之間的交流。
但我一直不太確定,應該使用什么樣的工具來實現這一點。
比如,是否讓健聽人手持iPad,實時拍攝聾人的手勢,然后屏幕上就能顯示出他們所說的內容?
這種方式有助于促進雙方的交流。然而,在實際應用中,聾人往往不愿意被拍攝。即便解釋說拍攝的目的是為了翻譯他們的手勢,他們通常也不愿意接受。除非在迫不得已的情況下,比如在政府部門或醫院需要辦事時,他們才會勉強接受這種方式的翻譯。但在正常情況下,比如在馬路上交流,如果用設備拍攝他們,他們肯定會反感。
我一直在思考,這種技術究竟應該如何轉化為實際應用?甚至連最基本的工具使用方式都沒搞清楚。我們通常習慣于使用手機,比如不認識的花,就用百度拍一下識別,這是我們日常生活中常用的工具。
但與聾人交流時,我們不能總是帶著iPad,或者讓他們在iPad顯示下進行手勢,然后翻譯出來。我不知道該如何應對這種情況。
倪老師提到,在特定領域,如醫療和教育,可能不得不使用某些工具來幫助理解他們的意圖。但如果要設計一個適合聾人使用的產品,或者一個可以隨身攜帶的設備,讓他們在需要與正常人交流時,能夠實時顯示他們的意圖,那將是非常有益的。
但這樣的產品是什么呢?我還不太清楚。就像手機那樣,但具體該如何操作呢?是通過拍攝手勢,然后在手機屏幕上直接表達他們的意圖,還是通過語音說出來?我還在探索這方面的解決方案。
田英利:針對蘇老師的問題,我認為我們的討論非常有益。從技術到產品的落地,確實還有許多困難需要克服,路還很長。
關于應該開發什么樣的產品,近年來VR和AR技術被頻繁提及。我們需要一種自然的產品,而不是讓人們感覺像是扛著攝像機或iPad來錄制。
想象一下,如果聾人可以戴上一種眼鏡,這種眼鏡內置有針孔攝像頭,能夠捕捉他們自己的手勢,并將這些手勢直接翻譯成語音。
當我知道他們的意思后,我就可以回答他們。這種眼鏡當然也會有麥克風,能夠捕捉我的語音,這時就不需要手語,而是直接將我的語音轉化成文字,顯示在他們的AR眼鏡上。
這樣一來,我們就能理解蘇老師所講的情況,即不僅僅是通過攝像頭來識別手語,而是將語音、文字和部分肢體語言這些多渠道信息綜合起來,幫助我們進行溝通交流。我們不需要成為他們的“靈魂伴侶”,只需要大致理解他們的意圖,這對他們的生活就已經是很大的幫助了。
此外,蘇老師提到了一個非常重要的問題,即關于拍攝的隱私問題。在攝像頭無處不在的今天,我們如何在保護隱私和技術發展之間找到平衡?
05 倫理與隱私
問題五:在開發和部署手語識別系統時,如何確保聽障人士的隱私得到保護?我們如何在技術創新與倫理道德之間找到平衡?
倪蘭:這確實是我們在構建數據庫時一直面臨的困擾。起初,我并沒有強烈的隱私保護或知識產權意識,是方老師向我強調了在計算機領域中數據保護的重要性,我才開始重視這個問題。
我們采集了大量的數據,但在采集過程中,我們都會與聾人被調查者簽訂協議,確保他們的隱私受到保護。因此,在數據的公開使用上,我們非常謹慎,會明確詢問數據的使用目的。
有時,一些企業會委托進行數據采集工作,我們也會非常小心,擔心數據被用于其他目的。
文本數據的情況不同,因為ChatGPT所使用的大部分文本數據都是公開發表的,如新聞報道、出版的書籍或學術論文等。但手語數據無法屏蔽肖像,即使是在臉部任何部位打上馬賽克,都會導致語義信息損失。眼睛是表情中最重要的部分,我們經常說它們是心靈的窗戶,眼睛的睜大、閉合,甚至眼神都包含了豐富的信息。如果在處理數據時屏蔽了這些信息,就無法進行有效的識別。
因此,我們目前的做法是--有限度的授權使用。
我們確實意識到,如果不發布數據,它們就無法得到廣泛應用,但一旦發布,又如何保護這些信息呢?
因此,對于表示不愿讓自己的信息被發布的聾人,我們都會做出承諾。保留了原始數據,但僅在不公開的情況下,用于我們自己的研究和觀察。
蘇劍波:關于隱私保護的問題,我并沒有一個特別好的答案。但在這個過程中,我一直在向遇到的人們解釋,在公共場合,無論你是殘障人士還是健聽人,大家都是沒有隱私的。
當然,如果有人惡意使用你的肖像或生理特征,那就是另一回事了。這種情況下,應該從法律角度對濫用者進行懲罰。
實際上,任何人只要不在自己家里,在外面就都沒有隱私。所以,隱私該如何保護?如何進行過濾?
包括馬賽克等手段,現在都可以用人工智能算法恢復成正常狀態,這些技術已經沒有什么秘密可言。在這個問題上,確實很難做到完全的過濾。當然,倪老師剛才提到的也很對,我們需要尊重使用者的個人意愿。
我會告訴他們,我會如何使用他們的生理圖像,如果他們同意,我就使用;如果不同意,我就不使用。
但實際上,我也不斷向他們解釋,在公共場合下,你的圖像很容易被別人使用。所以,讓他們逐漸了解現代科技已經發展到何種程度。通過我幾次解釋后,他們也能理解了。我會給他們看各種各樣的視頻,讓他們明白公共場合下的監控是多么普遍。
但如果有人惡意使用他們的信息,他們完全可以起訴對方,我也會提供幫助。這樣,他們就能理解這個問題了。目前沒有特別好的辦法,每個人都有自己的權利,不容侵犯。
方昱春:盡管在公共場合,我們的部分隱私確實容易泄露,但從管理的角度來看,我們仍然需要建立完善的制度來進行倫理審查。
例如,針對手語識別項目,我們可以邀請專家和聾人代表共同制定符合道德倫理要求的規則。
在數據采集過程中,就像我和倪老師在制作數據集時所做的那樣,我們需要向聾人透明地說明為何收集這些數據,以及我們將如何使用這些數據,并征得他們的同意。這本身就是一種保護措施。
在數據管理上,我們也應該制度化,盡量尊重并保護數據,防止泄露。尤其是在涉及商業運作時,我們需要特別注意,因為不當處理可能會讓人感到被侵犯。如果能通過預防來保護隱私,那么從使用者的角度來看,他們會更加滿意。
在部署手語識別系統時,我們應該避免收部署那些與個人相關的信息。對于這部分數據,我們可以進行加密,并在傳輸和存儲過程中將安全性放在重要位置。我們需要仔細考慮哪些數據應該上傳到云端,哪些不應該。
隱私保護也是我們領域的一個重要研究方向。我自己也在研究面部隱私保護技術,目前我們稱之為“Face DeID”。早期DeID會對面部打馬賽克或添加噪音作為保護方法,但這樣就無法保留手語的語言學特征。現在,我們可以使用AIGC等技術,在保留手語語言學特征的同時,保護個人身份信息。
我認為我們的技術有可能實現一個較好的平衡:我們可以利用數據,但同時也能確保使用的數據是安全的。如果我們考慮全面,制度合理,在技術進步同時也捍衛倫理道德。
田英利:我認為各位老師的討論非常精彩,特別是在手語識別方面,因為我們需要面部表情、手勢以及身體動作的配合。所以,如果簡單地對視頻打馬賽克或其他處理,其他人可能就無法使用這些數據了。正如方老師所提到的,信息保護在這一領域中極為重要。
我在IBM工作時,我們組參與過指紋識別項目。指紋是唯一的,一旦丟失,就無法再用于銀行密碼等。但我們的同事提出了一種可撤銷的生物特征識別方法。這啟發我思考,未來我們或許可以對手臉進行某種變換,既保留了對計算機視覺有用的信息,又不泄露個人的重要信息,這是一個值得探索的方向。
06 讀者提問
1,用多模態大模型來做識別手語會不會更好?
田英利:關于使用多模態大型模型進行手語識別的問題,我的回答是肯定的。當然,采用多模態的方法肯定會帶來更好的識別效果。目前,研究和開發的趨勢正是朝著這個方向發展。因此,簡單來說,使用多模態大型模型進行手語識別是一個明確且必要的前進方向。
2.有團隊正在考慮如何建立一個類似于“手語-GPT”的基礎模型,能兼容全球各地的手語。那么,手語語法和方言是難題嗎?還是說,只要數據充足就能完成“暴力美學”?
方昱春:這個問題讓我想起了我國著名的語言學家趙元任,他是一位能夠在極短的時間內學會不同地方方言和多國語言的超級語言學家。
他掌握和使用語言的速度非常快,是人類智能的一個杰出代表。雖然這樣的例子可能非常罕見,但如果我們的人類能夠具備這樣的能力,對多種方言和語言具有極高的適應性,那么我們也許能夠讓一個“手語GPT”模型也具備這種多方言的適配能力。
因為盡管語言千變萬化,但每種語言都有其共性,不是完全無法互相學習的。因此,我認為這是一個值得探索的有益想法。
倪蘭:語言學的終極目標是探索人類語言的普遍性原理。包括美國語言學家喬姆斯基在內,許多學者都在尋找方案,希望用一套規則來解釋人類語言的共性,語言的核心在于形式如何表達意義,我們希望找到語言形式的共同規則,以及與意義的匹配方式。
比如,所有的語言都包含否定和疑問的表達,盡管表現形式各異;又比如每種語言中能夠表達意義的語音數量是有限的。但我們尚未找到一套完美的規則來解釋所有人類語言,這是因為我們對語言的理解還不夠深入。
有時看國外的聾人電影或電視劇,我發現不同國家的手語之間存在一定的相似性。
例如,我們會看到日本手語與中國手語有很多相同的手勢,這表明手語的前身——身勢語——在人類中有著共通之處。如大多數人通過搖頭表示否定,盡管也有的文化中使用仰頭來表示否定。
我相信,手語之間的可懂度可能比有聲語言高。
有研究表明,使用不同手語的人之間的可懂度,高于使用不同有聲語言的人。周文罡教授也曾提到,他們使用美國手語、德國手語等其他國家的手語數據集來訓練,這表明其中存在一些共通的元素。
我們目前對手語的語音分析都基于美國學者William .Stokoe對手語的手形、位置和運動的切分,以及后來加入的方向和表情體態分析。這些基本特征分析在每一種手語中都具有價值。因此,如果我們能夠構建這樣一個模型,并將這些特征導入手語的分析標注中,我們一定能發現許多人類語言共通的東西。
蘇劍波:我的想法可能相對簡單,但我認為這里有一個值得探討的小方向。我們知道人類有多種不同的語言表達方式,包括口語、手語、肢體語言,以及各種方言等,這些都是非常個性化的表達形式。我在思考,是否有可能通過識別個體的腦波來取代對語言的感知和手語的識別?這是否是一個可行的方向?
因為腦波的感知更加個性化,這可能會為我們提供一個全新的交流方式。我提出這個問題,希望能與大家一起探討這個可能性。
田英利:馬斯克的Neuralink項目就在探索人腦與計算機接口的可能性。他們最近似乎也取得了一些進展,這可能是最直接的方式來實現人腦與機器的交流。
至于“手語GPT”,從技術角度看,如果我們能夠獲取全球范圍內的大規模數據,我認為是有可能的。就像現在不同語言之間的翻譯,曾經被認為是一項艱巨的任務,但現在ChatGPT可以輕松地在英文和中文之間切換,沒有任何問題。
但從實施的角度來看,我認為還存在一些困難。畢竟,聾人群體相對較小,當需要大量的計算資源和技術支持時,是否有政府或產業愿意投入巨大的財力和數據來服務這樣一個相對較小的受眾群體?
他們需要考慮實際的投資回報,如果投入巨大但收益有限,甚至可能不賺錢,只有少數人受益,他們是否愿意這樣做?
因此,我認為對于手語識別或幫助殘障人群的項目,需要政府的政策支持和資助,以及不同產業的協助。但這些項目能盈利多少,我持保留態度。
此外,殘障人士本身對高科技的接受程度可能有限,加之全球老齡化問題,一些老年人可能存在聽力或視力損失。讓他們使用電話或平板電腦可能更加困難。我們如何讓這些弱勢群體享受到科技的紅利,需要政府的大力推廣和支持,單靠個人力量是難以實現的。
不知不覺,我們已經討論了兩個小時,非常感謝大家的分享。由于時間關系,我們今天的論壇討論就要告一段落了。非常感謝大家,感謝為我們提供了這樣一個交流思想、碰撞智慧的平臺。
希望在未來的論壇中,能有更多有需求的人士加入我們的討論。
也希望我們的技術能夠在不久的將來,真正應用到他們的日常生活中。
本文作者吳彤,關注AI for Science,交流認知,互通有無。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。