澳大利亞《對話》雜志:翻譯技術替代不了語言學習
澳大利亞《對話》雜志11月21日文章,原題:“你的美國是正常”:翻譯技術真的讓語言學習變得多余了嗎? 每天,數以百萬計的人在社媒上發出問候開始新的一天,他們誰也沒想到會因為這個友好的晨間儀式而被捕。但這正是2017年發生在一名巴勒斯坦建筑工人身上的事情。當時他在臉書上自拍的配文“早上好”被自動翻譯成“攻擊他們”。說阿拉伯語的人會立刻認出該配文原話是說“早上好”的非正式方式,但人工智能不是這樣。眾所周知,機器不擅長處理語言變體,而這正是人類語言的一個關鍵特征。
鑒于近來自動翻譯技術的進步,很多人開始相信,人類尤其是說英語的人,不再需要學習其他語言。當翻譯軟件可以替我們做時,為什么還要費這個勁呢?事實上,一些以英語為母語的大學正是用這個理由來取消語言課程。不幸的是,因為機器語言學習和人類語言學習在基本方面不同,機器的語言技術還遠遠不能取代人類的語言技能。
就機器翻譯而言,算法在大量文本上進行訓練,但這些文本幾乎總是基于語言的標準版本,不包括方言和俚語。例如,“deadly”在標準英語中意味著“致命的”,這就是訓練數據中出現的內容。但土著澳大利亞英語中“deadly”(“卓越的”)的含義對機器翻譯來說是種困擾。如果你在任何翻譯軟件中輸入“Deadly Awards”(“卓越成就獎”),你得到的翻譯結果都只會是“致命的獎項”。并且,每種語言的語法形式也不一樣,將簡單的英語“我是一名學生”翻譯成德語會被機器加上語法上的性別詞性,因此最終會被翻譯成“我是一名男學生”或“我是一名女學生”。
此外,有些語言因其背后有強大的民族國家為后盾,數字語料庫的資源豐富。另一些則不然。大型語言模型背后超過90%的訓練數據都是英語,其余的來自幾十種語言,這些語言的數據庫大小不一。還有一些語言的訓練數據是根據英語的訓練模型改建的,其實進一步鞏固了英語的主導地位。
如今,翻譯軟件越來越多地被用于高風險環境,比如在醫院,工作人員可能會試圖繞過口譯,與英語水平有限的患者進行快速溝通。但這也會導致大問題,例如,病人的出院說明上寫著“你的美國(United States)是正常”——這是由于在醫學語境中“超聲”的縮寫“US”被機器錯誤地翻譯為“美國”。因此,人們一致認為翻譯應用程序只適用于無風險或低風險的情況。不幸的是,有時連自拍上的配文都可能變成高風險情況。
可以說,這里描述的所有錯誤都可以通過更多的訓練數據來解決。但這有兩個問題。首先,人工智能擁有的訓練數據已經超過人類所能掌握的數量,但它依然會犯一些在語言學習上投入少得多的人都不會犯的錯誤。其次,訓練機器學習語言是非常昂貴的,取消人類的語言教學項目同樣也有成本。如果放棄語言課程,我們將永遠無法訓練人類達到高級語言程度。語言是多樣、模糊、可變、相互關聯和高度社會化的,算法則相反。如果相信機器可以代替我們完成語言工作,我們使用語言進行交流、表意、建立關系和建立群體的意義就失去了人的特質。(作者英格麗德·皮勒,陳欣譯)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。