首頁 > AI資訊 > 最新資訊 > 【技術(shù)白皮書】第五章:信息抽取技術(shù)的未來發(fā)展趨勢和面臨的挑戰(zhàn)

【技術(shù)白皮書】第五章:信息抽取技術(shù)的未來發(fā)展趨勢和面臨的挑戰(zhàn)

新火種    2023-10-31

5.信息抽取技術(shù)的未來發(fā)展趨勢和面臨的挑戰(zhàn)

5.1NER技術(shù)的未來發(fā)展趨勢和面臨的挑戰(zhàn)

論文《Survey on Deep Learning for Named Entity Recognition》總結(jié)了NER技術(shù)面臨的挑戰(zhàn)和未來發(fā)展方向。隨著建模語言的進步和實際應用的需求,NER得到研究人員更多的關(guān)注。另一方面,NER通常被視為下游應用程序的預處理組件。這意味著特定的NER任務由下游應用程序的需求定義,例如,命名實體的類型以及是否需要檢測嵌套實體。以下是NER研究的以下進一步探索方向。

1.細粒度NER和邊界檢測。

雖然許多現(xiàn)有研究《Neural architectures for named entity recognition》、《End-to-end sequence labeling via bidirectional lstm-cnns-crf》、《Robust lexical features for improved neural network named-entity recognition》)都集中在一般領(lǐng)域的粗粒度NER上,但論文期望在特定領(lǐng)域?qū)毩6萅ER進行更多研究,以支持各種實際的word應用(《Software-specific named entity recognition in software engineering social content》)。細粒度NER面臨的挑戰(zhàn)是命名實體類型的顯著增加,以及允許一個命名實體具有多個命名實體類型所帶來的復雜性。這需要重新訪問常見的NER方法,其中實體邊界和類型同時被檢測,例如,通過使用B-I-E-S-(實體類型)和O作為解碼標簽。值得考慮的是,將命名實體邊界檢測定義為一項專用任務,以檢測命名實體邊界,同時忽略命名實體類型。邊界檢測和命名實體類型分類的解耦實現(xiàn)了邊界檢測的通用和魯棒的解決方案,這些解決方案可以在不同領(lǐng)域共享,并為命名實體類型分類提供了專用的領(lǐng)域特定方法。正確的實體邊界還能有效地緩解實體鏈接到知識庫中的錯誤傳播。已經(jīng)有一些研究,認為實體邊界檢測是NER中的中間步驟(即子任務)。據(jù)論文所知,目前還沒有專門針對實體邊界檢測的工作來提供一個魯棒的識別器。論文期待著在未來這一研究方向的突破。

2.聯(lián)合NER和實體鏈接。

實體鏈接(EL)也稱為命名實體規(guī)范化或消歧,旨在參考知識庫為文本中提到的實體分配唯一身份,例如通用領(lǐng)域的維基百科和生物醫(yī)學領(lǐng)域的統(tǒng)一醫(yī)學語言系統(tǒng)(UMLS)。大多數(shù)現(xiàn)有工作將NER和EL單獨作為流水線(pipeline)設(shè)置中的兩個獨立任務來解決。論文認為,成功鏈接的實體(例如,通過知識庫中的相關(guān)實體)所攜帶的語義顯著豐富。也就是說,鏈接實體有助于成功檢測實體邊界和正確分類實體類型。值得探索聯(lián)合執(zhí)行NER和EL,甚至實體邊界檢測、實體類型分類和實體鏈接的方法,以便每個子任務都能從其他子任務的部分輸出中受益,并減流水線(pipeline)設(shè)置中不可避免的錯誤傳播。

3.有輔助資源的非正式文本基于DL的NER

基于非正式文本或用戶生成內(nèi)容的DL-NER的性能仍然很低。這需要在這方面進行更多的研究。特別是,論文注意到,NER的性能顯著受益于輔助資源的可用性,例如用戶語言中的位置名稱詞典。雖然沒有提供強有力的證據(jù)表明涉及地名詞典,作為額外的特征可以導致NER在通用領(lǐng)域的性能提論文認為輔助資源往往是必要的,以更好地了解用戶生成的內(nèi)容。問題是如何為用戶生成的內(nèi)容或特定領(lǐng)域的文本上的NER任務獲取匹配的輔助資源,以及如何有效地將輔助資源合并到基于深度學習的NER中。

4.基于DL的NER的可伸縮性。

使神經(jīng)網(wǎng)絡模型更具可伸縮性仍然是一個挑戰(zhàn)。此外,當數(shù)據(jù)量增加時,仍然需要優(yōu)化參數(shù)指數(shù)增長的解決方案(《A review on deeplearning forrecommendersystems:challenges and remedies》)。一些基于DL的NER模型以巨大的計算能力為代價取得了良好的性能。例如,ELMo表示用3×1024維向量表示每個單詞,模型在32個GPU上訓練了5周(《Contextual string embeddings for sequence labeling》)。Google BERT表示在64個云TPU上進行訓練。然而,如果終端用戶無法訪問強大的計算資源,他們就無法對這些模型進行微調(diào)。開發(fā)平衡模型復雜性和可伸縮性的方法將是一個有前途的方向。另一方面,模型壓縮和剪枝技術(shù)也可以用來減少模型學習所需的空間和計算時間

5.NER的深度遷移學習。

許多以實體為中心的應用程序求助于現(xiàn)成的NER系統(tǒng)來識別命名實體。然而,由于語言特征的差異以及注釋的差異,在一個數(shù)據(jù)集上訓練的模型可能無法在其他文本上很好地工作。盡管有一些研究將深度遷移學習應用于NER,但這個問題尚未得到充分探討。未來應致力于如何通過探索以下研究問題,有效地將知識從一個領(lǐng)域轉(zhuǎn)移到另一個領(lǐng)域:(a)開發(fā)一個能夠跨不同領(lǐng)域工作的魯棒識別器;(b) 探索NER任務中的zero-shot, one-shotfew-shot learning;(c) 提供解決跨域設(shè)置中的域不匹配和標簽不匹配的解決方案。

6.一個易于使用的工具包,用于基于DL的NER。

最近,R?der等人開發(fā)了GERBIL(《GERBIL - benchmarking named entity recognition and linking consistently》),它為研究人員、最終用戶和開發(fā)人員提供了易于使用的界面,用于對實體注釋工具進行基準測試,目的是確保可重復和可架構(gòu)的實驗。然而,它不涉及最新的基于DL的技術(shù)。Ott介紹了FAIRSEQ(《fairseq: A fast, extensible toolkit for sequencemodeling》),這是一個快速、可擴展的序列建模工具包,特別是用于機器翻譯和文本描述。Dernoncourt等人實現(xiàn)了一個名為NeuroNER的框架(《NeuroNER: an easy-to-use program for named-entity recognition based on neural networks》),它只依賴于循環(huán)神經(jīng)網(wǎng)絡的一個變體。近年來,許多深度學習框架(例如TensorFlow、PyTorch和Keras)被設(shè)計為通過高級編程接口為設(shè)計、訓練和驗證深度神經(jīng)網(wǎng)絡提供構(gòu)建模塊。論文設(shè)想,一個易于使用的NER工具包可以指導開發(fā)人員使用一些標準化模塊來完成它:數(shù)據(jù)處理、輸入表示、上下文編碼器、標記解碼器和有效性度量。論文相信,專家和非專家都可以從這些工具包中受益

7.數(shù)據(jù)標注

受監(jiān)督的NER系統(tǒng),包括基于深度學習的NER,在訓練中需要大量帶標注的數(shù)據(jù)。然而,數(shù)據(jù)標注非常耗時和昂貴。對于許多資源匱乏的語言和特定領(lǐng)域來說,這是一個巨大的挑戰(zhàn),因為需要相關(guān)領(lǐng)域?qū)<襾韴?zhí)行數(shù)據(jù)標注的任務。

由于語言的模糊性,標注的質(zhì)量和一致性都是主要問題。例如,同一個命名實體可以用不同的類型進行注釋。例如,““Baltimore defeated the Yankees”一句中的“Baltimore”,在MUC-7中被標記為位置,在CoNLL03中被標記為組織。在CoNLL03和ACE數(shù)據(jù)集中,“EmpireState”和“EmpireState Building”都被標記為位置,導致實體邊界混亂。由于數(shù)據(jù)標注的不一致性,即使兩個數(shù)據(jù)集中的文檔來自同一個域,在一個數(shù)據(jù)集中訓練的模型在另一個數(shù)據(jù)集中也可能無法很好地工作。

為了使數(shù)據(jù)注釋更加復雜,Katiyar和Cardie(《Nested named entity recognitionrevisited》)報告說嵌套實體相當常見:GENIA語料庫中17%的實體嵌入到另一個實體中;在ACE語料庫中,30%的句子包含嵌套實體。需要開發(fā)適用于嵌套實體和細粒度實體的通用注釋方案,其中一個命名實體可以被分配多種類型。

8.非正式文本和沒見過的實體。

正式文件(如新聞文章)的數(shù)據(jù)集報告了不錯的結(jié)果。然而,在用戶生成的文本上,最佳準確率分數(shù)略高于40%。非正式文本(如推文、評論、用戶論壇)的NER比正式文本更具挑戰(zhàn)性,因為其簡短并有噪聲。許多用戶生成的文本也是特定領(lǐng)域的。在許多應用場景中,NER系統(tǒng)必須處理用戶生成的文本,例如電子商務和銀行中的客戶支持。評估NER系統(tǒng)的魯棒性和有效性的另一個有趣維度是,它能夠在新出現(xiàn)的文本中識別不尋常的、以前沒見過的實體。

5.2實體關(guān)系抽取技術(shù)的未來發(fā)展趨勢和面臨的挑戰(zhàn)

在北京林業(yè)大學的論文《實體關(guān)系抽取方法研究綜述》中提出:目前,實體關(guān)系抽取技術(shù)日漸成熟,但依然需要研究人員投入大量精力進行不斷探索,通過對現(xiàn)有實體關(guān)系抽取研究工作進行總結(jié),在以后的研究中可以從5個方面展開相關(guān)的研究

1.從二元關(guān)系抽取到多元關(guān)系抽取的轉(zhuǎn)化。

當前的關(guān)系抽取系統(tǒng)主要集中在2個實體之間的二元關(guān)系抽取,但并非所有的關(guān)系都是二元的,如有些關(guān)系實例需要考慮時間和地點等信息,所以會考慮更多的論元。目前已有相關(guān)論文提出針對多元關(guān)系抽取的方法,但該方法與二元關(guān)系抽取模型相比,在準確率和召回率上仍有較大的差距。如何根據(jù)上下文信息,識別跨越句子的多元實體關(guān)系,提高關(guān)系抽取的準確率和智能化,這促使研究者不斷投入更多的精力

2.開放領(lǐng)域的實體關(guān)系抽取的深入研究。

目前的研究工作大多面向特定的關(guān)系類型或者特定領(lǐng)域,而使用特定的語料庫,很難做到其他領(lǐng)域的自動遷移。雖然,一些研究者針對開放領(lǐng)域的關(guān)系抽取進行了研究,提出了一系列的方法用于實體關(guān)系抽取,然而這類方法和特定領(lǐng)域相比仍有一定的差距如何不斷提高系統(tǒng)的準確率、可移植性以及可擴展性,這都激勵著研究人員投入更多的精力和時間,促進開放領(lǐng)域的實體關(guān)系抽取的發(fā)展。

3.遠程監(jiān)督關(guān)系抽取方法得到不斷改進。

目前,由于遠程監(jiān)督的方法仍然存在錯誤標簽和誤差傳播2個主要問題,研究者多是基于這些問題對深度學習的關(guān)系抽取模型加以改進。為了避免產(chǎn)生過多的錯誤標簽,人們主要采用多示例、注意力機制的方法等方法減少噪音數(shù)據(jù)。目前已有相關(guān)方法融合增強學習和遠程監(jiān)督方法的優(yōu)點,不斷地減少錯誤標簽,進而降低負類數(shù)據(jù)對關(guān)系抽取模型的影響。針對誤差傳播的問題,研究者多是對句子的語義信息進行深入挖掘,而對句子語法信息卻少有涉及如何有效地解決遠程監(jiān)督產(chǎn)生的錯誤標簽和誤差傳播,如何有效地融合語法和語義信息,這些問題將激勵著研究者不斷改進相關(guān)算法,不斷提高深度學習方法的性能。

4.深度學習有監(jiān)督方法的性能提升。

近年來,越來越多的研究人員關(guān)注于聯(lián)合學習和基于圖結(jié)構(gòu)的抽取方法聯(lián)合學習將命名實體識別和關(guān)系抽取作為一個任務,減少了錯誤信息的積累和傳播,也減少了冗余信息對模型的影響而針對關(guān)系重疊和實體間潛在特征等問題,基于圖結(jié)構(gòu)的抽取方法提供了一些新的思路然而這2種方法的性能還需進一步改進,不斷促進信息抽取領(lǐng)域的發(fā)展

5.工業(yè)級實體關(guān)系抽取系統(tǒng)的繼續(xù)研發(fā)。

關(guān)系抽取現(xiàn)已被廣泛應用于智能搜索、智能問答、個性化推薦、內(nèi)容分發(fā)、權(quán)限管理,人力資源管理等領(lǐng)域通過對學術(shù)研究和市場需求進行深入地融合,不斷提高實體關(guān)系抽取的可靠性、置信度、執(zhí)行效率等,促進關(guān)系抽取模型的性能進一步得到提升,為人們的生活提供更多便利

5.3事件抽取技術(shù)的未來發(fā)展趨勢和面臨的挑戰(zhàn)

在文本挖掘中,事件提取是一項重要且具有挑戰(zhàn)性的任務,它主要從描述事件的相關(guān)文本中學習事件的結(jié)構(gòu)化表示。事件提取主要分為兩個子任務:事件檢測和參數(shù)提取。事件抽取的核心是識別文本中與事件相關(guān)的詞,并將其分類。基于深度學習模型的事件提取方法自動提取特征,避免了手工設(shè)計特征的繁瑣工作。事件提取任務被構(gòu)造為一個端到端系統(tǒng),使用具有豐富語言特征的詞向量作為輸入,以減少底層NLP工具造成的錯誤。以前的方法側(cè)重于研究有效特征,以獲取候選觸發(fā)器、候選參數(shù)的詞匯、句法和語義信息。此外,他們還探討了觸發(fā)器和與同一觸發(fā)器相關(guān)的多個實體之間的依賴關(guān)系,以及與同一實體相關(guān)的多個觸發(fā)器之間的關(guān)系。根據(jù)事件提取的特點和目前的研究現(xiàn)狀,論文總結(jié)了以下技術(shù)挑戰(zhàn)。

事件抽取語料庫面臨的挑戰(zhàn)

1.事件提取數(shù)據(jù)集構(gòu)建。

事件提取任務復雜,現(xiàn)有的預訓練模型缺乏對事件提取任務的學習。現(xiàn)有的事件提取數(shù)據(jù)集只有少量的標記數(shù)據(jù),手工標注事件提取數(shù)據(jù)集的時間成本較高。因此,構(gòu)建大規(guī)模事件提取數(shù)據(jù)集或設(shè)計自動構(gòu)建事件提取數(shù)據(jù)集也是未來的研究趨勢。

2.新的數(shù)據(jù)集

事件提取的數(shù)據(jù)集很小。深度學習結(jié)合外部資源,構(gòu)建大規(guī)模數(shù)據(jù)集,取得了良好的效果。由于標記數(shù)據(jù)集的構(gòu)建困難,且數(shù)據(jù)集規(guī)模較小,如何更好地利用深度學習,借助外部資源有效地提取事件,也是一個迫切的研究方向。

3.事件提取模式。

事件提取方法可分為封閉域事件提取方法和開放域事件提取方法。沒有模式的事件提取方法的效果很難評估,基于模板的事件提取方法需要根據(jù)不同的事件類型設(shè)計不同的事件模式。因此,如何設(shè)計一個通用的事件抽取基于事件特征的模式是克服構(gòu)建事件抽取數(shù)據(jù)集和類間知識共享困難的重要手段。

事件提取模型的挑戰(zhàn)

1.依賴學習。

目前,基于BERT的事件提取方法已經(jīng)成為主流。然而,事件提取不同于訓練前由BERT模型學習的任務。參數(shù)提取需要考慮事件參數(shù)角色之間的關(guān)系,以提取同一事件類型下的不同角色。它需要事件提取模型來學習文本的語法依賴關(guān)系。因此,建立事件參數(shù)之間的依賴關(guān)系是全面、準確地提取每種事件類型的參數(shù)亟待解決的問題。

2.端到端學習模型。

與傳統(tǒng)方法相比,基于聯(lián)合模型的深度學習方法的優(yōu)勢在于聯(lián)合表示形式。事件提取取決于實體的標簽。因此,本文認為,建立基于深度學習的端到端自主學習模型是一個值得研究和探索的方向,如何設(shè)計多任務多聯(lián)動的學習模型是一個重大挑戰(zhàn)。

3.多事件提取。

根據(jù)事件提取的粒度不同,事件提取可分為句子級事件提取和文檔級事件提取。關(guān)于句子級事件抽取的研究已經(jīng)很多。然而,文檔級事件提取仍處于探索階段,文檔級事件提取更接近實際應用。因此,如何設(shè)計文本的多事件抽取方法具有重要的研究意義。

4.域事件提取。

域文本通常包含大量的技術(shù)術(shù)語,這增加了域事件提取的難度。因此,如何設(shè)計有效的方法來理解領(lǐng)域文本中深層的語義信息和上下文對應關(guān)系已成為亟待解決的問題。


參考文獻:

Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li,A Survey on Deep Learning forNamed Entity Recognition,IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2020

李冬梅,張揚,李東遠,林丹瓊 .實體關(guān)系抽取方法研究綜述[J].計算機研究與發(fā)展,2020,57(7)

Qian Li, Jianxin Li, Jiawei Sheng, Shiyao Cui, Jia WuYiming Hei, Hao Peng,Shu Guo, Lihong Wang, Amin Beheshti, and Philip S,A Compact Survey on Event Extraction:Approaches and Applications,IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021



相關(guān)推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。

熱門文章