理光在自然語言處理頂級會議ACL2024官方比賽中榮獲第一
原標題:理光在自然語言處理頂級會議ACL 2024官方比賽中榮獲第一
近日,理光中國研究院(以下簡稱SRCB)在自然語言處理頂級會議Association of Computational Linguistics 2024(以下簡稱ACL)的官方比賽Social Media Mining for Health Research and Applications Workshop and Shared Tasks 2024(以下簡稱SMM4H)中獲得共享競賽任務提取和規范化英文推文中的藥物不良事件(ADEs)賽道的第一名,并受邀分享了技術方案。
全球聚焦,學界盛會
ACL是一個國際性學術組織,致力于推動計算語言學領域的研究、開發和應用。每年一度的ACL大會,以其前沿的研究議題、權威的學術報告和廣泛的行業參與,吸引著全球學者和專業人士的目光,被譽為自然語言處理領域的風向標。
SMM4H是一個專注于社交媒體數據挖掘在健康研究和應用中的年會和競賽活動。今年第九屆SMM4H的主題為 "Large Language Models (LLMs) and Generalizability for Social Media NLP",聚焦于探索大語言模型(LLMs)在社交媒體自然語言處理(NLP)任務中的應用及其泛化能力。在這個跨學科的平臺上,與會者共同探討如何有效運用最前沿的技術通過社交媒體數據洞察和解決現實世界中的健康問題。SMM4H不僅為參與者提供了一個展示研究成果、交流創新思想的舞臺,更為推動健康科學研究與實踐的進步貢獻了重要力量。
攻堅克難,再創佳績
SRCB在SMM4H 2024共享競賽任務中挑戰的課題是“提取和規范化英文推文中的藥物不良事件(ADEs)”,任務內容是從嘈雜的社交媒體推文中精確提取出由藥物引發的不良反應,并將其映射為MedDRA詞典中的標準化醫學術語。MedDRA詞典(全稱Medical Dictionary for Regulatory Activities)是一個國際權威的標準化醫學術語集,用于幫助不同國家和地區的藥品監管機構、制藥公司、臨床研究人員以及醫療保健專業人員之間進行有效的溝通和數據交換。
*競賽任務描述
面對非結構化數據的復雜性、噪音和背景信息的干擾、多義性問題以及數據稀疏性等多重任務挑戰,理光團隊通過以下技術有效地提高了不良事件信息提取和術語規范化的性能:
1.提出了一個包含ADEs抽取、MedDRA術語檢索和MedDRA術語過濾模塊的體系架構,有效地緩解了傳統方法使用的流程所帶來的誤差傳播,提升了術語規范化的準確性。
2.創新性地提出了四種基于大語言模型的數據增強方法,充分發揮了大語言模型生成高質量文本內容的能力。
3.通過使用醫學領域訓練樣本對文本嵌入模型進行微調,顯著提高了MedDRA術語的召回率。
理光團隊提出的體系架構,通過分析社交媒體上的用戶反饋,能夠補充臨床試驗中未報告的藥物副作用信息,為藥物安全性評估提供了新的視角。實時監測公共健康趨勢以及分析社交媒體數據,能夠快速反映社會中某些藥物的使用情況和相關風險,為公共衛生決策提供了有力的數據支持。對于制藥公司和監管機構來說,這一系統提供了實時挖掘社交媒體上的ADEs信息的能力,有助于及早發現并應對潛在的公共健康問題。
*理光中國研究院NLP團隊成員在ACL 2024現場分享技術方案
我們秉持前瞻視野,持續保持對創新領域的敏銳嗅覺,探索前沿AI科技,在自然語言處理領域不斷進取, 與上下游合作伙伴合作共創,推動AI技術在社會各個領域的創新與落地。
我們將持續引領技術進步與應用拓展,攜手全球合作伙伴積極探索、不懈挑戰,賦能更多行業邁向高效與可持續發展的未來。
本文為企業宣傳商業資訊,僅供用戶參考,如用戶將之作為消費行為參考,鳳凰網敬告用戶需審慎決定。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。