首頁 > AI資訊 > 最新資訊 > 鄭州大學計算機與人工智能學院昝紅英:評測標準助力我們在大模型賽道“彎道超車”

鄭州大學計算機與人工智能學院昝紅英:評測標準助力我們在大模型賽道“彎道超車”

紅星資本局    2023-12-25

  2023人工智能大模型基準測試科創發展大會暨中西部數字經濟大會(下稱“大會”)將于12月28日在成都市正式舉辦。

  一方面,大會邀請權威機構及高校專家組建了“大模型基準評測專家委員會”,將對國內大模型開展評測工作,深入了解當前國內大模型的能力水平以及大模型企業發展情況。另一方面,頭部企業、專家學者、國內權威標準制定機構等將在大會齊聚一堂,共同探討行業發展趨勢,搭建產業上下游溝通平臺,推動大模型技術的進步。

  在此背景下,紅星資本局日前專訪了鄭州大學計算機與人工智能學院教授、博導,自然語言處理實驗室負責人昝紅英。昝紅英講述了國內大模型行業的優勢、挑戰以及“彎道超車”的可能。對于本次大會,昝紅英希望能通過評測,讓一些真正從事大模型技術研究的公司脫穎而出,也希望從事基礎應用或創新應用的企業通過成果展示,能夠帶動更多相關企業發展。

  以下是對話實錄:

NLP的終極目標是人和機器自然溝通

  紅星資本局:你主要研究興趣包括自然語言處理、中文信息處理等方面,請簡單介紹下什么是“自然語言處理”,它和近段時間流行的ChatGPT、AI大模型之間的關聯是什么?

  昝紅英:我理解的自然語言處理(NLP)的終極目標是人和機器自然溝通。

  我從事自然語言處理這個領域已經有20多年。在我剛開始進入此研究領域時,統計學習方法正在流行。20年來,自然語言處理有兩次大的變革。第一次是在2016年,AlphaGo震驚了世界,然后我們開始探索深度學習。第二次是在2022年底,OpenAI推出GPT3.5,ChatGPT進入了世人的視野。

  ChatGPT驚艷了自然語言處理,它采用問答形式,基本上覆蓋了NLP所有任務,包括智能寫作、問答生成、信息抽取、思維鏈分析、機器翻譯等下游應用任務。以往的統計學習、深度學習,都是從圖像視頻向語言滲透,而ChatGPT是從語言處理算法向其他模態推廣。ChatGPT本身就是自然語言處理領域爆發出的偉大事件,與AI大模型密切相關,也顛覆了整個AI領域。

  紅星資本局:了解到你在虛詞知識庫方面研究頗深,他們主要應用于哪些方面?在建設的過程中有沒有遇到什么難點和問題?

  昝紅英:虛詞知識庫項目是我們鄭大自然語言處理實驗室20多年來的主要工作。我們從2004年開始做一些具體工作,當時俞士汶老師主編及構建的現代漢語語法信息詞典,主要研究實詞,而在虛詞方面,如連詞、助詞、介詞等,需進一步研究。在俞老師的指導下,我們開始研究虛詞的用法。最初我們采用基于規則的方法,聯合計算機系和中文系的師生們共同編寫,進而使用編程實現。

  我們耗費了大量人力、時間,大約有十幾位老師、上百位研究生參與。一開始做資源,辛苦且枯燥。而且有四五年找不到突破的方向,因為需要搭建前期框架再進行后續填充。同時,最初我們還沒有自己的項目經費支持,是俞士汶教授帶領北京大學語言所的諸多老師們給我們強大的精神和物質支持,使我們得以堅持語言資源構建的深耕工作,后來又獲得了國家自然基金和國家社科基金等持續資助。

  為什么要研究虛詞知識庫,因為中文是意合的語言,語法表達較弱,因此虛詞對語義的理解比實詞影響更大。

  虛詞是漢語語法明顯的觸發詞或者標志點或者錨點,計算機可以通過識別出虛詞及其用法,找到錨點,從而理解整個句子乃至篇章的語義。例如文本里出現了“綜上所述”,這個詞后面大致是整篇文本的中心思想,我們可以在閱讀輔助中找到中心點,那么機器也可以通過這個詞來理解、處理。

  基于此我們還進行了許多應用,如我們曾與劉群老師聯合申請了谷歌的全球資助項目,基于漢語虛詞用法的漢英機器翻譯優化研究,這是在機器翻譯方面的應用。情感分析方面,我們與香港慧科公司合作,利用虛詞進行輿情監測任務。我們虛詞用法知識庫的用戶包括北大、清華、哈工大、日本早稻田大學、韓國西江大學、日本富士通公司、中業科技公司等。

  后續我們將建立相關的多模態知識庫,支持大模型對齊研究,避免其出現離譜的錯誤。

機翻難以完全取代人工翻譯

  紅星資本局:AI翻譯最終會取代真人翻譯嗎?尤其是筆譯方面?

  昝紅英:我們與語言學者、翻譯人員常有溝通,我們認為機翻不可能完全取代人工翻譯,而是取代其中的一部分。如各個公司的說明書,大部分一開始會依靠人工智能翻譯提高效率,但有些檢測點會由筆譯專家完成。而且現在的機翻雖然翻譯流暢,但有時會不準確,有些是瞎說。

  紅星資本局:你手上有醫學、法律、金融等領域知識庫項目,也在構建現代漢語語義詞典等語言資源,請問這些項目可以應用在哪些領域?是否有助于國內推出國際一流的大語言模型?

  昝紅英:2018年開始,我們實驗室有一個大組致力于醫學方面,我作為主要人員主持了一些工作,如CMeKG項目。到2019年,我們完成了幾個版本CMeKG的數據構建,它是規模最大的中文醫學知識圖譜。目前許多圖譜都用到了我們的部分數據。

CMeKG項目截圖受訪者提供

  我們還與醫生緊密合作,對某些疾病,包括肺癌、腦卒中、心臟病、糖尿病、兒童癲癇進行了輔助診療等相關研究,為醫生及患者提供智能輔助推薦、健康宣教等服務。

  另外,我們還做了病歷質控、出院小結生成等,在醫院里,病歷質控是一件繁瑣又嚴格的工作。同時,還有醫學影像報告的自動生成,包括CT、核磁等報告。因為雖然影像報告檢測片出來很快,但是撰寫報告需要花費醫生時間,特別是在特殊時期報告很難及時拿到。

  通過這些多領域的知識庫項目,我們具備了在某些領域構建國際一流知識庫的能力。

  紅星資本局:一些專家認為,ChatGPT和國內AI大模型及應用相比有個天然的優勢是英文資料比中文資料海量得多,AI學習資料也更多,你怎樣看待這一問題?我們應如何應對?

  昝紅英:確實,英文大模型之所以效果好,是因為英文數據多,并且網上的英文數據質量相對較高。中國的語料數量不足,還有未清洗的“噪音”。目前許多專家在討論中文語料的安全對齊問題,我們也在嘗試做這方面的工作。

  我們需要對國內的百模、千模進行甄選,特別是對安全方面的把控,因此需要建立一套相對適合國內的評測標準,以形成良好的生態,促使國內的中文大模型迅速追趕英文大模型。

建立評測標準

助力我們在大模型賽道上彎道超車

  紅星資本局:目前我國的大模型研究有何特別和優勢?未來可能在哪些領域達到世界先進水平?

  昝紅英:我認為我們的優勢在于可以在有效監控下發展。

  世界大模型“卷”得飛起來了。發展到現在,人類社會需要對技術發展有限制約束。高新科技因為能量大,更是雙刃劍,所以安全對齊和評測都是非常有意義的工作。

  未來我們在某個領域的大模型做到國際領先是完全有可能的,比如說中醫大模型,也許很快就會,西醫也有可能,因為有更多專業數據。我們有的地方醫院的水平甚至超過一些大醫院,因為他們見的病例多,醫生經驗豐富。

  但目前,咱們有不少公司,研究追求短平快,看到有應用的就做一點。但其實不可能僅靠兩三年就完成一個項目。沒有積累,也不可能在短時間內超越他人。

  我認為需要長期投入,特別是資源方面。現在很多人都羨慕我們的數據資源,但是他們不太了解我們投入了多少人力、物力和財力。我認為做任何事情都需要經歷這個過程,要投入大量時間、精力。

  當然,如果大家都在做純粹的基礎研究,沒有應用也是不能持久的。應用需求也能推動大家去做理論研究,這是一個良性循環。

  紅星資本局:建立評測標準的意義具體是什么?

  昝紅英:評測標準可以助力我們在大模型賽道上彎道超車。研究、應用大模型需要依靠這個標準,就像高考的指揮棒落在哪里,全國教育就會往哪個方向追趕。

  國外已經出現大模型,我們首先需要跟進。在跟進過程中,每個大模型特點和關注點不同,跟進的方向也不同。我們需要建立一個公平公正多視角的標準,對模型發展,特別是落地應用有良好的評測點,這樣才能引導大家發展,從而形成良好的生態。

  我們的目標并非要求大家都建立大模型,這樣浪費資金又耗費力氣。我們是希望由此能促進IT行業的生態良好發展,避免資本消失后不能有效地落地應用。

  紅星資本局:那這樣對評測標準要求相當高,需要思考如何制定出適用性較強、認可度較高的評測標準。

  昝紅英:對,評測標準會有不同方面的側重。實際上我們這次大會做的評測分不同賽道,目的是使賽道多樣化,減少資源浪費。比如對于普通用戶,做個通用的、精度不太高的聊天大模型,大家用起來就很好,但醫學、法律大模型則非常嚴格。

  因此,不同領域的大模型會有不同評測標準,且標準應有多樣性。制定相應領域的標準也必須讓行業專家參與,例如醫學大模型的好壞一定要由醫生判斷。

基礎研究和應用研究都需要

大會的榜單從全面和長遠角度保障國內AI生態良性循環

  紅星資本局:本次大會將頒發2023人工智能大模型評測榜單,榜單主要分為了應用創新榜單和基礎創新榜單,為什么選擇這兩個方向發布榜單?榜單的發布將對行業帶來哪些影響?

  昝紅英:基礎創新榜單是評判模型的各種性能和參數,僅研究算法和性能,不涉及應用。有可能榜單上的模型需要多年深入研究才會有應用,如Hinton有一個神經網絡30年后才看到有效的應用,但這是必須鼓勵的。

  應用創新榜單是指在某個領域開展落地實踐,需要生態支持。

  如果一窩蜂地推進應用,大模型就會失去生命的原動力,而如果只專注于基礎研究,就會很難維持。因此,設立兩個榜單是從全面和長遠角度保障國內AI生態的良性循環。

  紅星資本局:本次大會將對國內AI行業發展帶來哪些助力?

  昝紅英:就像華山論劍,我們組織大家一起交流和比試,能讓各平臺看到各自的優劣,通過交流受到啟發,促進提升。

  我們希望能找到每個公司多樣化的發展亮點,讓大家相對自由、百花齊放地發展,使大模型產業和理論研究呈現出豐富多樣的向上生態。

  紅星資本局:您對這次大會有什么期待?

  昝紅英:我希望通過評測,讓一些真正從事大模型技術研究的公司和機構能脫穎而出,成為行業的黑馬,同時我們的標準在不斷修正、豐富和改進后,最終能沉淀下來。還希望評測能促進理論研究和應用發展,使行業持續發展,為多年來堅持在相關領域的從業者和公司帶來一些鼓勵。

(文章來源:紅星資本局)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章