首頁 > AI資訊 > 最新資訊 > AI大模型專家訪談丨港科大何俊賢:評測基準是大模型開發的指南針

AI大模型專家訪談丨港科大何俊賢:評測基準是大模型開發的指南針

紅星資本局    2024-01-03

  12月28日,2023人工智能大模型基準測試科創發展大會暨中西部數字經濟大會(下稱“大會”)將在成都市正式舉辦。

  一方面,大會邀請權威機構及高校專家組建了“大模型基準評測專家委員會”,將對國內大模型開展評測工作,深入了解當前國內大模型的能力水平以及大模型企業發展情況。另一方面,頭部企業、專家學者、國內權威標準制定機構等將在大會齊聚一堂,共同探討行業發展趨勢,搭建產業上下游溝通平臺,推動大模型技術的進步。

  大會舉辦前夕,紅星資本局對話了香港科技大學計算機系助理教授何俊賢,他主要研究關注大語言模型的efficient adaption, factuality, reasoning, evaluation等方向。何俊賢擔任ACL和EMNLP的領域主席,論文入選ACL 2019最佳系統論文提名、ICLR 2022最有影響力論文榜單(paper digest),曾獲百度AI博士獎學金、AI華人新星百強等榮譽。他指導學生發布了大模型的中文權威評測基準C-Eval,發布以來下載量超過50萬次。

  何俊賢表示,大語言模型距離大眾很近,新技術很快會被大眾感知。他們工作的終極目標,是實現真正意義上的強人工智能。

  以下是對話實錄:

  紅星資本局:ChatGPT很受歡迎,也正是你研究的語言方向大模型。如何來衡量一個大語言模型的智能程度?

  何俊賢:真正的智能,是用戶已經分辨不出,對面到底是一個專家,還是一個機器。

  真正的智能不只是閑聊,比如推薦商品,詢問今天的天氣,還可以問關于歷史數學物理的各種知識,甚至可以上傳一道考試題,直接問這道題怎么做,也可以幫你寫代碼,幫你寫新聞稿。

  如果這些方方面面的事情都可以做得很好,感覺很聰明,可以獲取世界上的知識,也有很強的推理能力。那么我們覺得這已經和真人無異了。

  紅星資本局:你指導學生發布了大模型的中文權威評測基準C-Eval,和之前的評測榜單有什么區別?

  何俊賢:C-Eval是中文的第一個測大模型的評測基準。

  以前在自然語言處理方向,也有很多中文的數據集和評測基準被廣泛應用。但隨著去年底像GPT這樣的大模型出來后,很多以前的測評就沒那么全面,因為大模型的能力實在太強了。以前的評測基準的區分度不夠,行業突然經歷大變革,急需新的評測基準來幫助大家開發模型。

  如果沒有評測基準,開發會非常困難,就像航行沒有指南針。因為在整理數據做訓練來開發模型的過程中,沒有標準來告訴你,方向到底是對還是錯。

  之前傳統評測基準的任務就像有一條點評,幫我預測到底是一星的還是兩星的,到底是正面還是負面的評價,這種任務相對來說很簡單。

  現在C-Eval的任務是真的高考、考研的,以及清華北大上交這些學校本科生的數學物理生物真題,有50多個科目,和以前的難度很不一樣。

  紅星資本局:如果要處理現在更高的難度,對大模型提出的新要求在哪?

  何俊賢:大模型需要能夠準確記憶更多的知識,且能夠進行更復雜的推理。

  紅星資本局:從C-Eval的題目來看,不只考驗信息的儲備能力,還有數理類的解題能力?

  何俊賢:一個模型除了知識以外,還很重要的是分析能力,因為我們認為真正的智能是需要推理的。

  一方面,以中文的背景來說,模型需要知道很多知識,包括和中國文化有關的歷史、政治、地理等各方面的知識。這需要記憶能力,但記憶能力比較淺顯,只需要記住就可以。

  另一方面,數學和物理需要的邏輯推理能力很難。知道數學和物理的原理,要運用原理,用一定的邏輯把題目解出來。這本質上是一種強邏輯的測試,往往對大腦非常難,因為某種程度上,這才關系到真正的智能。

  紅星資本局:C-Eval榜單測過的近100個模型中,中文的大語言模型到哪個階段了?和ChatGPT4.0的差距還有多少?

  何俊賢:跟ChatGPT4.0的差距還是很大的。因為ChatGPT在中文基準上,沒有辦法完全反映出它的優勢。

  我們5月份測的時候,ChatGPT4.0是遙遙領先的,比第二名要高很多。但是現在ChatGPT4.0在我們的榜單上,可能只排到前10左右。一方面因為C-Eval測評的一部分需要死記硬背,測的又是中國文化,ChatGPT沒有那么擅長。另一方面因為國內很多模型有對C-Eval進行針對性的優化,導致榜單數字虛高,也就是我們常說的“刷榜”行為。

  但是從更多的評測來看,以及大家直觀的感受,其實國內的模型和ChatGPT4.0的差距還很大。用戶的感受是最直觀的,這很難欺騙大眾。

  紅星資本局:對中文的大模型來說,需要解決的差距在哪?

  何俊賢:國內的模型和ChatGPT最大的差距,還是強推理能力上。這關系到更高層次的智能,真正的差距并不是死記硬背的那部分。

  真正的差距,是一些很難的任務,比如說讓它幫你寫代碼,讓它理解一個很長的指令,然后讓它自己推理的能力,這方面的差距非常大。這是很關鍵的能力,死記硬背上的差距并沒有那么大。


(文章來源:紅星資本局)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章