三区四区乱码不卡,少妇厨房愉情理伦片bd在线观看,狠狠做深爱婷婷综合一区

首頁 > AI資訊 > 最新資訊 > AI大模型專家訪談丨港科大何俊賢：評測基準是大模型開發的指南針

AI大模型專家訪談丨港科大何俊賢：評測基準是大模型開發的指南針

紅星資本局 2024-01-03

12月28日，2023人工智能大模型基準測試科創發展大會暨中西部數字經濟大會（下稱“大會”）將在成都市正式舉辦。

一方面，大會邀請權威機構及高校專家組建了“大模型基準評測專家委員會”，將對國內大模型開展評測工作，深入了解當前國內大模型的能力水平以及大模型企業發展情況。另一方面，頭部企業、專家學者、國內權威標準制定機構等將在大會齊聚一堂，共同探討行業發展趨勢，搭建產業上下游溝通平臺，推動大模型技術的進步。

大會舉辦前夕，紅星資本局對話了香港科技大學計算機系助理教授何俊賢，他主要研究關注大語言模型的efficient adaption, factuality, reasoning, evaluation等方向。何俊賢擔任ACL和EMNLP的領域主席，論文入選ACL 2019最佳系統論文提名、ICLR 2022最有影響力論文榜單（paper digest），曾獲百度AI博士獎學金、AI華人新星百強等榮譽。他指導學生發布了大模型的中文權威評測基準C-Eval，發布以來下載量超過50萬次。

何俊賢表示，大語言模型距離大眾很近，新技術很快會被大眾感知。他們工作的終極目標，是實現真正意義上的強人工智能。

以下是對話實錄：

紅星資本局：ChatGPT很受歡迎，也正是你研究的語言方向大模型。如何來衡量一個大語言模型的智能程度？

何俊賢：真正的智能，是用戶已經分辨不出，對面到底是一個專家，還是一個機器。

真正的智能不只是閑聊，比如推薦商品，詢問今天的天氣，還可以問關于歷史數學物理的各種知識，甚至可以上傳一道考試題，直接問這道題怎么做，也可以幫你寫代碼，幫你寫新聞稿。

如果這些方方面面的事情都可以做得很好，感覺很聰明，可以獲取世界上的知識，也有很強的推理能力。那么我們覺得這已經和真人無異了。

紅星資本局：你指導學生發布了大模型的中文權威評測基準C-Eval，和之前的評測榜單有什么區別？

何俊賢：C-Eval是中文的第一個測大模型的評測基準。

以前在自然語言處理方向，也有很多中文的數據集和評測基準被廣泛應用。但隨著去年底像GPT這樣的大模型出來后，很多以前的測評就沒那么全面，因為大模型的能力實在太強了。以前的評測基準的區分度不夠，行業突然經歷大變革，急需新的評測基準來幫助大家開發模型。

如果沒有評測基準，開發會非常困難，就像航行沒有指南針。因為在整理數據做訓練來開發模型的過程中，沒有標準來告訴你，方向到底是對還是錯。

之前傳統評測基準的任務就像有一條點評，幫我預測到底是一星的還是兩星的，到底是正面還是負面的評價，這種任務相對來說很簡單。

現在C-Eval的任務是真的高考、考研的，以及清華北大上交這些學校本科生的數學物理生物真題，有50多個科目，和以前的難度很不一樣。

紅星資本局：如果要處理現在更高的難度，對大模型提出的新要求在哪？

何俊賢：大模型需要能夠準確記憶更多的知識，且能夠進行更復雜的推理。

紅星資本局：從C-Eval的題目來看，不只考驗信息的儲備能力，還有數理類的解題能力？

何俊賢：一個模型除了知識以外，還很重要的是分析能力，因為我們認為真正的智能是需要推理的。

一方面，以中文的背景來說，模型需要知道很多知識，包括和中國文化有關的歷史、政治、地理等各方面的知識。這需要記憶能力，但記憶能力比較淺顯，只需要記住就可以。

另一方面，數學和物理需要的邏輯推理能力很難。知道數學和物理的原理，要運用原理，用一定的邏輯把題目解出來。這本質上是一種強邏輯的測試，往往對大腦非常難，因為某種程度上，這才關系到真正的智能。

紅星資本局：C-Eval榜單測過的近100個模型中，中文的大語言模型到哪個階段了？和ChatGPT4.0的差距還有多少？

何俊賢：跟ChatGPT4.0的差距還是很大的。因為ChatGPT在中文基準上，沒有辦法完全反映出它的優勢。

我們5月份測的時候，ChatGPT4.0是遙遙領先的，比第二名要高很多。但是現在ChatGPT4.0在我們的榜單上，可能只排到前10左右。一方面因為C-Eval測評的一部分需要死記硬背，測的又是中國文化，ChatGPT沒有那么擅長。另一方面因為國內很多模型有對C-Eval進行針對性的優化，導致榜單數字虛高，也就是我們常說的“刷榜”行為。

但是從更多的評測來看，以及大家直觀的感受，其實國內的模型和ChatGPT4.0的差距還很大。用戶的感受是最直觀的，這很難欺騙大眾。

紅星資本局：對中文的大模型來說，需要解決的差距在哪？

何俊賢：國內的模型和ChatGPT最大的差距，還是強推理能力上。這關系到更高層次的智能，真正的差距并不是死記硬背的那部分。

真正的差距，是一些很難的任務，比如說讓它幫你寫代碼，讓它理解一個很長的指令，然后讓它自己推理的能力，這方面的差距非常大。這是很關鍵的能力，死記硬背上的差距并沒有那么大。

（文章來源：紅星資本局）

Tags:

自然語言處理模型指南針

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

AI大模型專家訪談丨港科大何俊賢：評測基準是大模型開發的指南針

AI大模型加速落地，阿里云持續「滋養」

李彥宏數千萬元投資大模型創業公司鼓勵創業者堅持長期主義

英偉達JimFan：復刻NLP的成功路，用通用模型開啟具身智能的GPT-3時刻

百度千帆大模型平臺日均調用量超7億次

百度智能云：千帆大模型平臺日均調用量超7億次

熱門文章

AI大模型專家訪談丨港科大何俊賢：評測基準是大模型開發的指南針

AI大模型加速落地，阿里云持續「滋養」

李彥宏數千萬元投資大模型創業公司鼓勵創業者堅持長期主義

英偉達JimFan：復刻NLP的成功路，用通用模型開啟具身智能的GPT-3時刻

百度千帆大模型平臺日均調用量超7億次

百度智能云：千帆大模型平臺日均調用量超7億次

熱門文章

AI大模型加速落地，阿里云持續「滋養」

英偉達JimFan：復刻NLP的成功路，用通用模型開啟具身智能的GPT-3時刻