首頁 > AI資訊 > 最新資訊 > 阿里、Kimi推理大模型集中發布,實際效果卻……

阿里、Kimi推理大模型集中發布,實際效果卻……

新火種    2024-12-10

28日,阿里通義千問推出了自己的數學推理大模型——QwQ-32B-Preview。這是繼Kimi之后,近期第二款對標OpenAI o1系列的推理大模型。

據介紹,QwQ-32B-Preview包含325億個參數,能夠處理最長32000個tokens的提示詞,在GPQA測試中的評分為 65.2%,展示了研究生水平的科學推理能力。在AIME和MATH基準測試中,它的表現優于OpenAI的兩個推理模型o1-preview和o1-mini。

并且,QwQ-32B-Preview在更加寬松的Apache 2.0許可證下“公開”可用,這意味著它可以用于商業用途。

此前的11月16日,在Kimi正式上線一周年之際,月之暗面發布了最新數學模型k0-math。宣稱在中考、高考、考研以及入門競賽題MATH等4個數學基準測試中,可以超越OpenAI o1-mini和o1-preview。

那么這兩個國產推理大模型的實際能力究竟如何?

值得一提的是,通義官方在QwQ的介紹文章中,首先提到的并不是其性能,而是自己的局限性。文章指出,作為預覽版本,QwQ-32B-Preview 展現了令人期待的分析能力,同時也存在以下局限:

1.語言切換問題:模型可能在回答中混合使用不同語言,影響表達的連貫性。

2.推理循環:在處理復雜邏輯問題時,模型偶爾會陷入遞歸推理模式,在相似思路中循環。這種行為雖然反映了模型試圖全面分析的努力,但可能導致冗長而不夠聚焦的回答。

3.安全性考慮:盡管模型已具備基礎安全管控,但仍需要進一步增強。它可能產生不恰當或存在偏見的回答,且與其他大型語言模型一樣,可能受到對抗攻擊的影響。我們強烈建議用戶在生產環境中謹慎使用,并采取適當的安全防護措施。

4.能力差異:QwQ-32B-Preview 在數學和編程領域表現出色,但在其他領域仍有提升空間。模型性能會隨任務的復雜度和專業程度而波動。我們正通過持續優化,努力提升模型的綜合能力。

上述文章指出,“QwQ 既展現出能力,又保持著謙遜;既積累知識,又永遠對未知充滿好奇。”在看慣了自吹自擂的商業通稿之后,通義的這種謙遜態度已經足以眼前一亮。

于是我們拿幾個問題實際測試了上述兩個模型的能力。

首先是出自今年高考全國卷的一個數學題:當x∈[0,2π]時,曲線y=sinx與y=2sin(3x-π/(6))的交點個數有幾個?

面對這種非常標準化的問題,QwQ和k0-math都表現不錯,給出了正確的答案:6個。

而且,兩者都體現出了推理大模型的一個重要能力——自我反思。

在解題過程中,它們首先嘗試了代數方法,把問題轉化為求解方程sinx=2sin(3x-π/(6))。但發現這個方程非常難解之后,又推翻了最初的方法,轉而尋求幾何方法來解題。

上圖是k0-math,下圖是QwQ的思考過程

在用幾何方法走通之后,兩個大模型也都絞盡腦汁,用代數方法重新求解,并得到了正確答案。k0-math甚至在解題之后還檢查了一遍。

可以看到,在純粹的數學能力上,兩個模型至少都達到了普通人的水平。

不過正如通義文章中所說,隨著問題的復雜度和專業性提高,它們的表現還不盡如人意。

不久之前,我們曾經拿一個用車成本的問題測試過幾個大模型的邏輯能力,這次我們不妨再試一次。問題如下:分析樂道L60車輛采用BaaS方案下的每年用車成本,BaaS方案和電池買斷方案哪個更劃算。

這個問題既涉及到BaaS方案本身的復雜性,而且由于問題表述相對模糊,更考驗大模型像人一樣理解問題的能力。

這次,兩個模型也都不同程度上翻車了。

首先,k0-math基本正確給出了計算方式,但是在具體每項成本的計算上使用了英里和美元作為單位,具體價格也僅為假設,而不是像Kimi探索版那樣通過搜索獲得準確價格。

這體現出k0-math和Kimi探索版的鮮明區別——雖然強化邏輯,但或許是出于降低成本而弱化了搜索能力。

QwQ卻在邏輯上也存在瑕疵。

從上圖可以看到,QwQ很“貼心”地考慮了貸款購車的情況,給出了5年分期方案。不過這個簡單的單利貸款的月供問題,QwQ卻算錯了。

而在最后的匯總環節,QwQ又把全款購車費用和貸款月供進行了重復計算,極大高估了總體用車成本。

目前看來,所謂推理大模型,主要還是依賴于兩種算法的加強——對復雜問題的拆分,以及通過反思來檢查。但想要真正具有人類一樣的推理能力,僅有這兩個原則性方法還是遠遠不夠的,仍然需要產品層面的進一步完善。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章