國產(chǎn)模型指令跟隨全球第一!來自LeCun親推的「最難作弊」大模型新榜單
What???
一直低調(diào)行事的國內(nèi)初創(chuàng)公司,旗下模型悄悄地躍升成國內(nèi)第一、世界第五(僅排在o1系列和Claude 3.5之后)!
而且是前十名中的唯一一家國產(chǎn)公司。
(該榜上國產(chǎn)第二名是阿里開源的qwen2.5-72b-instruct,總榜第13)。

而且它登上的這個排行榜LiveBench,雖然現(xiàn)在還沒有大模型競技場(LMSYS Chatboat Arena)那么廣為人知,但資格杠杠的——
圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun),聯(lián)合紐約大學等在今年6月推出。
號稱是“全球首個無法作弊的LLM基準測試”。

而這次冷不丁殺出來的黑馬,其實比較熟悉國內(nèi)大模型競爭格局的朋友們已經(jīng)猜到了——
Step系列,背后是大模型六小虎之一的階躍星辰。
指令跟隨高分拿下全球第一在LiveBench榜單上,階躍星辰自研的萬億參數(shù)語言大模型Step-2-16k-202411在Global Average上拿下57.68分。
位列總榜第五、國產(chǎn)第一。
這個榜單之前出現(xiàn)頻率不高,一方面是它確實很新,今年6月才剛推出;另一方面更加現(xiàn)實,那就是此前國產(chǎn)大模型并未在這個榜單塔尖取得傲人成績。
這倒也不耽誤榜單自身的實力——
LeCun和紐約大學等機構(gòu)聯(lián)手推出,專為大模型設(shè)計,目前包含6個類別的17個不同任務(wù),每月更新新問題。
目標是確保榜單的問題不易受到污染 ,并且能夠輕松、準確、公平地進行評估。
強調(diào)不易受到污染,是因為訓練數(shù)據(jù)中包含了大量互聯(lián)網(wǎng)內(nèi)容,許多BenchMark很容易受到污染。
比如大家比較熟悉的數(shù)學測試集GSM8K,最近被證明有好些模型已經(jīng)在它這兒過擬合了。這顯然為評估模型能力帶來了困擾。
除了要小心BenchMark被污染,確保評估方式公平、無偏見也很重要。
一般來說,大家都采用的是LLM擔任評委或人類當裁判這兩種方式。而LiveBench選擇采用客觀、基本事實判斷來評估每個問題。

那么,當我們首次正視這個榜單的時候,我們還能從其中看出些什么?
先說成績出色的Step-2。
IF Average一項,也就是指令跟隨,它以最高分拿下全球第一。
這個項目的內(nèi)容,是對《衛(wèi)報》近期新文章進行改寫、簡化、總結(jié)或生成故事。
86.57這個成績是真的非常高——榜單上其余眾人(哪怕是OpenAI和Anthropic家的模型們)都在70-80分段,單項第二名的Meta-LLaMA-3.1-405b-instruct-turbo比它低了8分多。
這意味著,Step-2在語言生成上對細節(jié)有強控制力,理解能力max,然后更好地遵循人類指令。
更具體些可以理解為,當我們普通人輸入語句顛倒、語意不清、表意模糊的非專業(yè)·真普通·prompt時,Step-2能結(jié)合上下文、具體情境推斷使用者的具體需求,把一個模糊指令從“360p”進行“1080p”的理解,精準捕捉模糊指令背后的真實意圖。
同時意味著內(nèi)容創(chuàng)作能力也很強,比如讓它創(chuàng)作一首古詩詞,它在字數(shù)、格律、押韻、意境等方面,都能有精準的把控。
完全自主研發(fā),MoE架構(gòu),萬億參數(shù)在這次因為LiveBench又出來炸場一波之前,Step-2留給外界的最深刻印象,一定有一個是“國內(nèi)首個由初創(chuàng)公司推出的萬億參數(shù)大模型”。
這有點像階躍風格的具像化。在大模型六小虎中,階躍的Step系列發(fā)布最晚,但出手毫不含糊。
今年3月,Step-2在全球開發(fā)者先鋒大會開幕式預覽亮相,一下子就從前作Step-1的千億參數(shù)規(guī)模,拉升到了萬億參數(shù)規(guī)模。
吊足了胃口后,夏天的WAIC 2024期間,Step-2推出正式版。

模型采用了MoE架構(gòu)。
一般而言,主流訓練MoE模型有兩種方式,不然就基于已有模型通過upcycle(向上復用)開始訓練,不然就從頭開始訓練。
Upcycle方式所需算力相對更低、訓練效率更高,但隨隨便便就到這種方式的天花板了。
比如基于拷貝復制得到的MoE模型,非常容易出現(xiàn)專家同質(zhì)化嚴重的情況。
而選擇從頭開始訓練MoE模型的話,能夠探得更高的模型上限,但作為代價,訓練難度也會增大。
但階躍團隊還是選擇了后者,選擇完全自主研發(fā),選擇從頭開始訓練。

過程中,通過部分專家共享參數(shù)、異構(gòu)化專家設(shè)計等創(chuàng)新MoE架構(gòu)設(shè)計,Step-2這個混合專家模型中的每個專家都得到了充分訓練。
故而,Step-2總參數(shù)量達到萬億級別,每次訓練或推理所激活的參數(shù)量也超過了市面上的大部分Dense模型。
此外,Step-2的訓練過程中,階躍的系統(tǒng)團隊突破了6D并行、極致顯存管理、完全自動化運維等關(guān)鍵技術(shù),支撐起了整個模型的高效訓練。
初亮相時,階躍官方表示:
結(jié)合這次LiveBench AI的成績來看,團隊對Step-2的定位、優(yōu)勢所在,把握得很清晰。
基座模型技術(shù)能力強,關(guān)鍵是要讓人用起來才行。
官方消息是,Step-2已經(jīng)接入了階躍星辰的C端智能生活助手「躍問」,Web端和App都可以試一把。
如果是開發(fā)者,可以在階躍星辰開放平臺通過API接入使用Step-2。
語言模型和多模態(tài)模型全都要開篇咱們提到,Step模型是一個系列,而Step-2是其語言模型的實力代表。
在這個系列中,除了語言模型,階躍星辰的多模態(tài)模型也很有看頭。
Step-1.5V是階躍星辰的多模理解大模型,這款模型在三個方面優(yōu)勢突出:
一是感知能力。創(chuàng)新的圖文混排訓練方法,讓Step-1.5V能理解復雜圖表、流程圖、準確感知物理空間復雜的幾何位置,還能夠處理高分辨率和極限長寬比的圖像。
二是推理能力。根據(jù)圖像內(nèi)容進行各類高級推理任務(wù),如解答數(shù)學題、編寫代碼、創(chuàng)作詩歌等。
三是視頻理解能力。它不僅能夠準確識別視頻中的物體、人物和環(huán)境,還能夠理解視頻的整體氛圍和人物情緒。
生成方面,階躍手里有Step-1X圖像生成大模型。
Step-1X采用DiT(Diffusion Models with transformer)架構(gòu),有600M、2B和8B三種不同的參數(shù)量,語意理解和圖像創(chuàng)意實現(xiàn)兩手抓。
具體而言,不管文本指令簡單還是復雜,不管是畫單一對象還是多層次、復雜內(nèi)涵場景,它都能cover。
另外,該模型還支持針對中國元素的深度優(yōu)化,使生成內(nèi)容更適合國人的審美風格。

至于語言模型和多模態(tài)模型全都要,階躍有自己的道理。
從成立一開始,階躍星辰就明確了自身通往 AGI 的路線圖:
單模態(tài)——多模態(tài)——多模態(tài)理解和生成的統(tǒng)一——世界模型——AGI。
換言之,階躍的目標是開發(fā)出能夠?qū)崿F(xiàn)AGI的多模態(tài)大模型,并利用這些自主研發(fā)的大模型,創(chuàng)造新一代的AI應用。
為著這個目標,這一年多來,階躍已經(jīng)寫下了屬于自己的答案。
研發(fā)迭代速度很快,不到一年,無論Step-1到Step-2, 還是Step-1V到Step-1.5V,整體持續(xù)跑步前進中。
產(chǎn)品也有自己的想法,沒有局限在ChatBot上。Step-2登頂國內(nèi)的同一天,階躍旗下的躍問還上了一個新功能:
簡單設(shè)置,就能通過iPhone 16右下方側(cè)邊的“相機控制”按鈕,一鍵調(diào)用“拍照問”功能。
沒有iPhone 16的蘋果用戶,把系統(tǒng)升級到iOS18也能一步調(diào)用國產(chǎn)AI 了。

雖然已經(jīng)在六小虎中占據(jù)一席,但近日看階躍,仍然想以黑馬來形容它。
論技術(shù)和實力,Step-2能突然殺到業(yè)界權(quán)威榜單國內(nèi)第一,成為全球榜單前十唯一國產(chǎn)玩家。
大模型浪潮奔騰至今,已經(jīng)有快兩年的時間了。
兩年里,投身其中的技術(shù)從業(yè)者們都在(看似分布其實共同)打造一個愿景,一個許多人都愿意參與并與之聯(lián)系在一起的愿景。
有理由相信,階躍Step系列,以及中國的大模型們,都會因為卓越的技術(shù)實力和不懈的創(chuàng)新追求,越來越熠熠生輝。
One More Thing上個月,智源研究院推出辯論平臺FlagEval Debate,旨在通過引入模型辯論這一競爭機制對大模型能力評估提供新的度量標尺。
和大模型競技場玩法有點類似,就是倆模型一個正方一個反方,雙盲測試,辯論完后用戶投票。
然后才揭曉正反雙方都是誰。

模型辯論,主要靠的是信息理解、知識整合、邏輯推理、語言生成和對話能力。
當然了,同時還能測復雜語境中信息的處理深度和遷移應變能力,反映其學習與推理的進步水平。
淺玩了一下,有些議題還蠻有意思。
比如“博物館著火,只能救一個,救貓還是救《蒙娜麗莎》”這個議題。
倆模型吵到后面,“貓有九條命”的話都說出來了,笑死。

最后反復投了幾次,Step-2大勝o1。
看來它辯論能力也很強呀……

榜單官網(wǎng):
躍問鏈接:
FlagEval Debate官網(wǎng):
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責任。