昆侖萬維天工大模型4.0o1版正式啟動邀請測試
11月27日,昆侖萬維正式推出天工大模型4.0 o1版(Skywork o1)。
據(jù)昆侖萬維介紹,Skywork o1是由昆侖萬維集團(tuán)發(fā)布的具有慢思考推理能力的系列模型,是國內(nèi)第一款中文邏輯推理能力的o1模型。不同于現(xiàn)有的復(fù)現(xiàn)OpenAI o1模型的工作,Skywork o1不僅在模型輸出上內(nèi)生了思考、計(jì)劃、反思等能力,同時,該開源模型在標(biāo)準(zhǔn)評測集上,對比普通模型推理能力大幅上升,真正讓模型擁有了思考和反思帶來的推理能力的提升。團(tuán)隊(duì)復(fù)現(xiàn)o1的技術(shù)路線,使得初始推理能力較差的基座模型在基準(zhǔn)測試集上成為生態(tài)位SOTA。
此次發(fā)布的Skywork o1包括三款模型,既有回饋開源社區(qū)的開放版本,也有能力更強(qiáng)的專用版本,分別為Skywork o1 Open、Skywork o1 Lite與Skywork o1 Preview。其中,昆侖萬維開源的Skywork o1 Open,在各項(xiàng)數(shù)學(xué)和代碼指標(biāo)上均有大幅提高,將Llama-3.1-8B的性能拉到同生態(tài)位SOTA(超越Qwen-2.5-7B instruct)。同時,8B的Skywork o1 Open解鎖了很多較大量級模型,為推理模型在輕量級設(shè)備上部署提供了可能性。
Skywork o1在邏輯推理任務(wù)上性能的大幅提升得益于天工三階段自研的訓(xùn)練方案。推理反思能力訓(xùn)練方面,通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考、反思和驗(yàn)證數(shù)據(jù),通過高質(zhì)量的、多樣性的長思考數(shù)據(jù)對基座模型進(jìn)行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。推理能力強(qiáng)化學(xué)習(xí)方面,團(tuán)隊(duì)研發(fā)了最新的適配分步推理強(qiáng)化的Skywork o1 Process Reward Model(PRM)。實(shí)驗(yàn)證明,Skywork-PRM可有效捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對最終答案的影響。結(jié)合自研分步推理強(qiáng)化算法進(jìn)一步加強(qiáng)模型推理和思考能力。推理planning方面,基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實(shí)現(xiàn)和公開,其落地大大提升了模型線上推理能力。
昆侖萬維表示,2024年以來,昆侖萬維天工AI持續(xù)進(jìn)化,陸續(xù)發(fā)布了天工2.0、天工3.0、天工大模型4.0 4o版,以及此次天工大模型4.0 o1版。這不僅是公司貫徹“All in AGI與AIGC”戰(zhàn)略的重要舉措,更是其構(gòu)建AI技術(shù)棧的重要一步。展望未來,公司將繼續(xù)秉持“實(shí)現(xiàn)通用人工智能,讓每個人更好地塑造和表達(dá)自我”的使命,從模型層、應(yīng)用層等全方位、多維度來構(gòu)建公司技術(shù)競爭力和生態(tài)矩陣。
(文章來源:中國證券報·中證網(wǎng))
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。