首頁(yè) > AI資訊 > 行業(yè)動(dòng)態(tài) > OpenAI推出“強(qiáng)化微調(diào)”計(jì)劃,讓創(chuàng)建專家大模型更簡(jiǎn)單了|最前線

OpenAI推出“強(qiáng)化微調(diào)”計(jì)劃,讓創(chuàng)建專家大模型更簡(jiǎn)單了|最前線

新火種    2024-12-25

編輯 | 蘇建勛

12月7日北京時(shí)間凌晨?jī)牲c(diǎn),OpenAI公司帶來(lái)了連續(xù)12天發(fā)布會(huì)的第二場(chǎng)直播。

本次直播中,OpenAI帶來(lái)了新的方案——強(qiáng)化微調(diào)(Reinforcement Fine-Tuning)。該方案和功能預(yù)計(jì)將于2025年正式推出。

強(qiáng)化微調(diào)是一種全新的模型定制方法,它將一個(gè)預(yù)訓(xùn)練好的通用模型,通過在特定領(lǐng)域的小規(guī)模數(shù)據(jù)集上進(jìn)一步訓(xùn)練,使其適應(yīng)特定任務(wù)的技術(shù)。簡(jiǎn)單來(lái)說就是在一個(gè)“學(xué)過很多東西”的大模型上,再讓它針對(duì)某個(gè)具體任務(wù)“重點(diǎn)練習(xí)”,讓它更適合做這件事。

OpenAI 高管介紹稱,強(qiáng)化微調(diào)可以將大型語(yǔ)言模型從“高中水平”提升至“博士級(jí)專家”的能力,適合高校、研究人員和企業(yè)打造獨(dú)特的 AI 解決方案。例如OpenAI正在與湯森路透合作,打造專屬于該公司的法律專業(yè)模型。

沒有參與本場(chǎng)直播的OpenAI CEO Sam Altman在社交媒體表上:“效果一級(jí)棒,是我2024年最大的驚喜,期待看到人們構(gòu)建什么!”

“強(qiáng)化微調(diào)讓行業(yè)專家大模型的實(shí)現(xiàn)變得容易了。”一位AI大模型應(yīng)用企業(yè)的創(chuàng)始人告訴36氪,這是一項(xiàng)和普通用戶關(guān)聯(lián)不大,但對(duì)專業(yè)領(lǐng)域工作者很有價(jià)值的新方案。

直播現(xiàn)場(chǎng),OpenAI展示了一個(gè)典型的案例——罕見遺傳病研究。

OpenAI 與伯克利實(shí)驗(yàn)室和德國(guó) Charité 醫(yī)院的研究人員合作,使用強(qiáng)化微調(diào)訓(xùn)練GPT o1 Mini 模型。該模型學(xué)會(huì)了有效推理罕見疾病的成因,并在性能上超越了更大的GPT o1模型,展示了其在診斷和理解復(fù)雜病情方面的潛力。

值得一提的是,強(qiáng)化微調(diào)與此前的微調(diào)方式有著顯著差異。與傳統(tǒng)微調(diào)不同,強(qiáng)化微調(diào)并不是簡(jiǎn)單地讓模型“記住答案”,而是通過訓(xùn)練模型在特定領(lǐng)域中學(xué)會(huì)推理,找到正確答案。

具體來(lái)說,強(qiáng)化微調(diào)有兩個(gè)不同數(shù)據(jù)集合,一個(gè)是微調(diào)數(shù)據(jù)集,一個(gè)是測(cè)試數(shù)據(jù)集合,模型先基于微調(diào)數(shù)據(jù)集合去訓(xùn)練,然后用測(cè)試數(shù)據(jù)集合驗(yàn)證,反復(fù)自我推理訓(xùn)練驗(yàn)證,最終達(dá)到很高的水平。因而強(qiáng)化微調(diào)可以實(shí)現(xiàn)在數(shù)據(jù)量有限的情況下(有時(shí)僅需幾十個(gè)樣本)也能實(shí)現(xiàn)顯著性能提升。

不過,強(qiáng)化微調(diào)方案目前仍處于研究預(yù)覽階段,OpenAI計(jì)劃在2025年全面推出。

目前OpenAI正邀請(qǐng)研究機(jī)構(gòu)、大學(xué)以及企業(yè)參與強(qiáng)化微調(diào)研究計(jì)劃。OpenAI希望與愿意共享數(shù)據(jù)集的組織合作,進(jìn)一步優(yōu)化模型性能。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章