AI教程系列--聊天機器人的強化學(xué)習(xí)部署
朱洪銀的快速會議。
今天我們來講一個知識點。這個知識點是關(guān)于大語言模型,聊天機器人的法強化學(xué)習(xí)與人類對齊的技術(shù)。我們今天主要來講怎么樣使用現(xiàn)有的工具來強化與人類的價值觀對齊。這個是什么意思呢?對于專家、專業(yè)人士來講明白什么意思。
對于小白來講也就是大語言模型在執(zhí)行任務(wù)的對話機器人在聊天的時候需要跟人類的觀念對齊,不要產(chǎn)生一些有害的言論,道德觀念各方面要跟人類對齊,就需要具備這么個技術(shù)對吧?這一節(jié)要專注一點,主要是講工程實現(xiàn),而且主要是告訴你能怎么用起來就行了。理論方面是想到哪講到哪。

以后如果有機會的話再講。先登錄網(wǎng)址,這個網(wǎng)址是開源的、對橋、人類反饋學(xué)習(xí)機制的復(fù)線視力,然后找到這個網(wǎng)址,這個網(wǎng)址注意一下。找到之后點文件夾、application,找到這個deep speedchat,找到這年間。
下面是功能的說明書,下面還會附上一個對于它的使用方法。然后這里就教這里提供一套程序,可以讓我們訓(xùn)練一套屬于自己的自己訓(xùn)練的價值觀對齊的模型,聊天機器人模型。這個模型主要是分為,怎么訓(xùn)練呢?就剛才說的說明文檔里面有,每一步應(yīng)該怎么執(zhí)行、應(yīng)該怎么去執(zhí)行都寫了。

簡單說一下這個過程一共分為三步,第一步叫super rise的 fan tuning是有監(jiān)督的,微調(diào)。也就是在大模型的基礎(chǔ)上把大模型用的問答問答數(shù)據(jù)機對訓(xùn)練一下,相當(dāng)于讓它懂得。別人說是什么意思?你問的事是什么意思呢?你有什么訴求。

第一步訓(xùn)練完了之后第二步是reward、model,這個是獎勵模型微調(diào),要訓(xùn)練一個訓(xùn)練一個像人一樣的標(biāo)注員,第二步的目的是訓(xùn)練一個標(biāo)注員。這個標(biāo)注語言訓(xùn)練完了之后第一步訓(xùn)練的模型可以回答問題了,第二步的訓(xùn)練標(biāo)注語言模型可以判斷,在第一步模型回答的問題好還是不好,給他一個反饋,這個事情就不用人去干了,就交給第二步的模型去干。就這么意思。
第三步把剛才說的事把第一步的問答機器和第二步的標(biāo)注語言模型結(jié)合起來,就實現(xiàn)了人類反饋的機制,本來人類反饋應(yīng)該是人類去給模型評判回答的好還是不好,對吧?人類反饋,現(xiàn)在要追求的是自動化,所以就讓這個標(biāo)志員來干這件事了。過程這樣整個過程就是這樣了,至于你怎么運行,比如說這個,這里給了三個三個這個視力,你可以去文件夾下找到這個視力,這個一步都有一個視力,比如說我舉例子。

·比如說第一步,這里有一個trainingscript,下面也寫了,下面也寫了是吧?署名。這個第一步就運行這個腳本,你就找到這個文件,你們一會就知道是啥了。
·第二步也寫了,我給你提供了一個讓你運行哪一個?第三步他也寫了也會讓你提供了一個讓你運行哪一個?都一樣。

·然后整個三步,一步兩步三步,全部運運下來就得到了一個經(jīng)過微調(diào)之后的對話機器人了,就是一個微調(diào)周的對話機器人。
·后面可能再會再講一講如何用自己的數(shù)據(jù)去微調(diào)一個真正屬于你的能夠幫你干事情的事情,因為這里面包含的知識太多了,還是這里面包含的知識面太廣,每一個視頻里面只能整一小塊。
·再回到上一層chat,我記得這里有一個,這里有一個執(zhí)行一次就能夠把后面的step一二三全部都執(zhí)行完,就不用一步的自己去執(zhí)行體驗體驗,你也可以只執(zhí)行,一個命令就能把后面的全部執(zhí)行完。看看是哪一個,記得這里是有一個命令行的。

·可能串串點拍看看,就是這個,春天派這個文件這里寫了,怎么去執(zhí)行他?就能夠把后面這三個文件就不用你一步一步的執(zhí)行了,只一個就可以那樣的效果就可以完成這個過程,只要掌握了這個就可以訓(xùn)練自己的對話機器人了。
·如果只訓(xùn)練了第一步,可以訓(xùn)練一個針對特定領(lǐng)域的回答機器人,我現(xiàn)在先不管這個道德,還有各方面的價值是不是跟人類對齊了?我不管,只是想讓他來幫干點事的吧?讓他訓(xùn)練一個某一個領(lǐng)域的解決某一類問題的,這個問答機器人就可以了,就已經(jīng)得到了已經(jīng)ok了。如果我沒有太高的這種全方位的評判標(biāo)準(zhǔn)已經(jīng)ok了,能幫我干這活就行。

·如果你有更高的要求你有工作要求,就需要訓(xùn)練一個與人類的價值對齊的機器人。那就需要把后邊那兩步也執(zhí)行完,進一步的訓(xùn)練。周圍出來之后就既實現(xiàn)了你的功能,又能夠跟人類的價值對齊,就完美了,對吧?總而言之掌握了這個就基本上可以獲得一個拆的dvt了,當(dāng)然人家拆的dvt是用大量非常高質(zhì)量的數(shù)據(jù),AI教程系列--聊天機器人的強化學(xué)習(xí)部署。
一般人可能沒有那么多高質(zhì)量數(shù)據(jù),所以訓(xùn)練出來效果因人而異,就因人而異。因為這個數(shù)據(jù)還是占據(jù)了一個非常重要的地位的。這節(jié)課講完了。
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。