久久国产精品免费视频,人妻精品动漫h无码,国产日韩av免费在线观看

首頁 > AI資訊 > 最新資訊 > AI教程系列--聊天機器人的強化學(xué)習(xí)部署

AI教程系列--聊天機器人的強化學(xué)習(xí)部署

新火種 2023-11-13

朱洪銀的快速會議。

今天我們來講一個知識點。這個知識點是關(guān)于大語言模型，聊天機器人的法強化學(xué)習(xí)與人類對齊的技術(shù)。我們今天主要來講怎么樣使用現(xiàn)有的工具來強化與人類的價值觀對齊。這個是什么意思呢？對于專家、專業(yè)人士來講明白什么意思。

對于小白來講也就是大語言模型在執(zhí)行任務(wù)的對話機器人在聊天的時候需要跟人類的觀念對齊，不要產(chǎn)生一些有害的言論，道德觀念各方面要跟人類對齊，就需要具備這么個技術(shù)對吧？這一節(jié)要專注一點，主要是講工程實現(xiàn)，而且主要是告訴你能怎么用起來就行了。理論方面是想到哪講到哪。

以后如果有機會的話再講。先登錄網(wǎng)址，這個網(wǎng)址是開源的、對橋、人類反饋學(xué)習(xí)機制的復(fù)線視力，然后找到這個網(wǎng)址，這個網(wǎng)址注意一下。找到之后點文件夾、application，找到這個deep speedchat，找到這年間。

下面是功能的說明書，下面還會附上一個對于它的使用方法。然后這里就教這里提供一套程序，可以讓我們訓(xùn)練一套屬于自己的自己訓(xùn)練的價值觀對齊的模型，聊天機器人模型。這個模型主要是分為，怎么訓(xùn)練呢？就剛才說的說明文檔里面有，每一步應(yīng)該怎么執(zhí)行、應(yīng)該怎么去執(zhí)行都寫了。

簡單說一下這個過程一共分為三步，第一步叫super rise的 fan tuning是有監(jiān)督的，微調(diào)。也就是在大模型的基礎(chǔ)上把大模型用的問答問答數(shù)據(jù)機對訓(xùn)練一下，相當(dāng)于讓它懂得。別人說是什么意思？你問的事是什么意思呢？你有什么訴求。

第一步訓(xùn)練完了之后第二步是reward、model，這個是獎勵模型微調(diào)，要訓(xùn)練一個訓(xùn)練一個像人一樣的標(biāo)注員，第二步的目的是訓(xùn)練一個標(biāo)注員。這個標(biāo)注語言訓(xùn)練完了之后第一步訓(xùn)練的模型可以回答問題了，第二步的訓(xùn)練標(biāo)注語言模型可以判斷，在第一步模型回答的問題好還是不好，給他一個反饋，這個事情就不用人去干了，就交給第二步的模型去干。就這么意思。

第三步把剛才說的事把第一步的問答機器和第二步的標(biāo)注語言模型結(jié)合起來，就實現(xiàn)了人類反饋的機制，本來人類反饋應(yīng)該是人類去給模型評判回答的好還是不好，對吧？人類反饋，現(xiàn)在要追求的是自動化，所以就讓這個標(biāo)志員來干這件事了。過程這樣整個過程就是這樣了，至于你怎么運行，比如說這個，這里給了三個三個這個視力，你可以去文件夾下找到這個視力，這個一步都有一個視力，比如說我舉例子。

·比如說第一步，這里有一個trainingscript，下面也寫了，下面也寫了是吧？署名。這個第一步就運行這個腳本，你就找到這個文件，你們一會就知道是啥了。

·第二步也寫了，我給你提供了一個讓你運行哪一個？第三步他也寫了也會讓你提供了一個讓你運行哪一個？都一樣。

·然后整個三步，一步兩步三步，全部運運下來就得到了一個經(jīng)過微調(diào)之后的對話機器人了，就是一個微調(diào)周的對話機器人。

·后面可能再會再講一講如何用自己的數(shù)據(jù)去微調(diào)一個真正屬于你的能夠幫你干事情的事情，因為這里面包含的知識太多了，還是這里面包含的知識面太廣，每一個視頻里面只能整一小塊。

·再回到上一層chat，我記得這里有一個，這里有一個執(zhí)行一次就能夠把后面的step一二三全部都執(zhí)行完，就不用一步的自己去執(zhí)行體驗體驗，你也可以只執(zhí)行，一個命令就能把后面的全部執(zhí)行完。看看是哪一個，記得這里是有一個命令行的。

·可能串串點拍看看，就是這個，春天派這個文件這里寫了，怎么去執(zhí)行他？就能夠把后面這三個文件就不用你一步一步的執(zhí)行了，只一個就可以那樣的效果就可以完成這個過程，只要掌握了這個就可以訓(xùn)練自己的對話機器人了。

·如果只訓(xùn)練了第一步，可以訓(xùn)練一個針對特定領(lǐng)域的回答機器人，我現(xiàn)在先不管這個道德，還有各方面的價值是不是跟人類對齊了？我不管，只是想讓他來幫干點事的吧？讓他訓(xùn)練一個某一個領(lǐng)域的解決某一類問題的，這個問答機器人就可以了，就已經(jīng)得到了已經(jīng)ok了。如果我沒有太高的這種全方位的評判標(biāo)準(zhǔn)已經(jīng)ok了，能幫我干這活就行。

·如果你有更高的要求你有工作要求，就需要訓(xùn)練一個與人類的價值對齊的機器人。那就需要把后邊那兩步也執(zhí)行完，進一步的訓(xùn)練。周圍出來之后就既實現(xiàn)了你的功能，又能夠跟人類的價值對齊，就完美了，對吧？總而言之掌握了這個就基本上可以獲得一個拆的dvt了，當(dāng)然人家拆的dvt是用大量非常高質(zhì)量的數(shù)據(jù)，AI教程系列--聊天機器人的強化學(xué)習(xí)部署。

一般人可能沒有那么多高質(zhì)量數(shù)據(jù)，所以訓(xùn)練出來效果因人而異，就因人而異。因為這個數(shù)據(jù)還是占據(jù)了一個非常重要的地位的。這節(jié)課講完了。

Tags:

無人駕駛機器人教程

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風(fēng)險，讀者在采取與本文內(nèi)容相關(guān)的任何行動之前，請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。

AI教程系列--聊天機器人的強化學(xué)習(xí)部署

引領(lǐng)通用具身新時代：普渡發(fā)布首款類人形機器人PUDUD7

對話任少卿：世界模型是自動駕駛與機器人的新范式

揭秘AI換臉項目：1元教程泛濫有人合成裸照進行敲詐

讓韓國破防的中國機器人

機器人大廚持證上崗！北京發(fā)出首張機器人食品經(jīng)營許可證

熱門文章