我們經常說的GPT是什么意思?詳解GPT的運作原理
GPT的運作原理實質上就是接龍游戲,讓我們來看個簡單的例子:今天的天氣很______,那么,我們應該填什么字讓這個句子完整呢?可以是:今天的天氣很熱,今天的天氣很好,這些都是合理的句子。如果填今天的天氣很香,就可能有點不合適了。

如果我們問電腦這個問題,它是怎么回答的呢?在電腦被訓練之前,它并不知道答案,它就像是一個小嬰兒,因此如果想讓電腦能夠回答問題,我們就要先讓它學習人類的語言。為此,我們需要將所有書籍、維基、百科等文本內容都丟給電腦,讓它使用一套復雜的算法自學,讓它自己在這些文本中學習人類語言的結構和文本之間的關聯(lián)關系。那電腦學習之后的結果就是一個可以預測下一個文字的模型,在這里是GPT,它就會預測今天的天氣很后面的文字。

參數:溫度(temperature)
它實際上是有一個可能的文字列表,包括這個文字以及這個文字的概率,比如80%的概率是熱,60%可能是冷,90%可能是好等等。那么GPT它是不是就選擇概率最高的呢?也不一定。它具體選擇哪一個,這是由一個叫做溫度(temperature)的參數來控制的。
溫度越高,GPT的選擇就會越隨意,它就可能會選中更多低概率的詞。而溫度越低GPT就越保守,他就會選擇高概率的詞。
因此,如果用同樣的方法,一個字一個字的進行,那么使用GPT就可以完整地輸出一句話甚至一篇文章。但是,必須要知道,GPT的預測不是以字為單位進行的,它的預測單位被稱為token,而一個token可能只是一個英文單詞的一部分。后面我們還會再次提到token的相關信息。

大語言模型
我們已經了解了什么是模型以及語言模型的基本工作原理。之所以稱它們?yōu)榇笳Z言模型,是因為為了提高模型的準確度,它們需要很多很多的參數。例如,GPT3模型就擁有了1750億個參數。
我們之前提到過,我們可以把文本丟給電腦讓它自學,最終學會了一套模型,這個過程就叫無監(jiān)督學習。電腦自學的模型被稱為基本大語言模型或Basic Large Language Model。那么,怎么進一步提高語言模型的預測能力呢?這時候就需要人類的指導了。僅靠自學是不夠的,老師必須上場。

比如,當語言模型給出結果“今天天氣真好”時,訓練工程師會給出反饋說“不對,應該說‘今天天氣真熱’”。如此反復之后,模型就會在人類的指導和反饋下,通過對基本大語言模型的微調,形成一個更符合我們期望的模型。這個模型是基于人類反饋的強化學習微調得到的,因此被稱為指令微調(Instruction-Tuned-LLM)的大語言模型。因此,當我們看到InstructGPT時,這個Instruct就是指導指令的意思,而我們經??吹降牧硗庖粋€詞,RLHF(Reinforcement Learning fromHuman Feedback,人類反饋強化學習)就是基于人類反饋的強化學習單詞的首字母的縮寫簡稱。
概念小結
了解了整個過程之后,咱們來簡單總結一下。
模型是機器通過學習獲得的一種輸入數據和輸出數據之間的映射關系,影響模型效果的因素的權重就是模型的參數。
GPT本質上就是一個不斷預測下一個token的概率的模型。溫度(temperature)會控制GPT使用低概率token的頻率。
大語言模型可以簡單地分為兩類:基本大語言模型和指令微調的大語言模型。

那我們經常說的GPT又是什么意思?
GPT的全稱是Generative Pretrained Transformer,通過上面的概念梳理,我們就可以更加容易地去理解這三個詞的意思了。
Generative(生成式),它意味著模型的目的,是生成或者輸出新的文本。GPT能夠生成連續(xù)流程的句子或者文本段落,這并不是簡單的,它從訓練數據當中復制和粘貼出來的結果。
而Pretrained(預訓練),這就表示模型它首先是在大量的文本上進行了預先的訓練,預訓練的過程它就讓模型學會了許多關于語言的知識。
Transformer,這是一種特定的機器學習架構,就類似于我們之前說的機器學習文本時候用的學習方法算法。
我們只需要知道這一點就可以了,不用再去深入了解它的到底是什么樣的算法,我們只要知道它是一種學習的算法就行了。另外,雖然這個單詞翻譯成中文是變壓器,但是,一般我們不會去叫它變壓器,需要的時候呢,我們就直接使用Transformer這個英文名詞就可以了。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。