首頁 > AI資訊 > 最新資訊 > 擁抱“大模型時代” ——原理及相關技術

擁抱“大模型時代” ——原理及相關技術

新火種    2023-12-21

當前,人工智能技術和應用正在深度融入社會的方方面面,尤其是以ChatGPT等為代表的大語言模型更是成為現象級技術,為整個社會發展方式的深刻變革提供無限潛能,可以說,大模型正在開啟一個新的時代。

“大模型”全稱為大型語言模型(LLM),狹義上指基于深度學習算法進行訓練的自然語言處理(NLP)模型,主要應用于自然語言理解和生成等領域,廣義上還包括機器視覺(CV)大模型、多模態大模型等。

大模型“大”的特點體現在“大數據+大算力+大參數”,利用海量的數據和深度學習技術來理解、生成和預測新內容,通常情況下有數百億乃至數萬億個參數,可以在不同領域和任務中發揮類似人類思維和創造力的智能表現。

一、大模型的基本原理與特點

大模型的原理是基于深度學習,利用大量的數據和計算資源來訓練具有大量參數的神經網絡模型,并通過不斷地調整模型參數,使得模型能夠在各種任務中取得最佳表現。

當前流行的大模型的網絡架構是Transformer結構。相比于傳統的循環神經網絡(RNN)和長短時記憶網絡(LSTM),Transformer具有獨特的注意力機制(Attention),這相當于給模型加強理解力,對更重要的詞能給予更多

根據這種網絡架構的變形,主流的框架可以分為Encoder-Decoder, Encoder-Only和Decoder-Only,其中:

1. Encoder-Only

僅包含編碼器部分,主要適用于不需要生成序列的任務,只需要對輸入進行編碼和處理的單向任務場景,如文本分類、情感分析等,這類代表是BERT相關的模型,如BERT、RoBERT、ALBERT等。

2. Encoder-Decoder

既包含編碼器也包含解碼器,通常用于序列到序列(Seq2Seq)任務,如機器翻譯、對話生成等,這類代表是以Google訓出來T5為代表的相關大模型。

3. Decoder-Only

僅包含解碼器部分,通常用于序列生成任務,如文本生成、機器翻譯等。這類結構的模型適用于需要生成序列的任務,可以從輸入的編碼中生成相應的序列。同時還有一個重要特點是可以進行無監督預訓練。在預訓練階段,模型通過大量的無標注數據學習語言的統計模式和語義信息。這種方法可以使得模型具備廣泛的語言知識和理解能力。在預訓練之后,模型可以進行有監督微調,用于特定的下游任務(如文本生成、翻譯等)。這類結構的代表就是GPT類模型,它們都是基于Decoder-Only的形式來逐步演化的。

二、大模型的訓練過程

在了解了大模型的基本原理后,接下來介紹一下大模型的訓練技術。

1. 預訓練(Pretraining)

預訓練是大模型訓練的第一步,目的是讓模型學習語言的表達方式和語義信息。預訓練階段最重要的是數據,需要收集大量的無標注數據,例如百科、新聞、博客、論壇等,這些數據可以是多種語言的。這些數據需要經過一定的清洗和處理以去除噪音,最后會以tokenizer粒度輸入到上文提到的語言模型中,用于訓練和優化語言模型。預訓練過程中,模型會學習訓練數據集中詞匯、句法和語義的規律,以及上下文之間的關系。

2. 指令微調(Instruction Tuning Stage)

在完成預訓練后,就可以通過指令微調去挖掘和增強語言模型本身具備的能力。

指令微調(Instruction tuning)是大模型訓練的一個階段,它是一種有監督微調的特殊形式,旨在讓模型理解和遵循人類指令。在指令微調階段,首先需要準備一系列的NLP任務,并將每個任務轉化為指令形式,其中指令包括人類對模型應該執行的任務描述和期望的輸出結果。然后,使用這些指令對已經預訓練好的大語言模型進行監督學習,使得模型通過學習和適應指令來提高其在特定任務上的表現。

為了讓模型訓練更加高效和簡單,這個階段還有一種高效的微調技術,這為普通的從業者打開了通向使用大模型的捷徑。

Parameter-Efficient Fine-Tuning (PEFT)旨在通過最小化微調參數的數量和計算復雜度,達到高效的遷移學習的目的,提高預訓練模型在新任務上的性能,從而緩解大型預訓練模型的訓練成本。在訓練過程中,預訓練模型的參數保持不變,只需微調少量的額外參數,就可以達到與全量微調相當的性能。

目前,很多研究對PEFT方法進行了探索,例如Adapter Tuning和Prefix Tuning等。其中,Adapter Tuning方法在面對特定的下游任務時,將預訓練模型中的某些層固定,只微調接近下游任務的幾層參數。而Prefix Tuning方法則是在預訓練模型的基礎上,添加一些額外的參數,這些參數在訓練過程中會根據特定的任務進行更新和調整。

現在常用的Adapter Tuning的技術是Low-Rank Adaptation(LoRA)。它通過最小化微調參數的數量和計算復雜度,實現高效的遷移學習,以提高預訓練模型在新任務上的性能。LoRA 的核心思想是將預訓練模型的權重矩陣分解為兩個低秩矩陣的乘積。通過這種分解,可以顯著減少微調參數的數量,并降低計算復雜度。該方式和機器學習中經典的降維的思想很類似,類似地,LoRA 使用了矩陣分解技術中的奇異值分解 (Singular Value Decomposition, SVD) 或低秩近似 (Low-Rank Approximation) 方法,將原始權重矩陣分解為兩個低秩矩陣的乘積。

在微調過程中,LoRA只更新這兩個低秩矩陣的參數,而保持其他預訓練參數固定不變。這樣可以顯著減少微調所需的計算資源和時間,并且在很多任務上取得了與全量微調相當的性能。

LoRA技術的引入使得在大規模預訓練模型上進行微調更加高效和可行,為實際應用提供了更多可能性。

3. 對齊微調(Alignment Tuning)

主要目標在于將語言模型與人類的偏好、價值觀進行對齊,其中最重要的技術就是使用RLHF(reinforcement learning from human feedback)來進行對齊微調。主要步驟包括:

(1)預訓練模型的有監督微調

先收集一個提示詞集合,并要求標注人員寫出高質量的回復,然后使用該數據集以監督的方式微調預訓練的基礎模型。

(2)訓練獎勵模型

這個過程涉及到與人類評估者進行對話,并根據他們的反饋來進行調整和優化。評估者會根據個人偏好對模型生成的回復進行排序,從而指導模型生成更符合人類期望的回復。這種基于人類反饋的訓練方式可以幫助模型捕捉到更多人類語言的特點和習慣,從而提升模型的生成能力。

(3)利用強化學習模型微調

主要使用了強化學習的鄰近策略優化(PPO,proximal policy optimization)算法,對于每個時間步,PPO算法會計算當前產生和初始化的KL散度,根據這個分布來計算一個狀態或動作的預期回報,然后使用這個回報來更新策略,達到對SFT模型進一步優化。

對齊微調是一個關鍵的階段,這一階段使用強化學習從人類反饋中進行微調,以進一步優化模型的生成能力。它通過與人類評估者和用戶的互動,不斷優化模型的生成能力,以更好地滿足人類期望和需求。

三、提示詞工程(Prompt)

除了訓練之外,提示詞工程(Prompt Engineering)也是一個重要技術方向,也是提升大模型實際使用效果的有效途徑。提示詞工程是給大模型應用做出合適的提示,使其能實現更好生成效果的一種技術。

其基本思路是,通過給模型提供一個或多個提示詞或短語,來指導大模型輸出符合要求的內容,本質上是通過恰當的初始化參數,來激發大模型自身的潛力。提示詞一般分為以下四種:

1. 零樣本(Zero-Shot Prompt)

在零樣本場景中,模型根據提示或指令進行任務處理,不需要針對每個新任務或領域都進行專門的訓練,這類一般作為訓練通用大模型的最常見的評估手段。

2. 少樣本(Few-Shot Prompt)

在少樣本場景中,模型從少量示例中學習特定任務,利用遷移學習的方法來提高泛化性能,該類prompt也是很多實際應用案例都采取來進行大模型微調訓練的方式。

3. 思維鏈(Chain-of-thought Prompt)

這類Prompt常見于推理復雜任務,它通過引導模型逐步解決問題,以一系列連貫的步驟展示推理的思路和邏輯關系。通過這種逐步推理的方式,模型可以逐漸獲得更多信息,并在整個推理過程中累積正確的推斷。

4. 多模態信息(Multimodal Prompt)

這類Prompt包含的信息更豐富,主要是將不同模態的信息(如文本、圖像、音頻等)融合到一起,形成一種多模態的提示,以幫助模型更好地理解和處理輸入數據。比如在問答系統中,可以將問題和相關圖像作為多模態輸入,以幫助模型更好地理解問題的含義和上下文背景,并生成更加準確和全面的答案。

四、其他相關術語概念

人工智能(AI)是研究、開發用于模擬、延伸和擴展的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支,它致力于理解智能的本質,并生產出一種能夠以人類智能相似的方式做出反應的智能機器。

AGI(Artificial General Intelligence)是指通用人工智能,專注于研制像人一樣思考、像人一樣從事多種用途的機器。它與一般的特定領域智能(如機器視覺、語音識別等)相區分。

AIGC(AI-Generated Content)是基于人工智能技術,通過已有數據尋找規律,并通過適當的泛化能力生成相關內容的技術。它可以生成圖像、文本、音頻、視頻等內容。

Transformer是一種深度學習模型架構,廣泛應用于自然語言處理任務。Transformer模型以自注意力機制為基礎,已成為眾多AI大模型的核心架構。

注意力機制(Attention Mechanism)是一種用于處理序列數據的機制,允許模型在處理輸入序列時對不同位置的信息分配不同的注意力權重。這對于理解長文本和建立語境非常有幫助。

參數量(Model Parameters)是指的是神經網絡模型中的可調整參數數量。AI大模型通常有數億到數千億的參數,這些參數用于存儲和學習模型的知識。B是Billion(十億)的意思,如7B模型就是70億參數量的大模型。

涌現(Emergence)或稱創發、突現、呈展、演生,是一種現象。許多小實體相互作用后產生了大實體,而這個大實體展現了組成它的小實體所不具有的特性。研究發現,模型規模達到一定閾值以上后,會在多步算術、大學考試、單詞釋義等場景的準確性顯著提升,稱為涌現。

泛化(Generalization)模型泛化是指一些模型可以應用(泛化)到其他場景,通常為采用遷移學習、微調等手段實現泛化。

大模型正在以驚人的速度改變著我們的世界。本公眾號的大模型板塊,將從前沿技術、行業應用、熱門產品及測評、動態及趣聞等方面持續帶來大模型領域前沿、深入、有趣的內容,敬請期待!

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章