首頁 > AI資訊 > 行業動態 > OpenAI把GPT-4原始版給了他們:研究不微調只靠提示詞能走多遠

OpenAI把GPT-4原始版給了他們:研究不微調只靠提示詞能走多遠

新火種    2024-06-04

除了OpenAI自己,居然還有別人能用上GPT-4-Base版??

也就是未經微調的預訓練版,還不會對話聊天,只會補全句子的模型。

EPFL(瑞士洛桑聯邦理工)團隊申請到了訪問權限,用于研究“上下文學習足以讓大模型跟隨指令嗎?”。

OpenAI把GPT-4原始版給了他們:研究不微調只靠提示詞能走多遠

也就是不用監督微調、也不用RHLF或其他強化學習對齊方法,只靠提示詞能走多遠?

預訓練模型,究竟能不能一步登天,直接改造成聊天機器人或AI助手?

OpenAI把GPT-4原始版給了他們:研究不微調只靠提示詞能走多遠

如果可行,將大大降低類ChatGPT大模型的開發難度。

免微調對齊靠譜嗎?

免微調對齊,讓剛出爐的預訓練模型不止會“文本補全”,只從提示詞中學會和用戶對話、跟隨指令,一直是業界關注的研究方向。

目前的SOTA方法URIAL來自艾倫研究所,使用系統提示詞+少數風格示例就能達到不錯的效果。

OpenAI把GPT-4原始版給了他們:研究不微調只靠提示詞能走多遠

但EPFL團隊發現,URIAL仍無法完全彌補與指令微調模型的差距,尤其在多輪對話中的表現更差一些。

實驗中,在Llama系列、Mistral系列和一般人接觸不到的GPT-4-Base都觀察到這種現象。

其中GPT-4-Base的API訪問權限從OpenAI Researcher Access Program項目中申請到。

OpenAI把GPT-4原始版給了他們:研究不微調只靠提示詞能走多遠

EPFL團隊從這里出發,嘗試了各種辦法來提升上下文學習的效果。

首先他們增加示例的數量,但發現幫助不大,沒有隨著例子數目增加性能就提升的趨勢。這一點跟圖像分類、機器翻譯等任務還不太一樣。

OpenAI把GPT-4原始版給了他們:研究不微調只靠提示詞能走多遠

然后他們使用了貪心搜索算法,從一大堆示例中選擇最佳的添加到上下文。

這種方法可以進一步提高性能,但與指令微調模型的差距仍然存在,特別是在 AlpacaEval 2.0基準測試中。

OpenAI把GPT-4原始版給了他們:研究不微調只靠提示詞能走多遠

此外他們還發現,貪心搜索為某個特定模型找到的最佳示例,對于其他模型不能可靠地遷移。

也就是說,不同的示例適合不同的模型。

OpenAI把GPT-4原始版給了他們:研究不微調只靠提示詞能走多遠

團隊還進行了一系列消融實驗,以更多地了解上下文學習的工作原理。

他們發現,在MT-Bench這樣的綜合評測中,示例包含正確的“問題-答案對”至關重要。

這與此前大模型在分類任務中,只要有大量示例,部分標簽錯了也無所謂的發現非常不同。

OpenAI把GPT-4原始版給了他們:研究不微調只靠提示詞能走多遠

所以最終得出的結論是:

論文最后分析,大語言模型可能通過上下文學習只學會了如何模仿例子里的回答風格,但還沒有真正理解執行指令的邏輯。

指令跟隨任務相對還是比較復雜和開放的,沒那么容易掌握。

想讓AI助手更“聽話”,暫時還是很難有捷徑可走。


Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章