大神Karpathy強推,分詞領域必讀:自動釣魚讓大模型“發瘋”的token,來自Transformer作者創業公司
關于大模型分詞(tokenization),大神Karpathy剛剛推薦了一篇必讀新論文。主題是:自動檢測大模型中那些會導致“故障”的token。簡單來說,由于大模型tokenizer的創建和模型訓練是分開的,可能導致某些token在訓練中很少、甚至完全沒出現過。
關于大模型分詞(tokenization),大神Karpathy剛剛推薦了一篇必讀新論文。主題是:自動檢測大模型中那些會導致“故障”的token。簡單來說,由于大模型tokenizer的創建和模型訓練是分開的,可能導致某些token在訓練中很少、甚至完全沒出現過。
克雷西 發自 凹非寺新火種 | 公眾號 QbitAI大模型做奧賽題游刃有余,簡單的數數卻屢屢翻車的原因找到了。谷歌的一項新研究,發現大模型不會數數的原因,并不是簡單的tokenizer所致,而是沒有足夠的空間來存儲用于計數的向量。數出一段話中某個單詞出現的次數,這樣簡單的任務可以難倒許多大模型,GP