樹莓派上流暢運行大模型!讓終端具備自主學習與記憶能力|對話RockAICEO劉凡平
2022年初,彼時OpenAI還未發布ChatGPT,RockAI就已經選擇押注非Transformer路線。
這一在當時看來非主流的選擇,如今正逐漸顯現出前瞻性。
他們打造的端側大模型已經可以在樹莓派這樣的微型設備上流暢運行,首批搭載Yan架構大模型的具身智能機器人也已經面世。
當下AI算力競賽愈演愈烈之際,他們的“低算力”“群體智能”之路正在獲得更多關注。
本期「大模型創新架構」主題訪談,新火種邀請到RockAI CEO劉凡平,聊聊他們選擇非Transformer架構路線背后的故事,以及通過架構及算法創新實現AGI的技術愿景。

以下為新火種與RockAI CEO劉凡平的對話實錄整理:
非Transformer逆勢選擇新火種:介紹一下RockAI的創立背景吧,當時為什么選擇做非Transformer架構?
劉凡平:RockAI成立的工商登記的時間是2023年6月,但其實我們很多年前就在做這些事情了,當時ChatGPT還沒有火。
我最早在2016、2017年研究Attention機制時就認識到Transformer存在很多問題。2022年初創業時,我們就堅定走非Transformer路線,主要是因為意識到Transformer又耗算力又耗數據。
在此之前,我們其實也探索過Transformer架構的優化方向,做了線性Attention等改進,但發現這些都沒有解決根本問題,所以索性放棄,直接走非Transformer這條路。
新火種:當時設想的應用場景是什么?
劉凡平:最初做的其實是搜索引擎,當時我們的搜索引擎是“所搜即所得”,能夠直接給出答案,而不是給一堆網頁鏈接。這有點像現在的Kimi或Perplexity那種模式,但我們當時做得很早。
那時候就發現Transformer滿足不了我們的需求,首先是幻覺問題非常嚴重,另外我們希望AI能實現個性化的自主學習和記憶,這兩點都是當時Transformer基本上做不到的,甚至到現在都無法做到。
新火種:為什么從做搜索引擎轉變成現在做端側AI和群體智能?
劉凡平:其實是很自然的選擇和轉變。搜索引擎幫助用戶獲得信息,但它對用戶的了解比較淺,只能通過用戶的query、點擊鏈接和我們給的結果來了解用戶。
這種方式對記憶和自主學習的影響偏小,僅停留在傳統機器學習的用戶畫像這個很淺的層面。我們想走得更遠,讓AI與用戶之間產生更多粘性,所以想到讓設備走進來。
我們當時判斷AGI(通用人工智能)會和設備有強關聯,而不僅僅是互聯網的模式。搜索引擎只是通往AGI的一個工具,并沒有成為基建,而人工智能要成為基建,就一定要和設備關聯起來。
其實2022年底GPT火了之后,很多人不理解我們為什么要做非Transformer架構大模型。甚至到2023年,很多人都不太理解,現在隨著越來越多人看到了Transformer之外的可能性,大家開始慢慢理解了。
新火種:能不能介紹一下什么是群體智能?
劉凡平:我們對群體智能有一個定義,具備自主學習的若干智能單元,通過環境感知、自我組織、互動協作共同解決復雜問題,并在不斷變化的環境中實現整體智能提升。我們還定義了群體智能的四個階段:
第一階段是創新性基礎架構,摒棄傳統架構、研發低算力需求的創新架構和算法。
第二階段是多元化硬件生態,構建跨平臺、低功耗、多模態兼容的模型,實現在各類終端設備的靈活部署。
第三階段是自適應智能進化,賦予智能單元自主學習能力,建立持續進化體系,實現自我優化和迭代。
第四階段是協同化群體智能,構建智能單元間的高效信息交換與協作機制,形成既獨立又整體的智能生態系統。
整個過程我們希望是從互聯網模式走向物理世界的,讓物理世界的每一種交互都成為數據,而這種數據能更了解用戶,同時AI對數據的學習也能反饋到用戶身上,我們認為這才是最有價值的。

新火種:能不能介紹一下Yan架構大模型的核心技術MCSD?
劉凡平:其實MCSD只是我們模型的一個模塊,這個模塊降低了時間復雜度和空間復雜度。
舉個例子,Transformer中的Attention機制就像燃油汽車的發動機,是最核心的部分。現在很多人在優化它,相當于把發動機從自然吸氣變成渦輪增壓,但無論怎么改,它就是一個燃油發動機。
我們的MCSD相當于把它變成了新能源汽車的電機。Attention機制建立了一個大矩陣去計算token與token之間的關聯關系,時間復雜度是O(n2),性能損耗非常大。
而我們的MCSD可以通俗理解為,對輸入內容中的token進行動態的增強和衰減。
比如我想預測“今天北京的溫度是多少”這個句子的下一個token是什么,是問號還是句號。其中的“今天”兩個字對后面用問號還是句號影響很小,所以對它進行衰減;而“多少”對下一個token影響比較大,所以進行增強。
這個過程只需要算一次,就把計算復雜度從O(n2)降為了O(n),推理就更快,基本上做到一個穩定常量級的推理。

新火種:除了MCSD,Yan架構大模型還有什么核心技術?
劉凡平:我們還提出了類腦激活機制,它是在MCSD基礎上擴展的橫向內容。這個類腦激活機制我們內部稱為“動態神經元選擇驅動算法”。
人的大腦是動態激活的。開車時,視覺皮層被大量激活;休息時,視覺皮層被抑制;考試時,邏輯區被激活;回憶問題時,記憶區被激活。而傳統Transformer架構,哪怕算1+1,所有神經元都會參與運算,這是非常不合理的。
MoE(混合專家模型)雖然減少了參與計算的參數,但它在模型初始化前就定義好了分支數量,并不是真正動態激活的。我們的做法是,當用戶輸入query時,會動態組建一個神經網絡,這個網絡是根據需要臨時建立的,不是預設好的。
形象地說,MoE相當于在河上提前修好五座橋,用戶來了后選擇一座過河;而我們是沒有現成的橋,只提供一堆工具(神經元),用戶需要過河時,這些工具動態地創建出一座橋,問題解決后這個橋就消失了。

新火種:這種計算復雜度為O(n)的模型能在現實中提供什么新的可能性?
劉凡平:最典型的是設備端應用。很多設備廠商找我們,是因為我們的模型能在他們設備上跑起來。Transformer架構如果要在驍龍6的手機上運行,參數量需要降得很低,而我們可以直接運行。
像樹莓派這樣的低端設備,我們也能運行起來,這對物聯網設備很重要。還有無人機、具身智能機器人等,如果它們需要聯網才能對話,那用戶體驗是很糟糕的。我們能讓模型部署在設備上,實現離線智能,這是非常大的優勢。
新火種:計算復雜度的下降和模型性能的提升可以兼得嗎?
劉凡平:我認為是可以的。這不是拍腦袋的感覺,而是基于兩方面原因:
一是我們做了很多實驗,發現標準Attention機制的O(n2)計算復雜度有部分是浪費算力的;二是從腦科學角度看,即使是神經元很少的簡單生物,也能擁有一定的智能。
我們認為關鍵是底層算法的問題。我們不僅在做架構創新,還有基礎算法的創新。如辛頓所說,反向傳播算法本身也存在問題。要進一步發展人工智能,底層算法必須要做大量創新。
底層算法決定了上層架構,底層算法如果不行,架構層的創新就會越來越有限。
訓推同步與端側革命新火種:能不能描繪一下群體智能最終的場景是什么樣子?
劉凡平:人類社會的發展一定會伴隨著新設備的產生,未來可能每個人都會有一個新的設備,這個設備可能不再是手機,因為手機的場景有限。
這個設備會是什么樣現在不清楚,但我認為它更多會在物理世界幫助你,且不一定是機器人形式。會幫你解決日常生活中的絕大部分問題,具有高度隱私性,完全忠于你且不會泄露隱私。
更重要的是,這些設備具備自主學習能力。比如你告訴它做個蛋炒飯,它暫時還不會做,但它會在物理世界中自己學習怎么做。設備之間也會相互關聯,在人類社會之外,還有人與機器的社會、機器與機器的社會。
不過這不是說硅基生命會產生,而是服務人類社會的過程。我是個務實主義者,不會幻想非常科幻的場景。未來社會只要人存在,就是為人服務的社會,沒那么科幻,但一定會讓人更簡單、更高效地思考和行動。
新火種:目前我們是在群體智能四個階段里的哪個階段?
劉凡平:第一個階段“創新性基礎架構”已經完全實現。第二個階段“多元化硬件生態”要兼容非常廣泛的設備,我們也已經做到了。
現在正邁向第三個階段“自適應智能進化”。因為自主學習和記憶技術還沒有正式對外發布,一旦具備后,我們就完全進入第三階段。第四階段是“協同化群體智能”階段,所以目前我們處于第二階段向第三階段過渡的階段。
新火種:第三階段自適應智能進化的門檻是什么,最大挑戰是什么?
劉凡平:“自適應智能進化”的兩個關鍵門檻是自主學習和記憶能力。最大挑戰是“訓推同步”,即訓練和推理同步進行。
這個挑戰非常高,不是說DeepSeek或是OpenAI就可以輕易做到的。他們做的其實更多還是對Transformer的優化,而訓推同步在行業內都沒有人做過。
Google最近發表了一篇《Titans: Learning to Memorize at Test Time》的論文,也算是記憶能力的一種探索,但還不夠,而我們已經在實施自主學習與記憶能力的路上。

我們的技術規劃有兩個方面:一是從架構層面,通過類腦激活機制改進在記憶過程中讓每個神經元能記的東西更多;二是基礎算法創新,特別是優化反向傳播算法。
推理現在看起來容易,一臺GPU設備就能完成,但訓練卻很難,主要是因為反向傳播算法。如果訓練和推理算法要求都很低,那么就可以在終端設備上直接做訓練推理同步,直接從物理世界交互獲得數據進行訓練,這是理想狀態。
新火種:預計第三階段自適應智能進化和第四階段協同化群體智能會在多久后實現?
劉凡平:第三階段我們預計在未來一到兩年內實現,不會特別久。
我們內部已經看到了一些效果,去年6月份世界人工智能大會上我們對外演示過這個能力,但那還屬于實驗室版本,沒有商用。
第四階段“協同化群體智能”需要的時間更長,因為它涉及設備與設備之間的通信,這方面雖然我們有很多研究,但確實還有障礙,預計2到3年后可能會看到明顯進展。

新火種:要實現群體智能,不同設備上的多個模型相互協作的挑戰大嗎?
劉凡平:很大,這正是我們實驗室團隊正在研究的問題。
協同學習是很難的,它首先需要協同的機制和語言。人與人交流可以通過語言,但機器之間的交流大概率不是語言形式,因為語言交流有時間成本,且語言是具象表達,而非抽象的。
機器之間的協作一定是以更精準的方式進行,而目前我們還沒找到很好的方式。我們在研究機器與機器之間的交流模式,包括神經元交換的方式。
舉個例子,比如我的模型在開車時知道哪些神經元被激活,那能否把這部分神經元移植到另一個不會開車的模型上?移植后,那個模型無需訓練就可以直接開車,實現能力遷移。
同樣,當兩個模型需要一起完成任務時,如何讓它們默契配合?這需要實時同步的文本、視覺、語音的交互。
目前大模型的交互,輸入和輸出不是實時同步的,用戶輸入文本后,模型要等待完整輸入完成才開始思考再輸出。但人與人交流時,對方開始說話之后你同步就在思考了。
新火種:這與傳統人與智能音箱的那種交互有何本質區別?
劉凡平:傳統智能音箱是單向指令型交互,比如讓小度播放音樂,它就播放。我們的模式是,當你剛說“幫我播一首”,還沒說到后文時,模型已經開始推理你想聽誰的歌,開始理解你的意圖并準備結果,這能讓設備更像人而非工具。
這需要完全不同的技術實現。傳統多模態模型常常是分開訓練的,先訓練自然語言模型,再訓練音頻、視頻模型,然后做對齊。
而我們的方法更像教嬰兒,不是先學文本再學音頻再學視覺,而是同時學習,這產生的對世界的認識是完全不同的,改變了大模型的學習模式。
比如教孩子認字,當你指著字母說“這是A”時,聲音和視覺是同步輸入給他的。重復幾次孩子很快就能認出字母。實時學習不需要海量數據,只需要few-shot,而傳統大模型需要大量樣本輸入去學習。
當前的大模型由于架構問題和反向傳播的限制,導致強依賴數據和算力。而實時模型對數據的要求會大大降低。
一個人從嬰兒到大學畢業,并沒有看過一萬億token的數據,而現在大模型訓練動輒需要十幾T的token來訓,這顯現了現有方法的缺陷。
新火種:RockAI目前已經擺脫了對海量數據的需求嗎?
劉凡平:我們擺脫了一部分,但沒有徹底解決。我們希望基于自主學習和記憶能力徹底解決這個問題。
我們在人機交互方面已經取得了進展,但因為自主學習和記憶能力還未產品化應用,所以目前與其他產品的交互體驗差異外部感知還不是特別明顯,但路線是完全不同的。
新火種:我們目前能在哪些終端設備上實現兼容?與其他小型開源模型有什么區別?
劉凡平:對于推理的話基本上大部分終端都可以兼容,包括樹莓派。對于訓練,我們測試至少需要英特爾 i7以上水平的處理器。
在兼容性方面,我們應該是走在前面的,至少在2024年5月前就已在樹莓派上實現推理,并在2024年的世界人工智能大會上公開開放體驗。到現在應該還沒有哪家公司能做到這個程度。
我們與那些小型開源模型的區別很大。它們是通過縮減參數量來適應設備,而我們不是靠犧牲模型參數量來實現設備端訓練,這樣做意義不大。

新火種:這種廣泛的硬件適配會給我們生活帶來什么實際改變?
劉凡平:改變會很多。尤其是自主學習和和記憶能力產品化后,它可以實現高度個性化的交互體驗。與你交流的AI是完全個性化的,了解你的一切,能給出非常針對性的建議。不像現在的大模型問同樣的問題給的回答都是類似的。
比如你是科技媒體人,有自己的寫作風格,現在想讓主流大模型幫你寫作需要做大量prompt調整,但一旦端側能夠實現高度個性化后,你設備上的模型會非常了解你的風格,不需要額外調試就能按你的心意和風格寫作,且非常隱私安全。
同時我們也不希望是通過長上下文結合歷史對話的方式,來實現個性化,這種方式是不持久的。
再比如在家庭場景中,有多模態能力的端側設備能學習你平時接待客人的習慣是什么,自然知道這種場景該做什么,不需要專門下指令。
它會越來越貼近你的心意,了解你,與你的粘性越來越高,這是一種完全個性化的體驗,而不是所有人用同一個產品都得到相似的輸出和反饋。
新火種:推理訓練并行架構會是未來的大方向嗎?會多大程度影響具身智能和人機交互方式?
劉凡平:我認為一定會影響,而且影響非常大。我們和國內很多代表性的具身智能機器人廠家都聊過,現在具身智能有個很大問題。
我們認為具身智能機器人陷入了惡性循環:機器賣不出去,制造成本下不來;成本下不來,機器更加賣不出去。核心在于機器沒有真正的智能,賣不出好價格,無法建立正向循環降低邊際成本,尤其是制造成本。
問題不是云端大模型不夠好,而是云端大模型不適合具身智能廠家。真正適合具身智能的是訓練和推理能同步的模型。機器人是個性化服務,具身智能廠家不可能靠預設來滿足用戶所有的需求。
即使硬件做得再好、再優秀,都不是用戶購買的決定性因素,用戶購買只會因為它的智能足夠好。
幾十萬元一臺機器人,回家只能走路,沒人買。但如果能告訴它家里布局,讓它做各種家務就不一樣了。這些通用云端大模型做不了,因為每個家庭需求不同,每個場景不同,每個機器人也不同。
未來機器人的大腦一定會與機器人強綁定,是完全一對一關系,不像現在云端大模型與機器人是1對n關系。
這就像人類大腦,出生時相似,但越來越不同。因為每個人的生長環境、后天學習都會影響大腦決策。同樣拿水的動作,不同人的大腦發出的指令一定不是完全相同的,因為大家用的不是同一具身體,大腦與身體是綁定運作的。
具身智能也一樣,大腦會與機器強綁定,即使機器出廠規格相同,因每個家庭情況不同,使用方式也會不同。云端大模型無法完成這個過程,未來具身智能一定會被訓練推理同步的端側模型技術顛覆和驅動。

新火種:現在做訓練推理并行這方面工作的公司多嗎?
劉凡平:沒有,現在真正做訓練推理并行的只有我們一家。
新火種:目前RockAI已經與哪些公司建立了合作?有沒有比較激動人心的落地場景可以分享?
劉凡平:具體的公司名字不方便透露,但會有PC廠商在產品上離線部署我們的大模型,直接量產使用。
具身智能廠商也有合作,已經有出貨,他們很青睞我們模型的離線部署能力。
新火種:您覺得未來端側和云側模型會是怎樣的關系?會一家通吃還是共存協作?
劉凡平:我認為長期來說是共存的,但云端大模型市場一定會被收窄。
我們講的端側大模型可能和行業內很多人的定義不同。現在很多人所謂的端側大模型只是把Transformer通過量化、剪枝等技術讓它能在端側設備上運行,這沒有意義。
我們認為的端側大模型就像人的大腦一樣,沒有所謂云端大腦,大腦就在終端里,每個設備都擁有自己的智能,這是我們的愿景。云端大模型無法讓每臺設備擁有自己的智能,這是致命缺陷。
云端大模型可以解決宏觀問題,比如需要超算來解決的人類社會極度復雜問題,云端大模型非常有意義。但普通人生活中的高頻問題,比如讓機器人做會議紀要、拿水,不需要云端大模型,云端大模型也做不到。
另外,云端大模型做不到個性化。它不可能為全球80億人部署80億個模型,能有10個模型都不錯了。但當設備具備自主學習、記憶、交互能力時,才是人工智能新的突破時刻。
新火種:以后還需要云側和端側協同嗎?還是端側直接解決大部分問題?
劉凡平:會有協同,但不是現在理解的協同。我們的端側大模型是去中心化的,沒有中心節點,而云端大模型本身就是中心節點。
未來的端云協同可能更像人類的協同。在公司時,部門leader和同事們開會,此時她是中心節點,需要把自己的意思同步給其他人。回到家,父母可能會給她一些叮囑,這時父母又成了中心節點。
這個過程里中心節點是不斷變化的,不是固定唯一的,這種端云協同本質是群體思想不斷對齊的過程。就像我們看電視新聞節目,也可理解為一種端云協同,給每個人同步信息讓大家信息對齊。
未來端云協同不會再是現在的“端側能力有限所以需要云端支持”這種概念。
新火種:未來5年AI發展的關鍵拐點將出現在哪些方面?
劉凡平:第一,我認為基礎算法和架構一定會有大量改變。可能很多人不愿意相信,因為他們已經在Transformer上投入了大量資源。但我認為今明年基礎算法和架構一定會有大變化。
第二,端側AI一定會慢慢被人接受和理解,這是實現AGI的重要載體。對算力和數據的需求一定會下降。算力是個大坑,我不認為我們真的需要那么多的算力。
新的基礎算法和端側AI會被越來越多人接受。最后,5~10年后,群體智能也會慢慢普及,其價值會遠超現在靠堆算力產生的智能。
為什么?因為群體智能會加速智能社會指數級增長,就像工業革命時期的生產力突破也可以理解成是一種群體智能的突破,新的科技和工具讓人與人、機器與機器的協作更高效了。
現在機器之間協作還非常弱,手機、電腦基本不存在真正的協作,只是互傳文件或跨設備接電話。真正的協作是要一起解決問題,這需要群體智能來實現。
我認為未來五年社會會發生很大變化,可能需要普通人甚至專業人員付出諸多努力才能適應。現在也有類似的趨勢,當前還處于緩慢爬坡階段,以后會從爬坡變成直接上坡。
論文:https://arxiv.org/abs/2406.12230
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。