首頁 > AI資訊 > 最新資訊 > 巖芯數智自研國內首個非Attention機制大模型,無損提速7倍

巖芯數智自研國內首個非Attention機制大模型,無損提速7倍

新火種    2024-01-26

1月24日,在上海巖芯數智人工智能科技有限公司“新架構,新模力”大模型發布會上,巖芯數智正式發布了國內首個非Attention機制的通用自然語言大模型——Yan模型。作為行業內少有的非Transformer大模型,Yan模型用全新自研的“Yan架構”代替Transformer架構,用百億級參數達成千億參數大模型的性能效果——記憶能力提升3倍、速度提升7倍的同時,實現推理吞吐量的5倍提升。

會上,巖芯數智CEO劉凡平表示:“我們期望Yan架構可作為人工智能領域的基礎設施,并以此建立AI領域的開發者生態,最終讓任何人在任何設備上都能使用通用大模型,獲取更加經濟、便捷、安全的AI服務,推動構建普惠的人工智能未來。”

Transformer不是大模型的“唯一解”

Transformer是當下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基礎架構,它的崛起無疑是深度學習歷史長河中一個重要的里程碑。憑借著其強大的自然語言理解能力,Transformer在問世的短短幾年內便取代了傳統的RNN網絡結構,不僅成為自然語言處理領域的主流模型架構,還在計算機視覺、語音識別等多個領域展示了其跨界的通用能力。

那么,在Transformer已經占據人工智能領域半壁江山的今天,為什么巖芯數智還要另辟蹊徑,轉而尋求非Transformer的更多可能性呢?

發布會現場,劉凡平對這個問題做出了解答。他指出,以大規模著稱的Transformer,在實際應用中的高算力和高成本,讓不少中小型企業望而卻步。其內部架構的復雜性,讓決策過程難以解釋;長序列處理困難和無法控制的幻覺問題也限制了大模型在某些關鍵領域和特殊場景的廣泛應用。隨著云計算和邊緣計算的普及,行業對于高效能、低能耗AI大模型的需求正不斷增長。

劉凡平提到:“在全球范圍內,一直以來都有不少優秀的研究者試圖從根本上解決對Transformer架構的過度依賴,尋求更優的辦法替代Transformer。就連Transformer 的論文作者之一Llion Jones也在探索‘Transformer 之后的可能’,試圖用一種基于進化原理的自然啟發智能方法,從不同角度創造對AI框架的再定義。”

巖芯數智也不例外,他們在對Transformer模型不斷的調研和改進過程中,意識到了重新設計大模型的必要性:一方面,在Attention機制下,現有架構的調整幾乎已經達到瓶頸;另一方面,巖芯數智更期望降低企業對大模型的使用門檻,讓大模型在更少的數據、更低的算力下具備更強的性能,以應用于更廣泛的業務。因此,在歷經近1000多個日夜,超過幾百次的設計、修改、優化、對比、重來后,巖芯數智自主研發出了不再依賴Transformer的全新架構——“Yan架構”,同時,基于Yan架構的通用大模型應運而生。

Yan架構:面向技術與落地的雙重發力

如果說基于Transformer架構的大模型是“耗油且高昂”的燃油車,那么基于Yan架構的大模型,更像是更加經濟、更加節能的新能源汽車。它去除了Transformer中高成本的注意力機制,代之以計算量更小、難度更低的線性計算,大大提高了建模效率和訓練速度,效率翻倍的同時實現了成本的驟降。

發布會上,研究團隊展示了Yan模型和同等參數規模Transformer模型的大量實測對比,經實驗數據表明,Yan架構可以實現比Transformer架構更高的訓練效率、更強的記憶能力、更低的幻覺表達。

在同等資源條件下,Yan架構的模型,訓練效率和推理吞吐量分別是Transformer架構的7倍及5倍,并使記憶能力得到3倍提升。Yan架構的設計,使得Yan模型在推理時的空間復雜度為常量,因此針對Transformer面臨的長序列難題,Yan模型同樣表現優異。對比數據表明,在單張4090 24G顯卡上,當模型輸出token的長度超出2600時,Transformer的模型會出現顯存不足,而Yan模型的顯存使用始終穩定在14G左右,理論上能夠實現無限長度的推理。

另外,研究團隊首創了一種合理的關聯特征函數和記憶算子,結合線性計算的方式,降低模型內部結構的復雜度。全新架構下的Yan模型,將打開以往自然語言處理的“不可解釋黑盒”,充分發掘決策過程的透明度和可解釋性,從而助力大模型在醫療、金融、法律等高風險領域的廣泛運用。

除了在技術上的突破創新,Yan模型也同時具備了私密化、經濟化、精準化和實時性、專業性、通用性等六大優秀商業化落地能力,可謂是“為落地而生”。

就業內共識而言,大模型競賽已經從“卷參數”的時代過渡到了“卷應用”的階段,行業對于通用大模型的需求亟待解決,故而許多大模型會通過剪枝、壓縮等主流技術手段來實現在設備上的運行,而Yan模型100%支持私有化部署應用,不經裁剪和壓縮即可在主流消費級CPU等端側設備上無損運行,達到其他模型在GPU上的運行效果。這一點在此次發布會上也得到了印證,研究人員現場展示了Yan模型在個人電腦端的運行推理,下階段有望在手機端等更加便攜的設備或終端中進行無損部署。

劉凡平表示:“巖芯數智旨在打造全模態實時人機交互系統,全面打通感知、認知、決策與行動,構建通用人工智能的智能循環,為通用機器人等具身智能方向的研究提供大模型基礎底座的‘更多選擇’,希望能在低消耗、顯存受限的情況下,通過提供基于Yan架構的專業生產力工具,實現端側訓練、訓推一體,助力千行百業完成數智化轉型及升級。”

新模力,新生態

發布會圓桌交流環節,劉凡平與中科院上海微研究所研究員兼博導、中國信通院上海工創中心總工程師李韓軍、智子鑫源創始人曹楊、閱文起點技術總監葉禮偉,圍繞“創新與改變”的議題,就未來人工智能領域的生態建設進行了深入交流與討論。

李韓軍表示:“人工智能發展至今,大模型的架構升級始終在不斷進化,在技術與應用的雙重驅動下,生態邊界也在擴展。可以說,每一次技術上的突破,都會帶來智能生態的發展。從當前著眼通用性,到未來的個性化發展,我們期待行業生發更多新的生產力工具,引發新一輪技術革命,推動整個AI行業向更加高效和可持續的方向發展。”

Yan模型在實際應用中的表現還需要經過市場的檢驗,正如巖芯數智董事長陳代千的總結陳詞:“隨著Yan模型的進一步落地和應用,期待以Yan架構為基礎的通用大模型,為各種機器人、嵌入式設備、物聯網設備提供所需的智能化能力,能為人工智能行業注入新的活力、新的思路,新的可能,為企業和用戶創造更多的價值。也用我們的力量,參與推動人工智能領域新一輪的技術變革。”

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章