欧美牲交a欧美牲交aⅴ免费,欧美在线免费观看视频,好紧好爽免费午夜视频

首頁 > AI資訊 > 最新資訊 > 彩云科技發(fā)布基于DCFormer架構通用大模型云錦天章

彩云科技發(fā)布基于DCFormer架構通用大模型云錦天章

中國新聞網 2024-11-15

　　11月13日，彩云科技在北京總部與媒體進行一場主題為“From Paper to App”的溝通會。會上，彩云科技CEO袁行遠，就通用大模型未來進化之路，與人工智能的落地場景等熱點話題進行了交流，并正式推出了首款基于DCFormer架構開發(fā)的通用大模型云錦天章，與此同時，彩云科技旗下AI RPG平臺彩云小夢，也成為首款基于DCFormer架構開發(fā)的AI產品。

　　早在2017年，谷歌發(fā)布《Attention Is All You Need》論文，首次提出Transformer架構，掀開了人工智能自然語言處理(NLP)領域發(fā)展的全新篇章。Transformer架構作為神經網絡學習中最重要的架構，成為后來席卷全球的一系列通用大模型如ChatGPT、Gemini的底層技術支撐。而提升Transformer的運行效率也成為人工智能領域的研究熱點，2024年4月，谷歌最近一次更新了Transformer架構，提出了Mixture-of-Depths(MoD)方法，使得訓練后采樣過程中提速50%，成為Transformer架構提速升級的又一重要事件。

　　同樣在今年，一家來自國內的人工智能企業(yè)彩云科技，在國際機器學習領域的頂級會議ICML(國際機器學習大會)上，發(fā)布全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》。在該論文中，彩云科技團隊首次發(fā)布DCFormer架構，并在基于DCFormer打造的模型DCPythia-6.9B上，實現了在預訓練困惑度和下游任務評估上都優(yōu)于開源Pythia-12B。這意味著，DCFormer模型在性能上，實現了對Transformer模型1.7-2倍的提升。

　　只有模型效率和智能度提升才能實現真正的AGI

　　溝通會現場，袁行遠首先向參會者展示了一個ChatGPT o1的問答：“假設ChatGPT4每天響應用戶約2億個請求，消耗超過50萬千瓦時的電力。假設全球網絡都使用ChatGPT作為訪問入口，ChatGPT每天消耗多少電力？另外按照這個速度發(fā)展下去，到2050年全球人工智能的耗電量會達到目前地球發(fā)電能力的多少倍？”ChatGPT o1給出的答案是，“到2050年，全球人工智能的耗電量可能會達到目前地球發(fā)電能力的8倍”。

　　“Scaling Law告訴我們，隨著算力的提升，模型更大、數據更多，模型效果會越來越好，但與之相應的，能耗也會越來越高，在Scaling Law失效，人工智能實現之前，或許我們地球的能源就已經無法支撐了。”袁行遠表示，“沒有效率的提升，AI就是鏡花水月。”

　　彩云科技團隊構建DCFormer框架，提出可動態(tài)組合的多頭注意力(DCMHA)，替換Transformer核心組件多頭注意力模塊(MHA)，解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定，讓它們可以根據輸入動態(tài)組合，從根本上提升了模型的表達能力，由此實現了對Transformer架構1.7—2倍的性能提升。

　　今年的ICML會議上，彩云科技團隊的3篇論文，在錄用平均分為4.25-6.33的情況下，獲得平均7分的高分，并成為國內唯二受邀參加維也納ICML2024登臺演講的企業(yè)，另一家則是華為。

　　袁行遠表示：我們的工作表明，Transformer架構距離“理想模型架構”還有很大的提升空間，除了堆算力堆數據的“大力出奇跡”路線，模型架構創(chuàng)新同樣大有可為。往小了說，在大模型領域，利用效率更高的模型架構，小公司也可以在與世界頂級人工智能企業(yè)的對抗中取得優(yōu)勢。往大了說，模型效率的提升，可以有效地降低人工智能升級迭代的成本，加速AI時代的到來。

　　云錦天章問世首個基于DCFormer架構的通用大模型

　　作為國內最早做LLM(大語言模型)的公司之一，彩云科技在2017年就已經開始做NLP和大模型方面的工作。目前，彩云科技旗下有彩云天氣、彩云小夢、彩云小譯三款面向C端用戶的AI產品，是國內為數不多能夠實現盈利的人工智能公司。

　　“世界最強的小說續(xù)寫通用模型。”溝通會上，袁行遠向大家展示了首個基于DCFormer架構的通用大模型云錦天章。“這個成語是比喻文章極為高雅、華美，和我們的大模型想要實現的效果有共通之處。”袁行遠介紹，云錦天章可以實現在虛構世界觀的基礎上，賦予小說人物編程、數學等基礎能力，可以高速針對大量文字進行擴寫、縮寫，針對文章風格進行大容量更換，同時兼具其他模型的問答、數學、編程等基礎能力。

　　而在應用端，擁有四百萬用戶的彩云小夢，也迎來了基于全新DCFormer架構的V.3.5版本。與之前的版本相比，彩云小夢V3.5整體流暢性和連貫性提升了20%，支持前文長度由2000字提升至10000字，故事背景設定最長長度高達10000字。“這意味著，在故事創(chuàng)作或者與人工智能對話中，人工智能能夠記住之前發(fā)生的事情，記住之前故事里發(fā)生的細節(jié)，人物記得自己明確的目標，并且會根據劇情及時進行反思修正。在做到自主創(chuàng)作的同時，發(fā)散性收斂，不會天馬行空，人物性格前后一致，故事邏輯性更強。”

　　“深度對話，超長記憶，邏輯清晰。”袁行遠總結彩云小夢V3.5的特征，“我們的目標是為用戶打造指尖伴侶定制夢境。”袁行遠表示，彩云小夢的用戶單次使用時長，累計使用時長在同類產品中都處于領先的地位，“對話超過400句，你會發(fā)現彩云小夢真正的魅力。”

　　袁行遠介紹，公司接下來將繼續(xù)加大對DCFormer的研究和投入：“一方面有打破‘國外做技術層，國內做應用層’刻板印象的情懷所在，一方面也是為公司自有產品應對市場競爭，實現快速迭代升級和能力領先的現實需要。”

（文章來源：中國新聞網）

Tags:

機器學習彩云架構

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

彩云科技發(fā)布基于DCFormer架構通用大模型云錦天章

業(yè)內首次，彩云科技發(fā)布基于DCFormer架構通用大模型云錦天章

全自動打工「人」！波士頓動力Atlas進廠視頻火了，不斷電不下班

分類準確率達99%，山大團隊提出基于對比學習的基因數據分類方法

清華趙明國：智能人形機器人≠智能+人形|智者訪談

NeurIPS2024｜新一代芯片電路邏輯綜合，可擴展可解釋的神經電路生成框架

熱門文章