基于通義深度定制場景專屬大模型,雷鳥AR眼鏡反應速度提升一倍|創新場景
本文摘自《云棲戰略參考》,這本刊物由阿里云與鈦媒體聯合策劃。目的是為了把各個行業先行者的技術探索、業務實踐呈現出來,與思考同樣問題的“數字先行者”共同探討、碰撞,希望這些內容能讓你有所啟發。
AR(Augmented Reality,增強現實)眼鏡,被認為是取代手機成為下一個超級終端的有力爭奪者。這兩年,伴隨著 Meta、蘋果等巨頭的入局和大力投入,加上供應鏈的成熟,AR 眼鏡也被更多人所關注,成為這一波 XR(Extended Reality,擴展現實)熱潮中的最大受益者。
而在同一時期,AI 大模型的橫空出世和快速迭代,成為第四次工業革命的引擎,革新各行各業,創新著全新的商業模式。
2024 年下半年,不帶顯示的 AI 眼鏡席卷整個科技行業,預計未來市場規模超千億美金。AI 眼鏡的爆火,也讓更多人堅信,“下一個 iPhone 時刻,由 AI+AR 創造”。
但是作為連接物理世界與數字世界的橋梁,AI+AR 不是做簡單的 1+1 加法題,AR 的場景很復雜也很特殊,對反應的速度以及交互的方式都有著更高的要求。
作為國內第一梯隊的 AR 眼鏡公司,雷鳥創新一直在做 AI 與 AR 的融合研發工作,并在 AI 生態上投入了大量的人力和物力,去探索 AI+AR 的最佳融合方式。針對當下 AR 產品出現的 AI 體驗不佳的問題,雷鳥創新與阿里云一起,探索走出了一條智能化合作創新共贏之路。
AI+AR,消費電子的新機遇
相比較手機、PC 等傳統終端,AR 發展的時間并不長,近幾年才將落地產品推向大眾市場。而伴隨政策支持和 AI 大模型的加速發展和落地,消費電子行業迎來了新一輪的發展機遇。
來自機構統計的數據顯示,2024 年上半年,國內消費級 AR 設備銷量同比增長 49%,反映出市場對 AR 的廣泛認可。多家 AR 公司負責人也不止一次在公開場合表示,AR 眼鏡會是 AI 的理想載體,在空間計算時代中,將會展現出獨特的價值和潛力。
IDC 觀點認為,AI 在硬件搭載上有很多選擇,手機、PC、AR 眼鏡都是好的載體。但是對于 AR 這種輕量級硬件來說,AI 的加入會極大豐富 AR 的應用場景,尤其是在生活助手類的應用中,都會使得其使用的便捷性、準確性得到明顯提升。
中商產業研究院也在報告中表示,在 AR 設備中,AI 技術可以幫助設備更好地理解用戶的意圖、行為和環境,從而提供更加個性化的體驗。隨著相關技術路徑的逐漸成熟,未來 AI+AR 眼鏡有望跑通效率提升類場景,向消費級放量,AI+AR眼鏡有望在短期實現百萬出貨量,中期實現千萬出貨量,AI+AR 眼鏡未來有望成為下一個過億的創新終端產品。
雷鳥創新可以說是國內 AR 產業的最早一批探路者,創立至今已有三年多的時間,用了不到一年的時間就做到了中國消費級 AR 市場占有率的第一名,在對 AI+AR 的探索上也是處于前列,并多次在公開場合表明公司在 AI 與 AR 融合上的努力。
雷鳥創新創始人兼 CEO 李宏偉認為,“AR 眼鏡將賦予 AI 與人類高度一致的感官能力,并使得 AI 真正成為人們的‘外腦’,增強人們對視覺信息、音頻信息的處理能力。AI+AR 會是行業的一個很重要的趨勢。我們堅信,未來 2-3 年 AI 帶來的最重要的新硬件就是 AR 眼鏡,下一個 iPhone 時刻由 AI+AR 來創造?!?/p>
過去,AR 眼鏡雖然能同時呈現數字與物理世界,但二者是隔絕的,沒有交互,也沒有聯動性。在 AI 發展的初期,其更多的是被應用在一些軟件優化等基礎應用上,并沒有直接串聯起物理與數字世界。
而這兩年,AI 發展的速度超過任何歷史時期,性能也有了極大的提升,主動性和應用的場景也更多、更深入。
有了 AI 大模型的融入,AR 不僅能呈現現實與虛擬世界,更能借助 AI 與算法去接管和驅動數字世界,并與物理世界形成連接,與你在現實中看到的場景進行交互,看你所看,聽你所聽,在你眼前,在你耳邊,重構我們的視聽世界。
就像李宏偉說的那樣,“AI+AR 的融合,不僅可以實現過去手機的場景,還可以成為非常好用的 AI 智慧助手,更重要的是,它們會實現虛擬與現實的深度融合,帶來整個世界的數字化。”
跨越,深度定制 AR 場景專屬大模型
在明確了 AI+AR 的發展路徑后,2024 年有多家 AR 企業開始了產品與 AI 融合的落地以及新思考。
一個非常明顯的信號是,在年底這段時間,作為承托 AR 眼鏡的 AI 眼鏡產品頻發,不僅有雷鳥創新這樣的垂直廠商的加入,也有創業者以及大模型企業的入局。
入局者眾多,產品也很多,但是,真正能直擊用戶,連通數字世界和物理世界的很少。這里一個關鍵的問題在于,AI 與 AR 的融合不是簡單的去做加法,大模型的選擇以及場景化深度優化十分重要。就好像是蘋果的 Siri 一樣,由于有很多場景的問題回答不了,所以被很多人棄用。
李宏偉也指出,跟大模型對話也是一樣,如果不能做到 80% 以上的準確率的話,那大家也就不用了。如果用 AR 眼鏡來識別路牌或者采用,只有一半概率能識別出來,也很影響用戶的心理。用戶在產品體驗上面,要的非常重要的一個的東西就是確定性。就好比你發個微信消息給對方,如果只有 50% 的概率能收到,那這個產品肯定沒人要。
“我們需要判斷的就是誰在大模型上面會長期處于領導者地位,這也是選擇和阿里通義合作的原因之一?!?/p>
作為目前市面上大模型產品的第一梯隊,通義的基礎模型和多模態能力都很出色。
其中,Qwen2.5 全系列模型在 18T Tokens 數據上進行預訓練,相比 Qwen2,整體性能提升 18% 以上,擁有更多知識、更強編程和數學能力。視覺語言模型 Qwen-VL-72B 具備自主操作手機和機器人的視覺智能體能力。大規模音頻語言模型 Qwen-Audio,語音聊天部分融合了語音識別和自然語言理解,不需要多個模型進行銜接,實現了端到端大模型,可以識別音樂、情緒、環境聲音等。
AR 眼鏡在搭載了通義千問卓越的多模態識別能力之后,圖像、文字、視頻和音頻等多種輸入形式都能夠被實時處理。
比如,用戶在路邊看到了一棟建筑或者是不認識的植物,通義借助 AR 眼鏡的攝像頭便能夠識別用戶看到的物體,對其進行介紹。對于用戶眼前所看到的物理世界,通義也可以進行描述,不僅能夠幫助用戶深入了解當前所處的環境,也能幫助視障人群看到眼前的世界。
同時,AR 眼鏡在有了通義大模型的加持后,還能夠實現即時翻譯,支持中文與英語、日語、韓語、法語、德語、俄語等多國語言互譯。即便用戶身處陌生的國家,也能從容與當地人進行交流,提升溝通的效率。
不過,僅僅以大模型通用能力幫助 AR 眼鏡實現了多個場景下的交互還不夠。
雷鳥創新選擇通義,還有一個更重要的原因,就是雙方都致力于實現虛擬世界與現實世界的深度融合,愿意面向用戶做深度的研發投入。換句話說,有很多款通用大模型都很優秀,但是在 AR 眼鏡上的體驗并不佳,關鍵就在于大模型沒有針對 AR 眼鏡的需求做深度的定制和匹配。
李宏偉表示,“很多 AR 廠商做的僅僅就是把大模型接進來,這是不行的。現在的通用大模型的確可以做很多事情,但是對于 AR 上涉及的場景,做的還不夠深入不夠好。我們看好阿里云通義大模型的現在和未來,并且雙方也都有一個共識,那就是不能說在 AR 眼鏡上放一個通用大模型就行了,要針對 AR 的場景去做定制和適配,把它培養成一個很符合這個應用場景的大模型,讓 AR 眼鏡真正深入到用戶的日常生活之中?!?/p>
2025 年 1 月 7 日 CES 期間,雷鳥創新正式發布雷鳥 V3 AI 拍攝眼鏡。這款新品上搭載了其與阿里云通義共同打造的業內首個專門面向智能眼鏡的 AI 大模型。這一定制化模型不僅能更好地理解眼鏡場景下的用戶需求,還能為 Agent 提供更精準的知識支持和決策依據,從根本上提升了 AI 眼鏡的交互體驗。
得益于此,雷鳥 V3 的 AI 平均響應速度為 1.3s,遠超 Ray-BanMeta 及其他接入通用模型的 AI 眼鏡;V3 的 AI 識別準確率高達 98%,可稱為用戶真正全能的百科助手。在此基礎上,雷鳥 V3 還將陸續上線 RayNeo 電臺、探索視界 2.0、手機通知 AI 總結播報、QQ 音樂點播、AI 新聞播客、全場景錄音總結、支小寶掃碼支付等豐富功能,讓 AI 真正服務于用戶的日常生活。
之后,雷鳥創新計劃在第二季度發布的 AR 眼鏡 X3 Pro,也將搭載與阿里云深度定制和融合后的通義大模型。
在產品研發期間,雙方都投入了大量的人力和物力,針對具體的場景去做訓練和提問,對硬件端側的模型進行優化,從而去匹配 AR 場景下的需求。
比如 AI 翻譯,常規的通用大模型更多的是根據接收到的語言信息去做單一的翻譯,但是在具體的場景結合上沒有深入融合,會導致有時翻譯的內容會顯得很生硬。此外,速度是翻譯很重要的指標,如果僅僅是接入現有的通用大模型,整體的體驗并不會很順暢。
為了提升 AI 的體驗,雷鳥創新和阿里通義做了多方面的訓練工作。一方面,是做了速度上的提升,相比較于當前市面上通用大模型翻譯,搭載了定制通義大模型的 RayNeo AI 的反應速度提升至少一倍。
另一方面,除了速度之外,通義還針對旅行、點餐、購物等多個細分場景做了優化,借助 AR 眼鏡去識別當前的環境、對話人的表情、手勢等多個信息源,更好地理解用戶的使用場景,從而給出更準確的翻譯結果。
視覺也是一樣,AI+AR 要接管物理世界,要做到的第一點就是能夠對現實世界的場景進行準確的反饋。但是,物理世界是相當復雜的,比如路牌,有各種材質、大小,不同光線下反光的程度也不一樣。為了提高識別的準確率,阿里云和雷鳥創新一起做了增量的訓練,通過不斷地采集訓練和優化,提升復雜場景下的識別準確率。
另外,還有 AR 眼鏡的 AI 智慧助手,也是一個多信息輸入的場景,需要做一個新的分類模型,針對不同的指令做出低延遲質量高的響應。
當然,以上所說的只是部分場景,未來雷鳥創新和阿里通義還會針對更多的細分場景去做好底層的優化,從而真正實現“接管數字世界,改變物理世界”。
共創智實融合世界
當下,AR 正處于蓬勃發展的階段,但仍處于上半場的初期。而且,AI+AR 是為數不多在上半場就由中國廠商深度參與甚至是主導的產業。
雷鳥創新與阿里云在 AI+AR 上的深度合作,會進一步加深用戶對 AI 落地場景的感受和理解,推動 AR 走向大眾市場,連接數字世界和物理世界。
談及與阿里云的合作,李宏偉表示,AI 在新的場景下,在物理世界的落地進入到了一個關鍵時期,阿里云所做的一切非常好也很有價值,我們跟阿里云的合作也開創了這個行業的一個新模式。未來的標準也會被重新建立,那就是 AR 接入的大模型要能夠做深度的定制化和重新訓練,從而滿足場景化需求。
不過,目前所做的場景探索仍是不夠的,伴隨著技術的提升,以及 AR 在更多場景的探索,AI+AR 還有進一步融合的空間。比如在對話翻譯時,能否將字幕顯示在對方的嘴邊?“戴上 AR 眼鏡之后,每個人說話的時候,嘴邊都會顯示一個對話框,就像是游戲里的場景一樣,能看到說話人的語言,與全世界各地的人都能無障礙交流?!崩詈陚フf道。
他還認為,有了 AI 的加成,AR 眼鏡未來不僅可以理解文字、圖片和視頻,還能理解空間,從而可以做虛實融合的游戲了,比如跑步的時候收集金幣。
另外,隨著大模型落地不斷深化,端側應用成為趨勢,手機、PC 已有 AI 大模型端側應用的實踐。日前,阿里云就將“通義千問”大模型部署在聯發科的 SoC 上,通過量化、參數剪枝和知識蒸餾等多種技術手段減小模型體積。在端云協同技術的推動下,帶來了低延遲、 隱私保護、離線能力、節省帶寬和實時處理這五大優勢。
對于 AR 眼鏡來說,由于體積、續航等方面的限制,目前端側大模型的應用還在探索中,比如審慎地選擇參數量,要綜合功耗與性能去做更多的研究,這也是未來雷鳥創新和阿里云去共同協作解決的問題。一旦落地,AR 眼鏡會更快地響應用戶的指令,端云協同技術通過在設備端處理敏感數據,將大幅提升 AR 眼鏡用戶的數據安全性和隱私性。
場景在變化,趨勢和需求在變化,但不變的是數字世界與物理世界的加速融合。對于雷鳥創新和阿里云來說,AI+AR目前仍在前半程,二者的融合還要不斷的精進。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。