天天干天天澡,国产成人久久婷婷精品流白浆,无尽夜久久久久久久久久

首頁 > AI資訊 > 最新資訊 > “能聽會說”的多模態大模型加速落地AI應用場景迎來爆發

“能聽會說”的多模態大模型加速落地AI應用場景迎來爆發

中國經營報 2025-01-09

　　AI大模型熱潮從2024年延續到了2025年，人與 AI 的實時音視頻互動正在走進現實。

　　自GPT-4o發布以來，實時多模態成為國內外大模型廠商發力的新方向，早在2024年5月，OpenAI發布GPT-4o時就已開始深度探索端到端的實時多模態大模型能力。微軟 AI CEO Mustafa Suleyman近期表示，2024年年底，微軟的AI會擁有實時的語音界面，允許完全動態的交互。

　　GPT-4o支持實時語音對話，一方面得益于自身大模型能力的進化，大模型能直接處理語音，這與傳統的三步驟處理方法（語音識別、語音轉文字、文字轉語音）相比，響應更加及時。另一方面，通過應用RTE（實時互動）技術，實現了語音的實時傳輸，進一步降低了語音交互的延時，RTE也成為人與AI交互的重要一環。

　　業內人士認為，隨著技術逐漸成熟，AI開始步入實用落地階段。當下，AI基礎設施正在成為新的焦點，而“實時互動”則是一個“能聽會看”的AI必不可少的能力。

　　提到實時音視頻，就無法繞過國內實時互動領域的頭部公司——聲網。事實上，OpenAI在2024年10月份開發者日上公布的語音API合作者中，聲網的兄弟公司Agora就名列其中，Agora 聚焦美國和國際市場。而微軟實時語音界面的背后也有聲網的身影。

　　在AI浪潮下，RTE行業風云再起。哪些新場景有望迎來爆發？哪些應用將實現巨量增長？“AI+RTE”又將如何顛覆我們在日常生活和工作中習以為常的認知和習慣？一個實時互動的智能化時代會是怎樣的？成為2025年開年行業各界關注熱議的一個話題。

　　實時語音互動：多模態大模型交互的終極形態

　　現實中人與人的溝通就是以語音為主，視覺其次，視覺的重要性在于信息的豐富度，但是信息濃度和溝通效率還得靠語音。多模態大模型的出現，推動了人與AI交互方式的變革，而語音多模態將是其中的必經之路。

　　但多模態大模型實時語音對話想要落地，面臨著一系列的技術難點。首先，對于大模型廠商而言，具備端到端實時語音處理的能力很關鍵，但端到端模型的訓練成本很高，尤其是處理語音與視頻數據，面臨大量計算資源，而計算過程往往會造成延遲，實時交互面臨挑戰。

　　同時，多模態大模型在接入RTC后如何保障低延時、流暢的語音交互體驗也很關鍵。在GPT-4o的發布會上有一個細節，演示GPT-4o的手機插著一根網線，工程師Mark解釋此舉是為了保持網絡的一致性。這也反映了一個事實：GPT-4o的演示是在固定設備、固定網絡環境下進行的，以確保低延時。而在實際應用場景中，用戶的設備通常無法一直插著網線，這就對大模型實時語音對話中的低延時傳輸、網絡優化等提出了考驗。

　　聲網在實踐中發現，傳統的三步驟（STT-LLM-TTS）在應用RTC（實時音視頻）后，響應延時可從4—5秒降低到1—2秒，而在具備端到端實時多模態處理能力后，通過 RTC 技術，大模型實時語音對話的延時可降到幾百毫秒內。

　　從體驗上看，RTC技術的應用讓對話式大模型的交互更智能，更具真實感。一方面，低延時的快速響應讓人與AI的互動更接近人與人之間的實時對話，更自然。另一方面，語音還能識別說話人的情緒、語調，視頻能識別人的表情與所處的環境，最終輸出更精準、更智能的回答。

　　可以預見，未來基于AI的人機界面從鍵盤、鼠標、觸屏到實時對話的變革，語音將是必須走過的進化，實時語音互動也將成為未來對話式多模態大模型交互的終極形態。

　　在GenAI（生成式人工智能）時代，RTE與AI Agent有什么關系？聲網COO劉斌首先分享了兩個事件，其一，Agora作為語音 API 合作者出現在OpenAI發布的Real-time API公開測試版中。其二，2024年10月底的 RTE2024實時互聯網大會中，聲網也宣布與MiniMax正在打磨國內首個Realtime API。通過這兩個事件反映出當下大模型的交互正在走向實時多模態。

　　說到RTC向RTE的進化，劉斌表示，我們是RTE行業引領者，其實最早是RTC技術，這個E和C的變化在哪兒？C是指原本我們通過互聯網建立通訊網絡，使用的技術已經很好。E的含義是讓外部環境更加沉浸式。而AI的出現恰恰幫助我們實現更快發展。

　　“聲網網絡覆蓋全球200多個國家和地區，通過我們的SDK（軟件開發工具包），用戶可在任何地方與世界各地的人進行實時互動，信號將經由我們的網絡傳遞。”劉斌表示，無論用戶的接入點是5G、4G、Wi-Fi還是3G，無論用戶所在地的網絡當時是好還是壞，我們可以保證其在各種情況下延時不超過400毫秒，保證最后的實時音視頻體驗是好的。

　　談到與聲網合作的契機，微軟大中華區副總裁、數字原生事業部總經理田灼告訴記者，微軟與OpenAI的合作以及在大模型市場上的考量，為聲網與微軟之間的商業合作奠定了基礎。我們計劃建立一個生態圈，目的是幫助企業和開發者降低開發成本，縮短開發周期，提升開發質量。從解決方案層面來看，這是一個完美的互補合作。微軟關注大模型質量，從技術核心交付到用戶手上，在這個過程中涉及再開發，例如聲網關注的音視頻領域，無論是加速優化、降低成本、傳輸“最后一公里”。這樣做，用戶體驗會迅速提升。

　　據悉，在GenAI的浪潮下，實時多模態成為大勢所趨，聲網作為全球實時互動云行業的開創者，在音視頻領域積累了深厚的技術優勢與場景實踐，通過將RTE與生成式AI結合，推出了聲網Conversational AI Agents，該方案以語音為核心，支持視頻擴展，實現文本/音頻/圖像/視頻的組合輸入與輸出，具備500ms超低延時、對話更自然擬真、框架靈活可拓展等一系列特性，幫助開發者與企業快速構建適配自己業務場景的AI實時語音對話服務?！罢缏暰W愿景所說：讓實時互動像空氣和水一樣，無處不在。”劉斌說。

　　對話式多模態大模型推動AI應用場景爆發

　　隨著多模態大模型能力的進化，AIGC應用場景將迎來爆發。RTE技術的接入將推動當下較常見的 AI口語老師、AI客服、AI社交陪聊等場景的 AI 交互體驗進一步升級，學生的學習效率更高，社交陪聊場景的娛樂性與沉浸感也進一步增強。

　　來自量子位智庫推出的AI智能助手用戶數據報告顯示，截至2024年8月國內市場的AI智能助手App已超過64款。在 AI情感陪伴領域也涌現了Soul、星野、Wow等一系列人氣社交App。

　　而目前多模態大模型在智能硬件場景的落地主要以智能眼鏡、智能手表、智能耳機等穿戴式設備為主，在生成式AI的趨勢下，還出現了智能陪伴機器人、智能兒童毛絨玩具、智能戒指等一系列場景，帶來不同硬件終端下的AI語音交互體驗。

　　據悉，目前，聲網已與國內外多家AI廠商展開了合作，借助Conversational AI Agents 幫助客戶實現了對話式AI 在智能助手、虛擬陪伴、口語陪練、語音客服、同聲傳譯、智能硬件等多個場景的落地。例如虛擬陪伴場景，通過AI虛擬伴侶，在社交陪聊、親情陪伴、游戲 NPC等場景中提供7x24h時刻在線服務，可自定義人設、聲音、形象等模擬真人聲音及情感，為用戶提供情感支持、心理慰藉以及陪伴。

　　在2024年10月底舉辦的第十屆實時互聯網大會上，聲網正式發布了RTE+AI能力全景圖，從實時AI基礎設施、RTE+AI生態能力、聲網AI Agent、Conversational AI Agents解決方案、RTE+AI應用場景五個維度，清晰呈現了當下RTE與AI相結合的技術能力、架構方案與應用場景?！癛TE與生成式AI結合所帶來的場景創新，也將成為下一個十年的主題?！甭暰W創始人兼CEO趙斌表示。

　　過去十年，大家熟知的互聯網風口也有很多離不開RTE能力的賦能和參與。社交泛娛樂、在線教育等行業的創業風口，電商直播對電商行業格局的改變等等，其中很多都和實時互動能力的使用和進化有著不可分割的關系。如今，在大模型和生成式 AI 時代，也將伴隨 RTE 能力的輔助與賦能走向成熟和應用。

　　劉斌認為，在實時多模態的趨勢下，RTE的演進將助力AI Agent應用落地。大模型也從理解內容，變成理解對話人的心理、情緒，最終理解對話時的人類意圖，最后實現從“聽得懂”到“聽懂心”的體驗革新。

　　“持續在音視頻領域深耕是我們的立命之本。本質上我們立足于根本，同時擁抱AI相關的演進和變化，推出具有核心價值的產品和服務。”劉斌表示，AI的技術發展讓我們在行業中也會討論未來人機交互界面的改變。從我們內部來看，這也是一個全新的業態和機會。

（文章來源：中國經營報）

Tags:

自然語言處理模型場景

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

“能聽會說”的多模態大模型加速落地AI應用場景迎來爆發

不讓視覺語言模型「盲猜」，性能竟直接提升一倍？

自然語言處理領域新突破，理光在ACL2024SMM4H競賽中榮獲第一

MediaGo用深度學習升級智能出價，幫助廣告主獲得最大轉化

【明日主題前瞻】美光HBM產能預計明年將增加三到四倍

【盤前必讀】長城汽車上半年凈利潤70.79億元

熱門文章

“能聽會說”的多模態大模型加速落地AI應用場景迎來爆發

不讓視覺語言模型「盲猜」，性能竟直接提升一倍？

自然語言處理領域新突破，理光在ACL2024SMM4H競賽中榮獲第一

MediaGo用深度學習升級智能出價，幫助廣告主獲得最大轉化

【明日主題前瞻】美光HBM產能預計明年將增加三到四倍

【盤前必讀】長城汽車上半年凈利潤70.79億元

熱門文章

不讓視覺語言模型「盲猜」，性能竟直接提升一倍？