首頁 > AI資訊 > 最新資訊 > “能聽會說”的多模態大模型加速落地AI應用場景迎來爆發

“能聽會說”的多模態大模型加速落地AI應用場景迎來爆發

中國經營報    2025-01-09

  AI大模型熱潮從2024年延續到了2025年,人與 AI 的實時音視頻互動正在走進現實。

  自GPT-4o發布以來,實時多模態成為國內外大模型廠商發力的新方向,早在2024年5月,OpenAI發布GPT-4o時就已開始深度探索端到端的實時多模態大模型能力。微軟 AI CEO Mustafa Suleyman近期表示,2024年年底,微軟的AI會擁有實時的語音界面,允許完全動態的交互。

  GPT-4o支持實時語音對話,一方面得益于自身大模型能力的進化,大模型能直接處理語音,這與傳統的三步驟處理方法(語音識別、語音轉文字、文字轉語音)相比,響應更加及時。另一方面,通過應用RTE(實時互動)技術,實現了語音的實時傳輸,進一步降低了語音交互的延時,RTE也成為人與AI交互的重要一環。

  業內人士認為,隨著技術逐漸成熟,AI開始步入實用落地階段。當下,AI基礎設施正在成為新的焦點,而“實時互動”則是一個“能聽會看”的AI必不可少的能力。

  提到實時音視頻,就無法繞過國內實時互動領域的頭部公司——聲網。事實上,OpenAI在2024年10月份開發者日上公布的語音API合作者中,聲網的兄弟公司Agora就名列其中,Agora 聚焦美國和國際市場。而微軟實時語音界面的背后也有聲網的身影。

  在AI浪潮下,RTE行業風云再起。哪些新場景有望迎來爆發?哪些應用將實現巨量增長?“AI+RTE”又將如何顛覆我們在日常生活和工作中習以為常的認知和習慣?一個實時互動的智能化時代會是怎樣的?成為2025年開年行業各界關注熱議的一個話題。

  實時語音互動:多模態大模型交互的終極形態

  現實中人與人的溝通就是以語音為主,視覺其次,視覺的重要性在于信息的豐富度,但是信息濃度和溝通效率還得靠語音。多模態大模型的出現,推動了人與AI交互方式的變革,而語音多模態將是其中的必經之路。

  但多模態大模型實時語音對話想要落地,面臨著一系列的技術難點。首先,對于大模型廠商而言,具備端到端實時語音處理的能力很關鍵,但端到端模型的訓練成本很高,尤其是處理語音與視頻數據,面臨大量計算資源,而計算過程往往會造成延遲,實時交互面臨挑戰。

  同時,多模態大模型在接入RTC后如何保障低延時、流暢的語音交互體驗也很關鍵。在GPT-4o的發布會上有一個細節,演示GPT-4o的手機插著一根網線,工程師Mark解釋此舉是為了保持網絡的一致性。這也反映了一個事實:GPT-4o的演示是在固定設備、固定網絡環境下進行的,以確保低延時。而在實際應用場景中,用戶的設備通常無法一直插著網線,這就對大模型實時語音對話中的低延時傳輸、網絡優化等提出了考驗。

  聲網在實踐中發現,傳統的三步驟(STT-LLM-TTS)在應用RTC(實時音視頻)后,響應延時可從4—5秒降低到1—2秒,而在具備端到端實時多模態處理能力后,通過 RTC 技術,大模型實時語音對話的延時可降到幾百毫秒內。

  從體驗上看,RTC技術的應用讓對話式大模型的交互更智能,更具真實感。一方面,低延時的快速響應讓人與AI的互動更接近人與人之間的實時對話,更自然。另一方面,語音還能識別說話人的情緒、語調,視頻能識別人的表情與所處的環境,最終輸出更精準、更智能的回答。

  可以預見,未來基于AI的人機界面從鍵盤、鼠標、觸屏到實時對話的變革,語音將是必須走過的進化,實時語音互動也將成為未來對話式多模態大模型交互的終極形態。

  在GenAI(生成式人工智能)時代,RTE與AI Agent有什么關系?聲網COO劉斌首先分享了兩個事件,其一,Agora作為語音 API 合作者出現在OpenAI發布的Real-time API公開測試版中。其二,2024年10月底的 RTE2024實時互聯網大會中,聲網也宣布與MiniMax正在打磨國內首個Realtime API。通過這兩個事件反映出當下大模型的交互正在走向實時多模態。

  說到RTC向RTE的進化,劉斌表示,我們是RTE行業引領者,其實最早是RTC技術,這個E和C的變化在哪兒?C是指原本我們通過互聯網建立通訊網絡,使用的技術已經很好。E的含義是讓外部環境更加沉浸式。而AI的出現恰恰幫助我們實現更快發展。

  “聲網網絡覆蓋全球200多個國家和地區,通過我們的SDK(軟件開發工具包),用戶可在任何地方與世界各地的人進行實時互動,信號將經由我們的網絡傳遞。”劉斌表示,無論用戶的接入點是5G、4G、Wi-Fi還是3G,無論用戶所在地的網絡當時是好還是壞,我們可以保證其在各種情況下延時不超過400毫秒,保證最后的實時音視頻體驗是好的。

  談到與聲網合作的契機,微軟大中華區副總裁、數字原生事業部總經理田灼告訴記者,微軟與OpenAI的合作以及在大模型市場上的考量,為聲網與微軟之間的商業合作奠定了基礎。我們計劃建立一個生態圈,目的是幫助企業和開發者降低開發成本,縮短開發周期,提升開發質量。從解決方案層面來看,這是一個完美的互補合作。微軟關注大模型質量,從技術核心交付到用戶手上,在這個過程中涉及再開發,例如聲網關注的音視頻領域,無論是加速優化、降低成本、傳輸“最后一公里”。這樣做,用戶體驗會迅速提升。

  據悉,在GenAI的浪潮下,實時多模態成為大勢所趨,聲網作為全球實時互動云行業的開創者,在音視頻領域積累了深厚的技術優勢與場景實踐,通過將RTE與生成式AI結合,推出了聲網Conversational AI Agents,該方案以語音為核心,支持視頻擴展,實現文本/音頻/圖像/視頻的組合輸入與輸出,具備500ms超低延時、對話更自然擬真、框架靈活可拓展等一系列特性,幫助開發者與企業快速構建適配自己業務場景的AI實時語音對話服務?!罢缏暰W愿景所說:讓實時互動像空氣和水一樣,無處不在。”劉斌說。

  對話式多模態大模型推動AI應用場景爆發

  隨著多模態大模型能力的進化,AIGC應用場景將迎來爆發。RTE技術的接入將推動當下較常見的 AI口語老師、AI客服、AI社交陪聊等場景的 AI 交互體驗進一步升級,學生的學習效率更高,社交陪聊場景的娛樂性與沉浸感也進一步增強。

  來自量子位智庫推出的AI智能助手用戶數據報告顯示,截至2024年8月國內市場的AI智能助手App已超過64款。在 AI情感陪伴領域也涌現了Soul、星野、Wow等一系列人氣社交App。

  而目前多模態大模型在智能硬件場景的落地主要以智能眼鏡、智能手表、智能耳機等穿戴式設備為主,在生成式AI的趨勢下,還出現了智能陪伴機器人、智能兒童毛絨玩具、智能戒指等一系列場景,帶來不同硬件終端下的AI語音交互體驗。

  據悉,目前,聲網已與國內外多家AI廠商展開了合作,借助Conversational AI Agents 幫助客戶實現了對話式AI 在智能助手、虛擬陪伴、口語陪練、語音客服、同聲傳譯、智能硬件等多個場景的落地。例如虛擬陪伴場景,通過AI虛擬伴侶,在社交陪聊、親情陪伴、游戲 NPC等場景中提供7x24h時刻在線服務,可自定義人設、聲音、形象等模擬真人聲音及情感,為用戶提供情感支持、心理慰藉以及陪伴。

  在2024年10月底舉辦的第十屆實時互聯網大會上,聲網正式發布了RTE+AI能力全景圖,從實時AI基礎設施、RTE+AI生態能力、聲網AI Agent、Conversational AI Agents解決方案、RTE+AI應用場景五個維度,清晰呈現了當下RTE與AI相結合的技術能力、架構方案與應用場景?!癛TE與生成式AI結合所帶來的場景創新,也將成為下一個十年的主題?!甭暰W創始人兼CEO趙斌表示。

  過去十年,大家熟知的互聯網風口也有很多離不開RTE能力的賦能和參與。社交泛娛樂、在線教育等行業的創業風口,電商直播對電商行業格局的改變等等,其中很多都和實時互動能力的使用和進化有著不可分割的關系。如今,在大模型和生成式 AI 時代,也將伴隨 RTE 能力的輔助與賦能走向成熟和應用。

  劉斌認為,在實時多模態的趨勢下,RTE的演進將助力AI Agent應用落地。大模型也從理解內容,變成理解對話人的心理、情緒,最終理解對話時的人類意圖,最后實現從“聽得懂”到“聽懂心”的體驗革新。

  “持續在音視頻領域深耕是我們的立命之本。本質上我們立足于根本,同時擁抱AI相關的演進和變化,推出具有核心價值的產品和服務。”劉斌表示,AI的技術發展讓我們在行業中也會討論未來人機交互界面的改變。從我們內部來看,這也是一個全新的業態和機會。

(文章來源:中國經營報)

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章