豆包“蒸熟”情商智商都提升了!
《科創板日報》1月20日訊(編輯 宋子喬) 1月20日,豆包實時語音大模型正式推出。
據介紹,豆包實時語音大模型是一款語音理解和生成一體化的模型,實現了端到端語音對話,主要面向中文語境和場景(可進行英語對話,暫不支持多語種;中文范圍內,模型也僅支持小部分方言和地方口音的理解和表達,仍有較大進步空間)。
依托于語音和語義聯合建模,該模型呈現出接近真人的語音表達水準,在語音表現力、控制力、情緒承接方面表現驚艷,并具備低時延、對話中可隨時打斷等特性。
打敗GPT-4o?OpenAI的最新大模型GPT-4o的高級語音功能于2025年1月開始全量推出。
值得注意的是,豆包實時語音大模型直接對標GPT-4o。豆包大模型團隊介紹稱,在外部真實眾測中,模型整體滿意度較GPT-4o有明顯優勢,主要體現在:
豆包大模型的語音語氣自然度和情緒飽滿度遠高于后者,尤其情商層面,模型在情感理解、情感承接以及情感表達等方面也取得顯著進展,能較為準確地捕捉、回應人類情感信息;
豆包模型貼合中國用戶實際需求,發布即上線,有能力直接服務億萬用戶,而非停留于演示Demo層面。
整體滿意度(以5分為滿分)方面,豆包實時語音大模型評分為4.36,GPT-4o為3.18。其中,50%的測試者對豆包實時語音大模型表現打出滿分。如何實現?低延時流暢交互、擬人化的語氣和情緒反饋,是分辨人與機器的兩大重要特征。豆包大模型團隊如何讓語音大模型不再“一聽就是AI”?
其團隊研發出了一套端到端框架,深度融合語音與文本模態。該框架面向語音生成和理解進行統一建模,最終實現多模態輸入和輸出效果。
在預訓練(Pretrain)階段,團隊對各模態交織數據進行深入訓練,精準捕捉并高效壓縮海量語音信息,通過Scaling,最大程度實現語音與文本能力深度融合和能力涌現。
在后訓練階段,團隊使用了高質量數據與RL算法,進一步提供模型高情商對話能力與安全性,并在“智商”與“情商”之間尋求平衡。
更真實的情感陪伴——實時語音AI的價值實時語音AI的價值體現在哪里?影響最直接是AI情感陪伴。
《科創板日報》實測發現,豆包的語音大模型不僅能感受到你的情感,還自帶情緒和情感,可以隨時打斷對話,互動更加擬人。
真人級語音對話,能提供更為親和的交互體驗和情感價值,AI不再呈現冰冷的“人機感”,其考驗的是AI的“人性化”程度,是人類邁向AGI(通用人工智能)的關鍵里程碑。
可以說,豆包在實時語音交互上的進步展現的是國產AI軟件的進步,有望為AI端側硬件開辟更廣闊的空間,如AI語音助手硬件以及AI玩具等。
目前AI產品呈現多模態趨勢,最為常見的是語音+文字的多模態交互,伴隨Transformer架構對信息處理能力的提升,浙商證券預計,2025年開始會涌現更多綜合性多模態交互,將深度結合數據集、文本、音頻、視頻等實現更高維度的人機交互層級,這對硬件側主控芯片提出了更多更高的需求。該機構表示,產業鏈重點標的包括恒玄科技、中科藍訊、樂鑫科技、星宸科技、瑞芯微、炬芯科技、全志科技等。
而AI玩具可以視作具備面部識別、語音識別、自然語言處理等技術,能夠與用戶對話的機器人。隨著豆包語音大模型為代表的語言模型不斷演進,AI玩具的功能將不僅限于對話,而且能夠滿足個性化、情感需求。廣發證券表示,AI玩具賽道兼具教育與陪伴屬性,是具有真實需求的AI硬件落地方向,該機構關注實豐文化、湯姆貓、奧飛娛樂、上海電影等。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。