國產4o大模型,秒懂國風李子柒
又一個國產版《Her》,就這么水靈靈地來了。
作為一個實時語音對話的功能,效果好不好,實測見分曉。
我們直接以近期的大熱點——李子柒復出作為話題,來上一番對話:
可以看到,這個AI對于“李子柒復出”這樣相對較新的話題,信息的掌握也是較為全面。
它先是用“太震撼了”來表達了對這件事的整體感受,并且精準、高度總結內容為:
當問及對視頻內容更具體的感受,國產《Her》仿佛一個李子柒的人類粉絲:
不僅如此,國產《Her》甚至還能對網友們的討論做總結,包括李子柒為了做了漆器,背后所付出的努力和刻苦精神。

而且從整個對話過程來看,這個AI在語言表達方式上也是與人類無異,例如語氣和自然的停頓等等;即使是隨意地打斷,也是完全OK的哦~

同樣的話題,我們給到GPT-4o這邊:
嗯,GPT-4o知道李子柒,但是知道的不多。
無論是中文還是英文提問,由于它的知識是截止到了2023年10月,所以對于實時的新聞熱點,GPT-4o是無法hold住的。
那么這個國產《Her》,何許AI也?
不賣關子,它正是來自昆侖萬維的Skyo,基于天工大模型4.0 4o版(Skywork 4o)打造。
那么除了能夠跟蹤時事熱點,Skyo還能解鎖哪些能力?
更多實測,Let’s go on~
聊天隨意打斷,話題不掉地上OpenAI大約半年前發布GPT-4o實時語音對話功能的時候,現場和網上觀眾較為震驚的,便是它不論如何被打斷,都能馬上接上話。

雖然在剛才李子柒的例子中,我們已經體現了一些“隨時打斷”的能力,所以我們這次再加一點難度。
隨時打斷,中英切換
我們這次測試的話題是去西雅圖旅行,來看下Skyo能給出什么樣的建議:
在我們提出了簡潔的需求之后,Skyo便唰唰唰地開始制定旅程計劃了。
而當它提到西雅圖標志性景點太空針塔時,我們進行了第一次打斷(00:50),Skyo也隨即停止了回答,開始聆聽新問題。
當Skyo要繼續拓展對太空針塔的介紹,我們隨即第二次打斷(01:09);第三次打斷(01:38)我們直接用英文進行提問:
然后Skyo也是聽懂了英文需求,立即開始推薦當地著名的咖啡餐廳。
這一輪的隨時打斷+中英文切換,Skyo,通過。
不讓話掉到地上
在真實生活中,很多i人在與人溝通交流過程中,或許會出現接不上話的情況。
那么如果我們以話題終結者的姿態與Skyo交流,又會是什么效果?來,開整:
我們先是以“電影”為由頭,主動開啟了一個話題。
但Skyo在反問的時候,我們連續兩次冷漠回答了“沒有”(00:27)、“也沒有”(00:47)。
第一次話題被終結,Skyo很巧妙地把話題從電影轉向了音樂或書籍;二次話題被終結,Skyo聯系上下文(因為是我們以電影開啟的話題),它就開始講述自己對電影的看法了。
總而言之,把話掉地上,這事兒在Skyo這邊是不能存在的。
情感陪伴,“人”聲可變
自打對話類AI大模型問世以來,情感陪伴,無疑成了很多用戶的一種剛需。
那么Skyo是否也能在人們難受之際帶來一份心靈的慰藉呢?
請看VCR:
我們提出“被老板罵了”這樣的情景之后,Skyo會用自己的方式來引導我們看開一些。
而當被要求切換女聲聲音時(00:42),Skyo也是有求必應,秒變女聲,然后有理有據地羅列觀點進行心理開導。
由此可見,Skyo作為新晉國產實時語音對話產品,在多個維度的測試中都屬于達標了的那種。
那么接下來的一個問題:
怎么做到的?Skyo實時語音對話助手是一個多模態大模型項目,應用了端到端實時語音對話建模技術。
其強大的記憶功能使其能夠在對話中追蹤并回憶用戶的偏好與歷史信息,從而提升多輪對話的準確性。
這種精細的技術積累,使得Skyo在高強度的對話交互中依然保持卓越的穩定性與流暢性。
除此之外,Skyo采用了全雙工和低延遲的實時語音對話架構。
全雙工意味著該助手能夠同時進行聽和說的操作,用戶無需按下對話開始和結束按鈕即可實現無縫交流,這就讓人機的互動變得更加自然和高效。
在技術測試中,Skyo以其低延遲的實時響應接近人類思考的反應時間,體現了在對話響應速度方面的顯著優勢。

在互動能力方面,Skyo擁有較好的情感理解與個性化記憶功能。
它不僅可以記錄用戶的歷史偏好,還能根據用戶需求提供個性化的互動體驗,例如提供溫暖的女聲或更具情感色彩的回應。
這使得Skyo在非正式、非固定場景下,能夠保持一種尊重且平等的人機交互體驗。
Skyo的卓越性能依賴于其多模態模型的應用,使其能夠在多種場景中保持高質量的交互體驗。
例如,用戶可以與助手討論最新的科技新聞,助手能夠根據用戶的請求,從科技資源庫中檢索相關信息并進行異步交互,增強用戶的互動感與沉浸體驗。
此外,Skyo系統的自研特性使其在互聯網語音交互與應用場景中具有出色的適應性。
通過自研的數據積累與語音交互技術,Skyo實現了實時、高效且個性化的溝通體驗,使得用戶在每次對話中都能感受到近乎無障礙的人機互動與溫暖陪伴。
以上就是昆侖萬維“煉”成Skyo背后的秘籍了。
又拼上一塊多模態“拼圖”最后,我們聊回到實時語音對話助手本身。
雖然GPT-4o可以說是率先打開了這一市場的大門,但時至今日類似的產品仍然存在諸多痛點。
例如現有產品在多語言支持方面仍有不足,難以滿足全球用戶的需求;再如它們雖然在語義理解和生成方面表現出色,但在情感理解和個性化記憶方面仍有待提升。
此外,實時語音對話助手在響應速度和流暢性方面也需要進一步優化,以此來確保用戶體驗的連貫性和自然性。
但最重要的一點,或許還屬消息的實時性了,畢竟我們平時聊天也都更傾向于談談一些新鮮的事物。
從這次的實測中不難發現,Skyo在諸多維度上已經符合要求,是在實時語音對話助手領域發展中打了個樣的那種。

至于對昆侖萬維在大模型時代自身的發展,Skyo可以說是有拼上了一塊多模態的“拼圖”。
這一點,把它在每個節點的產品鋪開來看,便可一目了然了。
首先就是其大底座天工大模型系列,包括天工1.0、天工2.0、天工3.0,近期還將邀測天工大模型4.0 O1版,具備中文邏輯推理和反思能力。
其次在其它模態上,還包括AI搜索(天工AI搜索)、AI音樂(天工SkyMusic)、AI社交(linky)、AI視頻(AI短劇平臺SkyReels)等。
加上此次的Skyo,昆侖萬維稱得上是國內在多模態與工程能力,以及布局全面型上的佼佼者了。
One More Thing據了解,Skyo即將集成在天工AI的APP中。
屆時,除了我們展示的能力之外,還會有生成音樂、主動交流以及更多個性化交互等眾多新能力哦~
那么這樣的實時語音對話助手,是否聊到你的心趴上了呢?
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。