首頁 > AI資訊 > 行業動態 > OpenAI版Her登場,GPT能實時視頻通話了,德撲AI之父:比o1“更受寵”的模式降臨

OpenAI版Her登場,GPT能實時視頻通話了,德撲AI之父:比o1“更受寵”的模式降臨

新火種    2024-12-31

昨天OpenAI的風頭幾乎都被谷歌搶盡了,不少用戶都直接站隊Gemini 2.0 ,稱其是“GPT-5 級別的威脅”,不僅能生成文字外,還能直接生成圖片和語音。更為關鍵的是,Gemini 2.0供全球用戶使用,而且有專門的實驗版模型對所有開發者免費開放。

今天,OpenAI就帶來了高級語音模式的功能更新:實時視頻通話、屏幕共享和圖像上傳。即日起,這三項功能將在接下來幾天內向所有 Team、以及大多數 ChatGPT Plus 和 Pro 用戶推出(歐盟、瑞士、冰島、挪威和列支敦士登的用戶除外),Enterprise 和 Edu 用戶將在明年 1 月獲得訪問權限。

其中,屏幕共享和圖片上傳僅在 iOS 和 Android 移動應用程序的高級語音模式中推出。

現在ChatGPT可以“看到和聽到”

高級語音模式在去年發布的 GPT-4o 中已經預覽過,但只有音頻模式是實時的。現在,用戶可以使用手機攝像頭與 ChatGPT 聊天,大模型將會 “看到 ”你所看到的一切,包括你的手機屏幕。

進行實時視頻通話功能的演示時,OpenAI的首席產品官 Kevin Weil首先牽頭測試了一番ChatGPT的“記憶”能力。在OpenAI 的團隊成員依次與ChatGPT視頻打過招呼并有了一定的認識后,Weil要求它回憶各位成員的特征并說出相應的姓名。

接下來, Weil 又和其他 OpenAI 團隊成員演示了 ChatGPT 協助如何制作手沖咖啡:通過將攝像機對準動作,AVM 展示了它對咖啡機原理的理解,并引導提問者完成咖啡的整個沖泡過程。并且,在整個演示過程中,ChatGPT Advanced Voice 保持了自然而親切的聲音,還調整了它的語氣,甚至像人類一樣大笑。

有網友開玩笑道,“下一步GPT該指導人做飯了。”還有網友表示,“Her正在慢慢成為現實”,“如果這不是 AGI,我不知道什么是。”

該團隊還展示了 ChatGPT 如何理解上傳的屏幕截圖,這對于需要ChatGPT提供技術支持或協助處理屏幕內容的情況非常有用。當選擇 “共享屏幕 ”時,會彈出手機的屏幕共享選項,允許用戶將屏幕廣播給 ChatGPT;開始屏幕共享后,再次按下屏幕共享按鈕即可停止與 ChatGPT 共享屏幕。

同時,OpenAI官方提醒到,ChatGPT 可能會自動響應用戶從相機或屏幕上分享的內容。此外,在用戶停止分享后,ChatGPT 可能仍會引用其之前在對話中分享的內容。但OpenAI保證,除非用戶啟用了“為每個人改進模型”,否則他們不會使用對話中上傳的音頻或視頻片段來訓練大模型。

比o1“更受歡迎”的模式來了?

高級語音模式基于原生多模態GPT-4o模型,可以直接接收和輸出音頻,提供更自然的對話節奏和情感表達。OpenAI 首席技術官 Muri Murati 表示,GPT-4o 提供了“GPT-4 級別”的智能,但改進了 GPT-4 在文本、視覺以及音頻方面的能力。

據介紹,高級語音模式支持超過50種語言,9種逼真輸出語音選項,且每種語音都有自己獨特的語氣和特征。而其背后的GPT-4o 不僅可以將語音轉換為文本,還可以理解和標記音頻的其他功能,例如呼吸和情感。

在圣誕節期間,OpenAI還新增了Santa Mode(圣誕模式),用戶可以在ChatGPT中與圣誕老人的聲音進行實時互動,支持移動應用、桌面應用和網頁版。用戶通過點擊現在ChatGPT主屏幕上的雪花圖標,或者在設置頁面中找到并選擇圣誕老人,就你可以向圣誕老人詢問關于圣誕節的問題。

為了讓更多用戶體驗與圣誕老人對話的功能,首次與圣誕老人進行高級語音對話的用戶,其高級語音使用額度將被重置一次。即使你當天的或本月的使用額度已用完,也可以立即與圣誕老人進行語音對話。超出重置后的額度后,用戶也可以通過文字方式與圣誕老人聊天。

OpenAI高級研究科學家、德撲AI之父Noam Brown甚至稱,“我完全相信圣誕老人模式會比 o1 吸引來更多的訂閱用戶。”

結語

OpenAI直播第六天,CEO Sam Altman并沒有出現,而是由包括OpenAI的首席產品官 Kevin Weil、OpenAI產品經理Jackie Shannon、負責多模態的OpenAI技術團隊成員Michelle Qin和Rowan Zellers在內的四位員工來介紹了更新的功能。

其中,Michelle Qin是唯一的華人,入職OpenAI六個月。根據其個人主頁的介紹,Michelle Qin是斯坦福大學理學士和碩士畢業生,主修人工智能領域的計算機科學。此前曾有過在蘋果和Pika工作的經歷。

然而,OpenAI第六天的更新也迎來一波網友的吐槽。有網友評價,這次的更新很“無聊”,或許明天會“很瘋狂”。也有網友認為,“這只是Sora上線后的一個 ‘降溫 ’功能。”

還有網友表示,“谷歌在正式發布之前就向用戶發布了 Gemini 2,并且從一開始就提供實時語音和視頻聊天,OpenAI卻在發布后花了將近半年的時間才推出。”

值得一提的是,就在昨天下午,ChatGPT 還突然宕機了近4個小時,就連新發布的Sora也未能幸免。ChatGPT宕機之時,眾多用戶都直呼“全球學術停擺了”。而這已經不是ChatGPT第一次發生這樣的情況,上個月ChatGPT癱瘓了30分鐘,今年6月的宕機甚至持續了5小時以上。

作者:華衛,36氪經授權發布。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章