首頁(yè) > AI資訊 > 最新資訊 > 會(huì)說(shuō)話、能識(shí)圖的“多模態(tài)”ChatGPT來(lái)了!距離“超級(jí)助理”更進(jìn)一步

會(huì)說(shuō)話、能識(shí)圖的“多模態(tài)”ChatGPT來(lái)了!距離“超級(jí)助理”更進(jìn)一步

新火種    2023-09-26

開(kāi)口說(shuō)話、裝上“眼睛”,多模態(tài)ChatGPT來(lái)了。

周一,OpenAI在官網(wǎng)宣布,將在未來(lái)兩周內(nèi)面向Plus和企業(yè)用戶推出ChatGPT的語(yǔ)音和圖像功能,上述功能允許用戶進(jìn)行語(yǔ)音對(duì)話或向ChatGPT展示圖片。

語(yǔ)音功能方面,ChatGPT可以用語(yǔ)音來(lái)回答問(wèn)題和命令,與蘋果的Siri等C端個(gè)人助理形成直接競(jìng)爭(zhēng)。此外,ChatGPT將有五種不同的語(yǔ)音供用戶選擇,同時(shí)支持語(yǔ)音音頻生成文本、將播客語(yǔ)音翻譯成其他語(yǔ)言等功能。

圖像功能方面,用戶提交圖片并詢問(wèn)相關(guān)問(wèn)題,ChatGPT可以根據(jù)圖片回答或給出建議。據(jù)悉,語(yǔ)音功能將在iOS和Android平臺(tái)推出,圖像功能將登陸所有平臺(tái)。

開(kāi)口說(shuō)話、5種不同語(yǔ)音

OpenAI升級(jí)了用戶與ChatGPT的交互方式,用戶不僅可以通過(guò)在文本框中輸入句子,還可以通過(guò)大聲說(shuō)話來(lái)提示聊天機(jī)器人。

這一功能并不陌生,類似于與谷歌助手交談,只是OpenAI希望,由于底層技術(shù)的改進(jìn),答案會(huì)更好。目前,大多數(shù)虛擬助手都在依靠大模型進(jìn)行重建,OpenAI 只是走在了前面。

OpenAI 于今年 5 月發(fā)布了 ChatGPT 應(yīng)用程序,并已經(jīng)提供了語(yǔ)音轉(zhuǎn)文本功能。增加語(yǔ)音回復(fù)功能可以讓用戶感覺(jué)在進(jìn)行更人性化的對(duì)話。該公司希望這項(xiàng)新功能能鼓勵(lì)用戶隨時(shí)隨地使用其移動(dòng)應(yīng)用,并與谷歌的 Assistant、蘋果的 Siri或 亞馬遜的 Alexa 等個(gè)人助理產(chǎn)品形成直接的競(jìng)爭(zhēng)。

OpenAI正在推出一種新的文本轉(zhuǎn)語(yǔ)音模型,并稱它可以“通過(guò)文本和幾秒鐘的語(yǔ)音樣本生成類似人類的音頻”,用戶可以從五個(gè)選項(xiàng)中選擇 ChatGPT 的聲音,但 OpenAI 似乎認(rèn)為該模型的潛力遠(yuǎn)不止于此。例如,OpenAI 正在與 Spotify 合作,將播客翻譯成其他語(yǔ)言,同時(shí)保持播客的聲音。合成語(yǔ)音有很多有趣的用途,OpenAI 可能會(huì)成為這一行業(yè)的重要組成部分。

裝上“眼睛”、看懂圖片

該公司還表示,付費(fèi)用戶和企業(yè)用戶將可以使用圖片功能,圖片搜索有點(diǎn)像谷歌 Lens,只需拍下感興趣的照片,ChatGPT 就會(huì)找出問(wèn)題所在,并做出相應(yīng)的回應(yīng)。

例如,用戶可以上傳一張粉色太陽(yáng)鏡的圖片,并要求聊天機(jī)器人推薦與之搭配的服裝,或者提交一張數(shù)學(xué)問(wèn)題的圖片,并請(qǐng)求幫助解決。

分析指出,自從 2022 年初推出 ChatGPT 以來(lái),OpenAI 一直在努力為其機(jī)器人增加更多功能和能力,同時(shí)避免造成新的問(wèn)題出現(xiàn)。通過(guò)這次更新,該公司試圖在這條界線上尋找平衡點(diǎn),通過(guò)有意識(shí)地限制其新模型能做什么來(lái)實(shí)現(xiàn)這一目標(biāo)。

但是這種方法并不是長(zhǎng)久之計(jì),隨著越來(lái)越多的人使用語(yǔ)音控制和圖像搜索,以及 ChatGPT 逐漸成為一個(gè)真正的多模態(tài)、實(shí)用的虛擬助手,要保持安全和合理的邊界會(huì)變得越來(lái)越困難。

ChatGPT要成為“超級(jí)助理”

這次升級(jí)無(wú)疑令ChatGPT距離“超級(jí)助理”更進(jìn)了一步,同時(shí)與下游軟件的競(jìng)爭(zhēng)也更加激烈。

此前文章指出,OpenAI首席執(zhí)行官Sam Altman私下告訴開(kāi)發(fā)者,公司希望將ChatGPT打造成“超級(jí)智能個(gè)人工作助理”,使其可以根據(jù)個(gè)人及工作需求執(zhí)行多種任務(wù),如按照用戶的風(fēng)格起草郵件或文件,提供相關(guān)業(yè)務(wù)的最新信息。

分析指出,微軟和OpenAI均能向需要構(gòu)建AI能力的 B 端客戶提供技術(shù)服務(wù),兩者之間存在著直接的業(yè)務(wù)沖突;而從長(zhǎng)期來(lái)看,如果OpenAI加速布局面向個(gè)人及企業(yè)的軟件,ChatGPT未來(lái)很有可能將重塑C端應(yīng)用生態(tài),或許兩者的“關(guān)系破裂”是早晚的事情。

Tags:
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章