首頁 > AI資訊 > 最新資訊 > Sora三巨頭首次解密幕后信息,CTO:最快年內(nèi)開放

Sora三巨頭首次解密幕后信息,CTO:最快年內(nèi)開放

新火種    2024-03-25

“Sora最快今年內(nèi)開放公測。”

在一場訪談中,OpenAI CTO Mira Murati親自透露了這一消息。

Sora三巨頭首次解密幕后信息,CTO:最快年內(nèi)開放

短短10分鐘里,Sora技術(shù)細(xì)節(jié)、進(jìn)展、規(guī)劃等當(dāng)下最熱議的問題,都有了更進(jìn)一步解答:

生成20秒的720P視頻只需幾分鐘計(jì)算資源遠(yuǎn)超ChatGPT和DALL·E目前正在進(jìn)行正在進(jìn)行紅隊(duì)測試未來版本有望支持視頻聲效

而且還向外界傳遞了一層重要信息:

加上前幾天,Sora的三名研發(fā)主管——Tim Brooks、William Peebles和Aditya Ramesh,也參與了一場16分鐘的播客訪談。

綜合兩場對話,關(guān)于Sora背后的秘密,也有了更多蛛絲馬跡可以探尋。

Sora背后還有多少秘密?

關(guān)于Sora,人們最關(guān)心也最期待的,可能就是什么時(shí)候才能上手體驗(yàn)了。

對此,Mira表示Sora正在進(jìn)行紅隊(duì)測試,以確保工具的安全性,并且不會產(chǎn)生偏見或其他有害問題。

對于具體的時(shí)間,Mira也立下了flag——今年年內(nèi)讓Sora與廣大用戶正式見面。

此外,兩場對話中談到的其他話題,可以分為技術(shù)細(xì)節(jié)、項(xiàng)目規(guī)劃和未來展望三個部分。

揭開更多技術(shù)細(xì)節(jié)

技術(shù)方面,三人團(tuán)隊(duì)表示,Sora更像是介于Dall·E這類擴(kuò)散模型和GPT之間。

訓(xùn)練數(shù)據(jù)是不方便說滴(doge),大致就是公開數(shù)據(jù)和OpenAI已獲授權(quán)的數(shù)據(jù)。

不過他們專門cue了一個點(diǎn):通常圖像、視頻模型都是在一個固定尺寸上進(jìn)行訓(xùn)練,而Sora使用了不同時(shí)長、比例和清晰度的視頻。

具體方法之前的技術(shù)報(bào)告已經(jīng)有了說明,就是用“Patches”來統(tǒng)一不同的視覺數(shù)據(jù)表現(xiàn)形式。

然后可以根據(jù)輸入視頻的大小,訓(xùn)練模型認(rèn)識不同數(shù)量的小塊。通過這種方式,模型能夠更加靈活學(xué)習(xí)各種數(shù)據(jù),同時(shí)也能生成不同分辨率和尺寸的內(nèi)容。

Sora三巨頭首次解密幕后信息,CTO:最快年內(nèi)開放

性能方面,Mira和三人組的說法則略有不同:

三人組透露,有一次給Sora布置好任務(wù)后,出去買了杯咖啡,結(jié)果回來之后視頻還沒做好。

而Mira這邊的回答則是,Sora生成720P分辨率、長達(dá)20秒的視頻內(nèi)容,只需要幾分鐘就能完成。

當(dāng)然,具體消耗的時(shí)間,還要取決于任務(wù)復(fù)雜程度等多種因素,不能簡單一概而論。

不過Mira這邊表示,在正式發(fā)布之前將繼續(xù)努力優(yōu)化算法,以降低所需的算力。

這些問題還需解決

而針對Sora存在的不足,他們的回答也很坦誠,表示其還存在無法完美處理手部的生成,渲染復(fù)雜的物理過程也存在一定難度等一系列問題。

除了這些bug型的缺陷之外,Sora不能給視頻添加聲音也算一個美中不足之處,對此三人組給出了這樣的回應(yīng):

而Mira對此的回答則更像是給人們吃了一顆定心丸——未來版本有望支持視頻聲效,增強(qiáng)用戶體驗(yàn)。

而除了這些產(chǎn)品本身的問題之外,為Sora生成的視頻加入溯源信息,以防出現(xiàn)造假,也是OpenAI當(dāng)下的一項(xiàng)重要任務(wù)。

同時(shí),負(fù)責(zé)人和Mira都表示,團(tuán)隊(duì)始終在收集來自各界的用戶反饋,三人組還舉例說有用戶希望能加入提示詞以外,更精細(xì)、直接的控制方式,團(tuán)隊(duì)將此作為了重點(diǎn)考慮的一個方向。

Sora,未來可期

最后,針對Sora的未來,負(fù)責(zé)人給出了很高的預(yù)期,并表示其將不僅僅在視頻創(chuàng)作方面發(fā)揮作用。

因此,負(fù)責(zé)人對Sora及未來可能在其基礎(chǔ)上開發(fā)的其他AI模型充滿了期待——通過學(xué)習(xí)視覺信息的方式理解這個世界,在未來能夠更好地幫助人類。

對此有網(wǎng)友表示,這的確是個好消息,Sora的意義不僅在于其本身,而且還會對其他AI產(chǎn)生影響。

另一邊,已經(jīng)有人在期待Runway等前任王者對此的反應(yīng)了。

Sora三巨頭首次解密幕后信息,CTO:最快年內(nèi)開放

不過,雖然團(tuán)隊(duì)自己說Sora在未來能夠理解人類世界,但它到底能不能真的算世界模型,還存在不小的爭議。

Sora是世界模型嗎?

針對這個問題,正反雙方各執(zhí)一詞,支持者的主要理由,是認(rèn)為從Sora生成的視頻中能看出其對物理世界的理解。

而反方則不認(rèn)同Sora是世界模型,代表人物是圖靈獎得主、Meta首席AI科學(xué)家LeCun。

近期,LeCun點(diǎn)贊了一篇澳大利亞學(xué)者的萬字長文,文章的核心觀點(diǎn)就是認(rèn)為Sora不是世界模型。

Sora三巨頭首次解密幕后信息,CTO:最快年內(nèi)開放

其中最核心的原因,是Sora并沒有物理引擎來運(yùn)行前向時(shí)間模擬,而且訓(xùn)練過程是端到端完成的,數(shù)據(jù)中并沒有物理規(guī)律信息。

即便是拋開訓(xùn)練和生成過程,單從表現(xiàn)上看,Sora的輸出也出現(xiàn)了違反重力、碰撞動力學(xué)等物理規(guī)律的情況。

Sora三巨頭首次解密幕后信息,CTO:最快年內(nèi)開放

△Sora生成的“反重力玻璃杯”

所以,作者認(rèn)為,將Sora稱為世界模型是缺少充分依據(jù)的。

而人們比較關(guān)心的另一個問題,是Sora的訓(xùn)練過程,是否使用了虛幻引擎(Unreal Engine)5。

不過作者也沒有給出確切結(jié)論,只表示這只是猜測,目前并沒有確切的證據(jù)表明Sora確實(shí)使用了UE5進(jìn)行訓(xùn)練。

Sora三巨頭首次解密幕后信息,CTO:最快年內(nèi)開放

而要想進(jìn)一步揭開這些問題,或許要OpenAI再次自己出來公布,或者直接開源了。

One More Thing

雖然兩場訪談的確透露出了不少干貨,但針對人們同樣廣為關(guān)心的訓(xùn)練數(shù)據(jù)來源問題,無論是三人團(tuán)隊(duì)還是Mira,說法都十分模糊——

Sora的訓(xùn)練過程中使用的是公開可用和已獲得授權(quán)的數(shù)據(jù)源。

但對于YouTube、Instagram和Facebook上的視頻是否被用作訓(xùn)練數(shù)據(jù),Mira則是顧左右而言他:

Sora三巨頭首次解密幕后信息,CTO:最快年內(nèi)開放

不過,這個說法的可信度先放下不談,即便真的如Mira所說,也有網(wǎng)友并不認(rèn)賬:

Sora三巨頭首次解密幕后信息,CTO:最快年內(nèi)開放

Tags:
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章