人剛畢業(yè),顛覆整個AI界:扒一扒Sora兩帶頭人博士論文
看看這個時代最偉大 AI 學(xué)者的研究脈絡(luò)。
2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 把競爭推向了視頻生成的新高度。
我們都還記得初見 Sora 作品時受到的震撼,感嘆其他競爭對手想要趕上 OpenAI,至少也得需要個半年到一年的時間。
Sora 發(fā)布后,其開發(fā)團(tuán)隊(duì)自然也成為關(guān)注焦點(diǎn),人們都想知道具有跨時代意義的 AI 技術(shù)是如何被開發(fā)出來的。DiT 模型作者謝賽寧曾表示:「他們每天基本不睡覺高強(qiáng)度工作了一年」。
隨著時間推移,答案正被慢慢揭曉。
以下是 OpenAI 技術(shù)報告中,Sora 的十三位作者:
其中的前兩位,Tim Brooks、Bill Peebles,他們被認(rèn)為是「Sora 之父」,擔(dān)任 OpenAI Sora 項(xiàng)目研究主管,又十分年輕 —— 兩人都是 2023 年剛剛從加州大學(xué)伯克利分校(UC Berkeley)博士畢業(yè)的。
在 Sora 技術(shù)公開后,他們曾共同進(jìn)行宣講,接受過很多媒體采訪。
圖片中間為 Tim Brooks,右側(cè)為 Bill Peebles。
看兩人的工作經(jīng)歷,他們分別是在 2023 年 1 月和 3 月加入 OpenAI 的。
我們知道,2022 年 11 月 30 日,OpenAI 的 ChatGPT 橫空出世,由此掀起了大模型「顛覆世界」的浪潮。
他們追隨傳奇而來,如今回頭望去,自己也成為了傳奇。
作為 Sora 背后的主要推動者,Tim Brooks、Bill Peebles 兩人的博士畢業(yè)論文,也都是以 AI 視頻生成為主題的。是時候從技術(shù)發(fā)展的角度,來研究一下 Sora 的來龍去脈了。
Tim Brooks
個人主頁:
Tim Brooks 博士畢業(yè)于 UC Berkeley 的「伯克利人工智能研究所」BAIR,導(dǎo)師為 Alyosha Efros。
在博士就讀期間,他曾提出了 InstructPix2Pix,他還曾在谷歌從事為 Pixel 手機(jī)攝像頭提供 AI 算法的工作,并在英偉達(dá)研究過視頻生成模型。博士畢業(yè)后,Tim Brooks 加入 OpenAI,參與過 GPT-4、Sora 等多項(xiàng)研究。
2023 年,Tim Brooks 順利畢業(yè),博士論文接近 100 頁。論文題目為《Generative Models for Image and Long Video Synthesis 》。
論文地址:
論文簡介
在這篇博士論文中,Tim Brooks 提出了將圖像和視頻生成模型用于一般視覺內(nèi)容創(chuàng)作的基本要素,主要體現(xiàn)在三個方面:
首先,論文介紹了長視頻生成相關(guān)研究,并提出一種網(wǎng)絡(luò)架構(gòu)和訓(xùn)練范式,用于從視頻中學(xué)習(xí)長程時間模式,這是將視頻生成從較短的剪輯推進(jìn)到較長形式且連貫視頻的關(guān)鍵挑戰(zhàn)。
接下來,論文介紹了基于人體姿態(tài)生成場景圖像的研究,展示了生成模型用來表示人與周圍環(huán)境之間關(guān)系的能力,并強(qiáng)調(diào)了從大型且復(fù)雜的日常人類活動數(shù)據(jù)集中學(xué)習(xí)的重要性。
最后,論文介紹了一種通過結(jié)合大型語言模型和文本到圖像模型的能力來創(chuàng)建監(jiān)督訓(xùn)練數(shù)據(jù),從而指導(dǎo)生成模型遵循圖像編輯指令的方法。這些工作共同提升了生成模型合成圖像和長視頻的能力。
Tim Brooks 表示,在他讀博期間(2019-2023 年),圖像和視頻生成模型已經(jīng)從小范圍的演示發(fā)展成被廣泛采用的創(chuàng)意工具。他非常慶幸自己能在這個關(guān)鍵的時刻攻讀視覺生成模型的博士學(xué)位,他也對生成模型充滿了信心。
接下來我們介紹一下 Tim Brooks 博士論文每章節(jié)的主要內(nèi)容。
第 2 章專注于生成具有豐富動態(tài)和新內(nèi)容的長視頻。圖 2.1 展示了模型能夠生成豐富的運(yùn)動和場景變化。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。