Seed校招博士自述:我為什么選擇來字節(jié)做大模型
作者:張逸霄
原文來自知乎博主張逸霄對“大家能分享一下當前博士就業(yè)的情況嗎”的回答。
人在英國,剛過答辯。今年拿了騰訊 AI Lab(青云計劃)、字節(jié)跳動(Seed) ,國外有之前實習的 Sony Research 和 Yamaha 的 return offer,國外也有正在面試的 Adobe 和 Meta。這些工作機會的方向都和我的博士工作完全 match,沒有轉方向的痛苦。
最后,我接了字節(jié) Seed(豆包大模型)團隊的 offer,結束秋招。
背景介紹
我是一個方向比較獨特的博士,做的是音樂生成。今年年底四年順利畢業(yè),最后的選擇是:接了字節(jié) Seed 的 offer,在工業(yè)界繼續(xù)進行研究。
張逸霄主頁:
逛知乎的這個方向的同行們應該多少讀過我在知乎寫的鳥瞰 ISMIR 知乎專欄系列。和很多人一樣,我是從其他方向轉來計算機音樂方向的,早年我邊看邊學,留下了一些筆記,現(xiàn)在還掛在知乎里有人不時點贊。
人工智能可以作曲嗎?1141 贊同?116 評論 回答
鏈接:

如何看待中央音樂學院首招音樂人工智能方向博士生?更廣泛來說人工智能在音樂領域的應用與前景?1083 贊同?88 評論 回答
鏈接:
雖然 AIGC 火起來的這兩年,看上去音樂生成已經(jīng)成為一片紅海,但我入行的時候并不是這個樣子的。甚至我之所以出國讀博,是因為國內只有屈指可數(shù)的兩三個老師有計劃培養(yǎng)這個方向的博士(當然現(xiàn)在國內稍微多了一些,央音、上交、港中深等一些學校都開始招收 phd 和工作崗位)。
我在讀博的時候,認真考慮過自己博士畢業(yè)之后會不會沒飯吃,會不會被迫轉行。確實是一個扎扎實實的窮方向。大部分人都是在為愛發(fā)電,扎扎實實將自己的博士四年投入到音樂方面的各種研究之中。
但是這兩年大模型和 GenAI 的風一吹,音樂生成方向突然又行了。我算是一個比較幸運的學生,在行業(yè)的 bar 不高的時候入行,在市場壯大之際畢業(yè)。
找工作過程中,其實有很多感慨。
1. 找工作是一個長久的過程。很多時候,在讀博期間建立的 connection 能很大程度上幫助我拿到面試,找到工作。在我秋招的過程中,給我面試的公司,無一例外都是之前建立過聯(lián)系的同行。我在找工作的時候,能把簡歷直接遞給 hiring manager 之后,整個流程都很順利。
2.一個領域的工作機會,很多時候更大的決定因素并不僅僅是個人努力。我 2019 年的時候還在做音樂結構分析,而 2023 年之前,計算機音樂方向都是不溫不火的方向。現(xiàn)在生成方向搭上了 GenAI 的快車,讓更多同行能拿到高薪,但這和他們的選擇并沒有什么關系;一個公司有沒有給 offer,很多時候更可能是很多其他因素導致了這個結果。
這個時候,有一句勉勵的話可以恰如其分地用在這里:
世界上沒有快樂或痛苦;只有一種狀況與另一種狀況的比較,只是如此而已。只有曾身受過最深切的悲哀的人,才最能體會最大的快樂。摩萊爾,我們必須經(jīng)驗過死的痛苦,才能體會到生的快樂。所以,我心愛的孩子呀,享受生命的快樂吧!永遠不要忘記,在上帝揭露人的未來以前,人類的一切智慧是包含在這四個字里面的:“等待” 和 “希望”。
確實是這樣的。
煎熬的畢業(yè)前半年
畢業(yè)的前半年無疑是煎熬的。因為從這個時候開始,全職的 offer 就可以開始陸續(xù)談下來了 。
我在英國瑪麗女王大學 (Queen Mary University of London, QMUL) 的數(shù)字音樂中心 (Centre for Digital Music, C4DM) 讀的 phd program。實驗室近幾年保持著 70 余位研究計算機音樂的 phd 學生,從規(guī)模上應該是全世界最大的計算機音樂實驗室。
這個 phd program 與一般的英國 phd program 的差別在于:英國傳統(tǒng)上是三年制,而我的 phd program 是四年制,第四年結束之后可以提交學位論文,這個階段最長可以有一年。我們稱這個階段為 “writing-up” 階段。這就使得我接受的 training 像是一個半英半美的結合體。
UKRI Centre for Doctoral Training in Artificial Intelligence and Music

鏈接:
我本科畢業(yè)之后沒有直接讀博,而是 gap 了一年之后申請了 phd。在第一年經(jīng)歷了上課的過渡期之后,我在博二博三期間的產出其實并不算多,加上實驗經(jīng)歷并不如同學們那么充分,于是我經(jīng)歷了長達一年的可怕階段:做什么實驗,什么實驗 fail。我又是一個科研自尊心很強的人,博三結束之后,我焦慮地整夜整夜睡不著覺。
事實上,那是光明之前的最后黑暗,因為構成我畢業(yè)論文的主要的三篇論文,都是在我博三結束到博四期間構思完成的論文。
那個時候要撐過來,其實很感謝我的博導 Prof. Simon Dixon。用我們實驗室的話來說,他的風格有點像 big daddy,溫暖呵護每一個博士生。雖然他有點上年齡了,不是總能跟得上科研前沿,但他有三個優(yōu)點:我想做什么,他都支持我去做;他總是正確地指出我科研不成熟的地方,從 idea 完善,到實驗設計,到論文寫作。把我擺正之后,他又開始放羊。
畢業(yè)前半年,我又開始焦慮。我是一個很容易被影響的人,我時不時會有嚴重的 peer pressure,甚至會時常壓迫到自己半夜失眠。這一部分也是因為,不管我博士期間做得如何,我都要上就業(yè)市場,面對殘酷而不公平的博士競爭了。
作為一個合格的 INTP,我開始做廣泛的調研,然后得到了下面的信息。
MIR 領域的畢業(yè)選擇:高校還是工業(yè)界?
盡管我們領域這么冷門,但博士畢業(yè)之后的主流出路仍然是兩個:高校或是業(yè)界。
事實上,我在就讀博士期間,對這個選擇一直保持 open 的態(tài)度。
學術界的選擇
學術界來說,目前高校仍然是一個比較卷的選擇。可以參考今年大學放出來的名額:

我沒有去學術界的原因有兩個:
1. 大模型時代,工業(yè)界資源更為豐富 。
這一點想必同行們都深有感觸。現(xiàn)在需要訓練一個參數(shù)量比較大的模型,學校實驗室的那一點顯卡根本是不夠用的。如果有機會去公司實習,有足夠的 A100,H800 可以用,那么很多 idea 才有實現(xiàn)的可能。
我認為未來幾年里,工業(yè)界和學術界的差距可能會進一步增大。這使得在學術界的產出可能會受到經(jīng)費的影響,難以做出跟進前沿的工作。
2. 大團隊作戰(zhàn)的工業(yè)界實質上領先于學術界 。
這一點也可以從這兩年大模型的突破性工作的比例看出來。最具代表性的工作,基本出自 Meta,Google 這些公司的團隊作品,這一點音樂方向也是差不多的。
換而言之,如果要上大模型的戰(zhàn)車,那么工業(yè)界是一個更加實際的選擇。
工業(yè)界的選擇
來看一下目前涉及音樂業(yè)務的工業(yè)界版圖:
大廠:
ByteDance(經(jīng)費充足,研究人員多,產出穩(wěn)定)
Meta(音頻組兼做音樂,研究人員多,不專一,報酬豐厚)
Google DeepMind(經(jīng)費充足,研究人員中多,公司導向不開源)
Adobe(經(jīng)費中等,研究人員少,側重編輯產品落地,學術界活躍)
NVIDIA(經(jīng)費中等,研究人員少,音頻組兼做音樂)
Sony Research & Sony CSL(經(jīng)費較少,研究人員多,氣氛最接近學術界的公司)
Spotify (歐洲知名大廠,經(jīng)費充足,產出穩(wěn)定,氣氛優(yōu)秀)
Apple (Apple Music 和 Shazam 部門,整體來說是比較四平八穩(wěn)的產品部門)
Dolby(研究做得很不錯,只是 Music 研究比例不高)
Bose(音頻組有時做一些音效研究)
Microsoft Research Asia(雖然產出多,但是名額少,而且不是核心項目)
騰訊 & 騰訊音樂 TME(經(jīng)費中多,研究人員多,注重產品轉化)
網(wǎng)易云音樂(經(jīng)費中等,最近學術產出急劇下滑)
華為中央媒體研究院(base HK,有一些音樂研究人員,最近成果多起來了)
中小廠:
Suno(目前在積極招人)
Stability AI(前公司還是很有感情,很有活力的 start-up)
Udio(不知道在不在招人)
Riffusion(創(chuàng)業(yè)公司)
Music AI(前 Moises,人數(shù)不多,學術研究氣氛還不錯)
Deezer(歐洲知名公司,學術上很有名氣)
非 AI 公司:
Yamaha(經(jīng)費中等,AI 研究人員少,非常專注于做很 music 的方向)
Steinberg(Yamaha 子公司,AI 研究人員少,注重產業(yè)化)
iZotope & Native Instrument (近年有一些 AI 技術和論文,但不多)
BBC (我們實驗室的合作公司,總體上做得偏音頻)
Universal(就是那個環(huán)球音樂公司,研究人員少,但是也有學術產出)
更多的我就不列舉了。
當然,值得多說一句的是,這些公司并不是一直在招人。很多情況下,音樂相關的崗位一年可能只有寥寥數(shù)個,相對于 GenAI 的大方向來說,確實不是性價比很高的方向。
最后的選擇:字節(jié)跳動 Seed 音樂團隊(SAMI)
借用一句朋友的話,在團隊里工作是這樣的:
找到了一個自己愿意醉心研究的領域,獲得成就感和自我實現(xiàn)的同時,還能獲得非常對得起自己付出的經(jīng)濟回報。
總體來說我覺得十分貼切。
在讀博期間,我和字節(jié)跳動保持著一定的關系,但并未直接合作過。基于這層原因,我和字節(jié)跳動做 MIR 的同行們,也就是現(xiàn)在的同事們,持有相互的聯(lián)系方式。
字節(jié)跳動內部一直維持著一個做音樂的大團隊,叫做 SAMI(Sound Audio Music Intelligence)。SAMI 團隊在過去的很長一段時間里,保有美國、英國和中國的團隊協(xié)作,也一直是我們領域的學術會議常客。可以用這樣一句話來說,每一個入行 MIR 的研究者,都會很快認識一個 SAMI 員工,或者前員工。
雖然 MIR 領域做的人不多,一篇論文有 50 引用就是比較高的引用了。SAMI 這樣的論文不在少數(shù),并且遍布 MIR 的各個方向。舉幾個例子,我們領域的人應該多少聽過:
音頻編碼器 PANNs:
鋼琴音頻轉 MIDI 的重要數(shù)據(jù)集 GiantMIDI-Piano:
最早的 text-to-music 模型之一,MeLoDy:
TTS 基座大模型 Seed-TTS:
Music 基座大模型 Seed-Music:
組里還不乏一些特定的精致研究:
音樂結構分析的重要模型:
專用于 MIR 各類任務的當時最好的模型之一:
于是在 2024 年 3 月,在我畢業(yè)的前 8 個月,收到 ByteDance 的面試邀請的時候,我并沒有猶豫便答應了。
面試流程
由于保密協(xié)議限制,我不能描述更多細節(jié),只能大致說一下時間線。
2024 年 3 月,我收到了現(xiàn)在直屬上級的邀請。
2024 年 4 月,第一輪面試到第三輪面試。
2024 年 5 月,和我的直屬上級的直屬上級約了 slot 進行一對一談話。
2024 年 5 月,我提出了 package 的疑慮,字節(jié)討論后給了一輪漲薪(可以看出字節(jié)給優(yōu)秀 phd 的待遇還是相當好的)。我當日就簽下了 offer。
2024 年 10 月,我在上海提前入職。
說一下面試期間經(jīng)歷的事情。
我的面試戰(zhàn)線說長不長,說短不短。因為我在上市場的時候,第一個接到的面試邀請就來自字節(jié)跳動,甚至來自我現(xiàn)在的直屬上級。
我當時同時拿到的 offer 不少,其實選擇上是比較多的,于是我花了大約一個月的時間去約我認識的工業(yè)界和學術界的同行,去刷一畝三分地看大家的選擇。
所以我最后為什么會選擇字節(jié)呢?
1. 第一點是因為確實是方向的 match 程度位于前列。
這兩年,隨著大模型的發(fā)展,我逐漸意識到自己一個人單打獨斗,已經(jīng)很難在很基礎的領域有很大的突破了。我渴望自己有高水平的合作同事,渴望一個算力充分的實驗室,渴望一個專心致志做音樂研究的地方。
雖然上面提到了那么多公司,但是我個人認為能在音樂大模型和 MIR 上有長期競爭力的公司,目前看來只有 Google DeepMind 和 ByteDance,原因我在上面做了解釋。而隨著 2023 年 DeepMind 逐漸轉向封閉式科研,不將自己的第一手產出公之于眾,ByteDance 在學術方面反而是一個獨樹一幟的存在。
2. 第二點是字節(jié),尤其是 Seed 團隊,能夠開出很有競爭力的條件。
首先是錢的問題。在這些選擇里,字節(jié)給出的包比別的選擇都更多。
因為保密協(xié)議,我能說的很有限,但是 @丁霄漢 博士(同時也在字節(jié))可以幫我作證,字節(jié)給的 package 是一流的,十分符合我對人才計劃薪水的期望。
這里尤其推薦有水平的 phd 來試試字節(jié)的 TopSeed 人才項目。不僅加入核心團隊,而且薪水給得非常理想。
公司重視程度的問題。
SAMI 目前在關注大模型條件下的音樂和音頻的各種各樣的有趣科研問題。Seed 團隊目前是 ByteDance 的研發(fā)主力團隊,我看到的公司資源和投入都在往組里傾斜。
這包括了我聞所未聞的顯卡數(shù)量(字節(jié)內部計算平臺 Merlin 有多好用一些同行應該也有所耳聞),遠超我自己之前實驗室的算力資源;從戰(zhàn)略上,豆包大模型目前是公司的發(fā)展側重點。目前來看,團隊內部的科研氣氛還是十分濃厚的;在經(jīng)費和投入的穩(wěn)定性上,足夠我支撐未來 3-5 年的持續(xù)科研研究,而不需要擔心自己被頻繁的業(yè)務調動而去分配做自己不愿意做的工作。
正如我之前所說,SAMI 在技術的沉淀上是充分的。在入職之后,我看到了海量的內部技術文檔,涉及到公開和未公開的各種實驗,說實話讓人十分感慨。在音樂生成和 MIR 這個小眾方向,有了這些實驗數(shù)據(jù),說是少走幾年彎路也不為過。
技術轉化的問題。
組里的技術主要落地在豆包 app 和海綿音樂 app 上面。目前能給出音樂生成從科研學術產出,到產品落地,完成整個閉環(huán)的大廠選擇并不多,字節(jié) > 騰訊音樂 > 網(wǎng)易云和其他公司。
我覺得這也是工業(yè)界獨有的魅力之一,那就是能和組里的工程同事通力合作,看到技術被實際轉化的那一天。我覺得這也算是不違反我進入音樂科研的初心的。
3. 有什么糾結的點呢?
糾結的點也有。首先是大家都默認的,字節(jié)的工作強度確實不低。然而,由于我不幸做的是 LLM 和 GenAI,這是一個發(fā)展極快的方向,據(jù)我所知 Meta 和 Adobe 這些傳統(tǒng)意義上福利給足的美國大廠,在這個方向也要求員工優(yōu)勝劣汰。我在一畝三分地上看到了很多相關討論,不少人指出 Meta 這個方向也在無休止地 996 工作。這樣對比下來,字節(jié)的工作強度并沒有那么突出,盡管這是一個頗有黑色幽默的結論。
可能是因為我自認為自己還在職業(yè)和學術的上升期,愿意在未來三到五年里繼續(xù)秉承著一股沖勁認真科研,將自己保持在學術一線。從這層意義上來說,工作和人是雙向選擇的過程。也許之后有一天,我經(jīng)歷了足夠多,我會選擇離開工業(yè)界,去找一份更加輕松的科研工作。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。