首頁 > AI資訊 > 最新資訊 > 華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

新火種    2024-12-26

好家伙!NeruIPS前線來報(bào):華人學(xué)子們被人從眾包圍了!

華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

今年NeurIPS好不熱鬧,165000名參會者創(chuàng)下新紀(jì)錄,一眾大佬出來展示成果、分享觀點(diǎn)。

與此同時(shí),一些新生代面孔也開始嶄露頭角。

他們亮相于各路最佳/杰出論文頒獎現(xiàn)場、海報(bào)展示、WorkShop上。

海報(bào)前被人山人海包圍的00后小姐姐,是剛上大四就發(fā)了NeurIPS一作的程楚欣。

華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

還有正在麥吉爾大學(xué)讀博一的余淏,他參與的多篇論文都被頂會收錄了,而且還是Kaggle平臺專家級別。

另外還包括來自MIT的李羅羅,在pika實(shí)習(xí)期間,學(xué)習(xí)生成式視頻領(lǐng)域,更是因?yàn)楣ぷ髦行枰⒄{(diào)多個模型以適應(yīng)不同分布要求的情況下,如何選擇合適的參數(shù)高效方法。

這一問題促使她與南京大學(xué)、上海交通大學(xué)、騰訊以及MIT等國內(nèi)外知名機(jī)構(gòu)合作,共同撰寫了一篇論文。在論文中,他們提出了一個統(tǒng)一的視覺參數(shù)效率測試基準(zhǔn)(V-PETL Bench),旨在解決這一難題。

而巧合的是,這群人還都在騰訊的青云計(jì)劃群星未來之夜上相聚了。他們也有一個共同的身份——騰訊星火計(jì)劃 “星友”。

對了,聽說大會今年新增了高中生賽道,有我們國內(nèi)學(xué)子獨(dú)立撰寫的論文還獲得了Spotlight。

來自上海星河灣雙語學(xué)校的陳天睿,據(jù)悉也是今年星火計(jì)劃的新學(xué)員,他做出了一個大型多模態(tài)模型(LMM)的智能體系統(tǒng),用于精確地理定位和驗(yàn)證的AI Agent「只需隨意拍一張照片,就能得判斷這張圖片是在哪里拍的」,產(chǎn)品已經(jīng)到了可用階段。

Okk,我們的前方盆友也趁機(jī)同他們展開了深度交流,以下為詳情內(nèi)容。

新生面孔NeurIPS嶄露頭角程楚欣:大四即發(fā)NeurIPS一作

程楚欣,一位加州理工學(xué)院計(jì)算機(jī)科學(xué)專業(yè)就讀的大四學(xué)生,導(dǎo)師為岳毅松教授和亞當(dāng)?維爾曼教授。

該論文提出了一種基于后驗(yàn)采樣的貝葉斯算法執(zhí)行方法,用于解決函數(shù)評估成本問題。

華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

許多現(xiàn)實(shí)問題可歸結(jié)為估計(jì)黑箱函數(shù)的屬性,但函數(shù)評估成本高,現(xiàn)有貝葉斯算法執(zhí)行(BAX)方法依賴期望信息增益(EIG)選擇評估點(diǎn),計(jì)算成本高,尤其在高維問題或?qū)傩詮?fù)雜時(shí)。而該算法基于后驗(yàn)采樣,每次迭代只運(yùn)行一次基礎(chǔ)算法,速度快且簡單,在多個任務(wù)中表現(xiàn)出高效性和競爭力。

貝葉斯優(yōu)化的核心思想是利用貝葉斯定理將不確定性轉(zhuǎn)化為概率分布,從而在有限的計(jì)算資源下找到最優(yōu)解。

而程楚欣所在的團(tuán)隊(duì),所做的事情相當(dāng)于將原來的算法推廣到不光是找到它的最優(yōu)解,還可以找到它最優(yōu)的十個解。在已知一個有效算法的前提下,通過后驗(yàn)采樣的方式,找到函數(shù)的任何一個性質(zhì),主要這個性質(zhì)是一種可以被算法算出來的。

如此,這樣的優(yōu)化本身就帶有很強(qiáng)的應(yīng)用屬性。比如很多生物學(xué)家、化學(xué)家他們自己有一套成熟的模型,這個算法能幫助他們更有效率地利用已有的模型。在蛋白預(yù)測、藥物研發(fā)等方面,可以加速實(shí)驗(yàn)的進(jìn)程、提升研發(fā)效率。

回顧她的研究經(jīng)歷,除了她在貝葉斯優(yōu)化這個領(lǐng)域有過多篇成果之外,她也向我們透露,期間她曾涉足諸多方向,包括圖神經(jīng)網(wǎng)絡(luò)、conformal prediction保形預(yù)測,也做過一些機(jī)器人、控制系統(tǒng)等等。

甚至有段時(shí)間里,她的狀態(tài)就是只要有研究可以做,她就愿意去跟著做。只不過后來精力太過分散,沒辦法一下子兼顧很多東西。

因此像現(xiàn)在這種有Paper出來,她也謙虛道:是有點(diǎn)運(yùn)氣成分在里面的。

如今她正在申請博士,主要關(guān)注的領(lǐng)域是 AI For Science,利用AI去幫助科研發(fā)現(xiàn)。Science這個領(lǐng)域還有很多問題是AI可以發(fā)揮優(yōu)勢的地方。

此外,她也非常看看重基礎(chǔ)學(xué)科,尤其是應(yīng)用數(shù)學(xué)在AI未來發(fā)展中的重要性。這其實(shí)也是她一直以來的熱愛。

參加星火計(jì)劃前,“我從未想到我會和計(jì)算機(jī)專業(yè)有什么聯(lián)系”。參加之后,發(fā)現(xiàn)機(jī)器學(xué)習(xí)“挺好玩的”。

華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

當(dāng)時(shí)19歲的程同學(xué)剛收到了加州理工學(xué)院的offer,一心想的還是選擇數(shù)學(xué)。

2021年她以數(shù)學(xué)特長加入到了騰訊星火計(jì)劃挑戰(zhàn)周——量子方向,在為期5天時(shí)間里,作為一位“不怎么會寫代碼”的菜鳥新手,主要負(fù)責(zé)量子背后的數(shù)學(xué)原理部分。代碼的部分“交給隊(duì)友”。

也正是這個過程,讓她產(chǎn)生了對計(jì)算機(jī)科學(xué)的興趣,在確認(rèn)專業(yè)時(shí),選擇了計(jì)算機(jī)科學(xué),并在后面的星火超新星以賽代培的模式中,先后與當(dāng)時(shí)的隊(duì)友余淏和其他星火小伙伴組隊(duì)打了各種Kaggle比賽,在CV、NLP多領(lǐng)域打下了很好的基礎(chǔ)。在這個過程中訓(xùn)練到了“交叉思維”—— 數(shù)學(xué)與計(jì)算機(jī)的交叉、研究與產(chǎn)業(yè)界的交叉。

余淏:腳踏實(shí)地,行穩(wěn)致遠(yuǎn)

作為第二次參加NeurIPS的余淏,目前在麥吉爾大學(xué)和Mila讀研一,從大三開始一直便在Mila實(shí)驗(yàn)室(由深度學(xué)習(xí)先驅(qū)Yoshua Bengio教授領(lǐng)導(dǎo))參與各項(xiàng)研究。

談及近況,他表示正跟著新導(dǎo)師David Adelani做小語種和多語種相關(guān)的項(xiàng)目。另外,他還在加拿大AI研究機(jī)構(gòu)Vector Institute(Geoffrey Hinton為其首席科學(xué)顧問)擔(dān)任助教,參與企業(yè)RAG的培訓(xùn)。

在星火計(jì)劃的騰訊業(yè)務(wù)場景上,他參與改進(jìn)了一種基于擴(kuò)散模型的時(shí)間序列控制方法,并用于游戲市場數(shù)據(jù)分析任務(wù)中;能夠?qū)崟r(shí)基于游戲?qū)<业呐袛噙M(jìn)行數(shù)據(jù)調(diào)整,通過生成式方法實(shí)現(xiàn)更快更準(zhǔn)的游戲數(shù)據(jù)的校準(zhǔn)和預(yù)測,在游戲運(yùn)營、發(fā)行等階段能提供相當(dāng)程度的業(yè)務(wù)價(jià)值。

華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

今年來到NeurIPS,他(非一作)和團(tuán)隊(duì)帶來了一篇利用多智能體模擬工具,模擬線上社交行為來探索虛假信息的傳播路徑和影響。具體而言,他們結(jié)合了Concordia框架和自建Mastodon社交媒體平臺,提高模擬速度和信息流動,并設(shè)置了一系列測量工具。

華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

從過往研究經(jīng)歷來看,他似乎始終在探索前沿技術(shù),包括分子預(yù)測、量子線路模擬、RAG、擴(kuò)散模型等等。而這最終也讓他成為“會議達(dá)人”(2023年EMNLP共一作、2024年COLM二作、2024年EMNLP Shared Task Wining in NER…),并進(jìn)一步加深了他對NLP的熱情和對AI的探索。

而讓他能夠自由探索各種感興趣方向的支持來源,也包括星火計(jì)劃。原因也很簡單,這讓他能在學(xué)生階段就有機(jī)會接觸產(chǎn)業(yè)界的問題和真實(shí)數(shù)據(jù)。按他的話說,

而就在他和程楚欣參加完挑戰(zhàn)周之后,他就主動聯(lián)系星火計(jì)劃項(xiàng)目組尋求賽事參與的支持(組隊(duì)、找導(dǎo)師),甚至從0自學(xué)到帶領(lǐng)小伙伴們拿下多個獎牌。

對了悄咪咪透露,也是他最早啟發(fā)騰訊設(shè)計(jì)“以賽代培”和“以戰(zhàn)代培”的”星火”模式。

華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

值得一提的是,他在星火計(jì)劃超新星期間的導(dǎo)師,來自騰訊IEGG Advanced Data Group的數(shù)據(jù)科學(xué)家童世煒對他獨(dú)立解決問題的能力大加贊賞。在超新星培養(yǎng)期間,也產(chǎn)出一篇RAG Evaluation: A Survey論文被2024CCF Big Data(國內(nèi)大數(shù)據(jù)領(lǐng)域最具影響力、規(guī)模最大的學(xué)術(shù)會議之一)收錄。

總之據(jù)他透露,正是星火的這種項(xiàng)目制讓他得以早期高頻參加各種知名賽事,從而提前積累了大量的經(jīng)驗(yàn)和技能,為未來的研究和工作打下了堅(jiān)實(shí)的基礎(chǔ)。

聊到最后,他表示接下來的重點(diǎn)在于探索如何更高效的利用人類知識和行為反饋來訓(xùn)練模型,以及RAG的進(jìn)一步改進(jìn)和工程落地。

陳天睿:高中賽道SpotLight

今年NeurIPS專門設(shè)置了高中生賽道,結(jié)果有三名中國高中生的論文獲得了Spotlight。

上海星河灣雙語學(xué)校的陳天睿,就是一位。

他提出了用于精確地理定位和驗(yàn)證的多模態(tài)智能體,只需隨意拍一張照片,就能得判斷這張圖片是在哪里拍的。

目前產(chǎn)品已經(jīng)到了可用階段。整個項(xiàng)目從想法到落地,全都是他一個人來完成。

比如在NeurIPS會場上拍一張,結(jié)果沒有任何標(biāo)識,僅憑借會議場景、PPT細(xì)節(jié)等就判斷出這是在溫哥華會議中心附近。

華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

陳天睿透露,這個項(xiàng)目背后主要利用 LATS(Language Agent Tree Search ),也融入了 NeurIPS‘23 提出的 GeoClip,這一純機(jī)器學(xué)習(xí)方式的最佳模型(SOTA)。

今年年初,他注意到多模態(tài)大模型才剛嶄露頭角,在此之前,很難有能直接應(yīng)用的模型。恰在那時(shí),看到了Geoclips出現(xiàn),就想著可以借此解鎖一個新的應(yīng)用場景。

在此之前,幾乎所有的研究都是運(yùn)用一個模型,依據(jù)一張圖片去猜測一個地理定位,判斷上其實(shí)已經(jīng)較為精準(zhǔn)。

而陳天睿所做的,是在此基礎(chǔ)上添加了一個類似GPT的模型,讓GPT再進(jìn)行一層判斷。這樣做的好處在于:比如圖片里有一個地標(biāo)或者有路名之類,GPT能夠根據(jù)地標(biāo)或路名在網(wǎng)上對應(yīng)搜索到那條路。如此一來,精準(zhǔn)度便會大幅提高。

這樣,在大多數(shù)情況下,能夠非常精確地找到定位,而非純粹依靠機(jī)器學(xué)習(xí)的模型去猜測定位。

他坦言這個項(xiàng)目在算法上沒有太多創(chuàng)新,更多是在工程和definition上做了一些改動——讓大模型能接受文字和圖片聯(lián)眾模態(tài),而它調(diào)用的每個工具也能輸出圖片和文字。

之所以想到這個方向,是因?yàn)樗綍r(shí)就對AI與安全兩個領(lǐng)域感興趣——

五年級就開始學(xué)習(xí)編程。七年級,接觸過一個跟掃描網(wǎng)絡(luò)攝像頭相關(guān)的開源項(xiàng)目,當(dāng)時(shí)純粹感覺好玩。十年級的時(shí)候,就開始嘗試通過用網(wǎng)絡(luò)攝像頭進(jìn)行地理位置定位。

另外受到學(xué)校里大火的GeoGuessr的游戲啟發(fā),希望做一個程序更加精準(zhǔn)的通過圖片識別地理定位,順道寫了一篇論文。

他特別提到了今年暑期參加的星火計(jì)劃挑戰(zhàn)周-安全方向。

如果說在此之前,他主要是依照興趣方向來進(jìn)行相關(guān)的研究,那么在挑戰(zhàn)周可以說是更有針對性、連續(xù)性地展開工作。項(xiàng)目全都是針對應(yīng)用場景和業(yè)務(wù)場景,既涵蓋攻擊,也涉及防守。

據(jù)介紹,今年挑戰(zhàn)周的安全攻防方向分為攻擊和防御兩個階段。在攻擊階段,學(xué)生需要逐步對辦公網(wǎng)和生產(chǎn)網(wǎng)進(jìn)行滲透,最終達(dá)成對目標(biāo)ERP系統(tǒng)的數(shù)據(jù)竊取。

在防御階段,同學(xué)們需要對攻擊階段產(chǎn)生的海量行為和流量數(shù)據(jù)進(jìn)行清洗審查,以實(shí)現(xiàn)實(shí)時(shí)告警和響應(yīng)系統(tǒng)。整個過程需要運(yùn)用Elastic Search等工具展開數(shù)據(jù)分析和過濾,不僅嘗試了傳統(tǒng)的EDR和ND 規(guī)則,還創(chuàng)新性地運(yùn)用 LLM 建立pipeline,提升了告警的有效性和精準(zhǔn)度。

對此他坦言:“我之前主要學(xué)習(xí)如何攻擊,并不知曉如何防守。星火挑戰(zhàn)周的任務(wù)最終需要借助AI來識別和發(fā)現(xiàn)他人是如何攻擊你的系統(tǒng)的,相當(dāng)有趣,還結(jié)識了一群厲害的人。”

目前,陳天睿還在高中,未來面對升學(xué),主要考慮CS、數(shù)據(jù)科學(xué)等專業(yè)。

星火同學(xué)不在少數(shù)

之所以對這些人的履歷和經(jīng)歷,了解如此細(xì)致。

那是因?yàn)橹斑@些人,早就在大廠計(jì)劃里曝光過了。

華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

那就是堪稱鵝廠最隱秘的人才培養(yǎng)計(jì)劃,每年面向高中生招募五六十個不等,然后他們來到騰訊總部,與最頂尖的技術(shù)專家們共同解決產(chǎn)業(yè)中的實(shí)踐難題。

如今已經(jīng)辦了五年,像程楚欣、余淏、陳天睿等有類似經(jīng)歷的星火童鞋不在少數(shù),包括:

“乖神”鄧明揚(yáng),也是在2021年,他作為IOI金牌第一名(全場唯一的滿分600分)加入了星火,成為挑戰(zhàn)周視頻號推薦算法成員,再是2022年安全攻防方向的助教。

前面cue到的MIT李羅羅,作為當(dāng)年MIT唯一錄取的來自國內(nèi)大陸高中的女生2023年作為星火挑戰(zhàn)周的AIGC方向(線上助教),第一次接觸工業(yè)界。

……

一個共同點(diǎn)是,都有過星火計(jì)劃這段經(jīng)歷的他們,正在成為技術(shù)創(chuàng)新發(fā)展的中堅(jiān)力量,不斷產(chǎn)出優(yōu)秀的成果。

而且正是因?yàn)槟嵌谓?jīng)歷,他們對技術(shù)在工業(yè)界的應(yīng)用有了認(rèn)知,在后續(xù)科研之路上,著重在各種交叉領(lǐng)域中,從解決實(shí)際問題出發(fā),不拘泥于單一的研究方向。

其實(shí),這種前沿領(lǐng)域交叉、理論與應(yīng)用的匯聚也正在成為全技術(shù)領(lǐng)域的共識。

從技術(shù)角度來看,更多大模型進(jìn)展受到基礎(chǔ)學(xué)科的啟發(fā)影響,比如像擴(kuò)散模型受到物理熱力學(xué)啟發(fā);還有一些圖像生成受到電動力學(xué)的啟發(fā);更不用提數(shù)學(xué)如貝葉斯對于AI模型的影響了,這時(shí)候就需要學(xué)生具備多重學(xué)科交叉的思維。

如今大模型加速落地應(yīng)用,同樣也離不開基礎(chǔ)技術(shù)的支撐,這一點(diǎn)在頂會上體現(xiàn)得越來越突出。

據(jù)與現(xiàn)場參與的專家交流,今年看到了很多大語言模型的應(yīng)用。如果將時(shí)間往前倒個三五年,純理論的研究可能還占據(jù)70%。

而隨著理論逐漸落地工業(yè)界,類似星火計(jì)劃這樣用來打破學(xué)術(shù)界和工業(yè)界鴻溝的嘗試無疑是大膽且有效的。

對此現(xiàn)場來自騰訊TEG的AI專家也提出建議:

除此之外我們看到,星火計(jì)劃實(shí)際上還只是騰訊這家大廠更大體系的冰山一角。

華人學(xué)子閃耀NeurIPS頂會,背后最大贏家竟是它

在騰訊內(nèi)部,它僅僅是一個更為普惠、更為體系化規(guī)范化的綜合培養(yǎng)架構(gòu)——騰訊青少年科創(chuàng)營地實(shí)訓(xùn)體系的一部分。

從官方介紹來看,這個架構(gòu)有諸多的獨(dú)特之處。

首先,它深度整合了騰訊內(nèi)部豐富的業(yè)務(wù)資源,提前感受頂級大廠的技術(shù)創(chuàng)新氛圍。

比如,它鏈接了包括量子、優(yōu)圖、玄武、QQ、騰訊混元、輸入法、騰訊文檔等多個實(shí)驗(yàn)室及業(yè)務(wù)部門,為青少年提供了真實(shí)且前沿的一線產(chǎn)業(yè)實(shí)踐場景,以及騰訊特色的多元課題,讓青少年深入?yún)⑴c到背后的研發(fā)過程當(dāng)中。

其次,以標(biāo)化的教務(wù)教研方法論、一體化的教務(wù)系統(tǒng)為基礎(chǔ)能力,通過線下營地實(shí)訓(xùn)項(xiàng)目、線上賽事項(xiàng)目、以賽促學(xué)的實(shí)訓(xùn)項(xiàng)目、參與各業(yè)務(wù)實(shí)際課題等多種形式來培養(yǎng)。

以星火計(jì)劃挑戰(zhàn)營為例,它不再局限于理論知識的傳授,而是讓青少年直接參與到實(shí)際的科研和項(xiàng)目中,在實(shí)戰(zhàn)中積累經(jīng)驗(yàn)、提升能力。這樣一來,為行業(yè)培養(yǎng)真正具有實(shí)踐能力和創(chuàng)新精神的后備力量。

除了為拔尖高潛人才開創(chuàng)的星火挑戰(zhàn)營,這個體系還包括科創(chuàng)青少年Mini鵝實(shí)訓(xùn)營、AI創(chuàng)想實(shí)訓(xùn)營等系列品牌,包含13套營地標(biāo)準(zhǔn)解決方案,這些方案覆蓋了從基礎(chǔ)互聯(lián)網(wǎng)技能到人工智能、從數(shù)字創(chuàng)意到科技實(shí)踐的全方位科技教育需求,已經(jīng)服務(wù)了50萬+青少年的科創(chuàng)學(xué)習(xí),與學(xué)生、學(xué)校、教育主管部門、社會各界廣泛鏈接。

可以看到的是,騰訊正在給廣大青少年提供了接觸先進(jìn)科技、提升自身能力的機(jī)會,讓更多孩子能夠受益于科技教育,激發(fā)他們對科技的興趣和創(chuàng)新潛力。

這一系列的培養(yǎng)體系,不僅讓眾多青少年在實(shí)踐中步步找到自己的職業(yè)方向,更是在為整個社會、整個國家培養(yǎng)更多創(chuàng)新型人才。

只有當(dāng)更多的企業(yè)像騰訊一樣,積極投身于人才培養(yǎng)的事業(yè)中,才能為整個科技行業(yè)創(chuàng)造更大的價(jià)值。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章