首頁(yè) > AI資訊 > 最新資訊 > 與1500多支國(guó)內(nèi)外隊(duì)伍同臺(tái)競(jìng)技,快手在NeurIPS2024頂級(jí)大賽中上演雙殺

與1500多支國(guó)內(nèi)外隊(duì)伍同臺(tái)競(jìng)技,快手在NeurIPS2024頂級(jí)大賽中上演雙殺

新火種    2024-12-18

這幾天,學(xué)術(shù)圈的小伙伴肯定都很關(guān)注正在加拿大溫哥華舉辦的機(jī)器學(xué)習(xí)頂會(huì)——NeurIPS 2024。本屆會(huì)議于今日落下帷幕,共接收 15671 篇有效論文投稿,比去年增長(zhǎng)了 27%,最終接收率為 25.8%。

本屆會(huì)議上同樣值得關(guān)注的,還有一項(xiàng)重要的賽事,它就是「NeurIPS 2024 Auto-Bidding in Large-Scale Auctions」(大規(guī)模拍賣中的自動(dòng)出價(jià)),旨在探索當(dāng)前火熱的強(qiáng)化學(xué)習(xí)、生成模型、Agent 等前沿 AI 技術(shù)在廣告投放以及決策智能場(chǎng)景的應(yīng)用。

該賽事不僅是業(yè)內(nèi)首次廣告出價(jià)比賽,也是 NeurIPS 2024 唯一的搜廣推比賽,可以說規(guī)格和含金量都很高,也因此收獲了超高的熱度,吸引超過 1500 支隊(duì)伍參賽,其中不乏國(guó)內(nèi)外知名高校和公司、專業(yè)研究機(jī)構(gòu)以及決策智能領(lǐng)域知名團(tuán)隊(duì)的身影。

圖片 

賽事主頁(yè):https://tianchi.aliyun.com/specials/promotion/neurips2024_alimama#/

簡(jiǎn)單來說,在比賽中,參賽者扮演自動(dòng)出價(jià) Agent(即廣告主),在大規(guī)模拍賣環(huán)境下與其他 47 個(gè)競(jìng)爭(zhēng)對(duì)手對(duì)抗,作出有效的出價(jià)決策,并在滿足投放需求的情況下幫助廣告主最大化投放效果。

圖片

從①到⑤為典型廣告平臺(tái)的自動(dòng)出價(jià)全流程。

此次比賽分為了兩個(gè)賽道,分別是通用賽道和AIGB(AI-Generated Bidding)賽道。兩個(gè)賽道側(cè)重點(diǎn)各有不同,對(duì)參賽隊(duì)伍提出了不同的技術(shù)要求,其中:

通用賽道關(guān)注不確定環(huán)境中的自動(dòng)出價(jià),需要解決數(shù)據(jù)稀疏性、轉(zhuǎn)化方差、多坑等不確定問題;

AIGB 賽道使用生成模型來學(xué)習(xí)自動(dòng)出價(jià) Agent,需要采用生成模型來端到端輸出決策。

算起來,自今年 6 月底注冊(cè)階段開始,經(jīng)過了近半年的激烈角逐,比賽終于決出了勝負(fù)!

快手商業(yè)化算法團(tuán)隊(duì)(簡(jiǎn)稱快手團(tuán)隊(duì))從千余支隊(duì)伍中脫穎而出,包攬了兩個(gè)賽道的第一名,成為本次賽事最大贏家。

圖片

奪冠方案自動(dòng)出價(jià)服務(wù)是國(guó)內(nèi)外各廣告平臺(tái)的基礎(chǔ)組成模塊,有眾多的業(yè)界實(shí)踐和研究工作。此次比賽任務(wù)基于一個(gè)簡(jiǎn)化版本的 Target CPA,并將 CPA 定義為平均轉(zhuǎn)化成本。參賽者需要設(shè)計(jì)和實(shí)現(xiàn)一個(gè)自動(dòng)出價(jià) Agent。給定廣告主 j 的預(yù)算 B 和目標(biāo) CPA C,該自動(dòng)出價(jià) Agent 在一個(gè)廣告投放周期內(nèi)對(duì) N 個(gè)展現(xiàn)機(jī)會(huì)進(jìn)行競(jìng)價(jià),目標(biāo)是在保證最終實(shí)現(xiàn)的 CPA 不大于 C 的前提下,最大化總轉(zhuǎn)化量。具體來說,所有展現(xiàn)機(jī)會(huì)按順序到達(dá),出價(jià) Agent 依次對(duì)每個(gè)機(jī)會(huì)進(jìn)行競(jìng)價(jià)。對(duì)于每個(gè)機(jī)會(huì) i:出價(jià):自動(dòng)出價(jià) Agent 出價(jià)圖片,同時(shí)其他競(jìng)爭(zhēng)廣告主利用他們的單獨(dú)的出價(jià) Agent 出價(jià)圖片,來競(jìng)爭(zhēng) 3 個(gè)廣告坑位。其中,出價(jià)會(huì)依賴轉(zhuǎn)化概率值,圖片定義為廣告主 j 的廣告曝光給用戶時(shí)的轉(zhuǎn)化動(dòng)作概率,圖片定位為預(yù)估的標(biāo)準(zhǔn)差。拍賣:廣告平臺(tái)運(yùn)行 GSP(Generalized Second Price)拍賣機(jī)制,按照出價(jià)從高到低依次分配 3 個(gè)到坑位上,獲勝者按照下一位出價(jià)進(jìn)行扣費(fèi)。拍賣結(jié)果會(huì)返回給出價(jià) Agent,其中圖片表示是否獲勝,圖片表示贏得的廣告坑位,圖片表示需要支付的費(fèi)用。圖片不僅取決于圖片還取決于圖片。展現(xiàn):廣告坑位圖片是否曝光給用戶由隨機(jī)變量圖片決定,其中圖片是廣告坑位圖片的曝光概率。實(shí)際是否發(fā)生轉(zhuǎn)化也是一個(gè)隨機(jī)變量,定義為圖片,其中圖片圖片為預(yù)估標(biāo)準(zhǔn)差。如果廣告坑位未曝光,廣告主無需支付費(fèi)用,轉(zhuǎn)化也不會(huì)發(fā)生。因此,這個(gè)任務(wù)可以形式化如下:圖片最終實(shí)現(xiàn)的 CPA 定義為:圖片自動(dòng)出價(jià) Agent 的目標(biāo)是在滿足廣告主設(shè)定的 CPA 約束情況下最大化轉(zhuǎn)化量。具體的評(píng)估指標(biāo)定義如下:圖片其中,圖片對(duì)應(yīng)優(yōu)化目標(biāo)最大化轉(zhuǎn)化圖片,在超成本即實(shí)際 CPA > C 時(shí),P (CPA; C) < 1,會(huì)對(duì)轉(zhuǎn)化進(jìn)行降權(quán)。總體來說,這項(xiàng)比賽不僅可以促進(jìn)決策技術(shù)的突破,而且還將給行業(yè)應(yīng)用場(chǎng)景帶來啟發(fā)。我們來看下快手是如何在通用和 AIGB 兩個(gè)賽道拔得頭籌的。通用賽道現(xiàn)實(shí)世界中,復(fù)雜的廣告拍賣環(huán)境往往會(huì)帶來額外的挑戰(zhàn),特別是不確定性。因此,通用賽道要求參賽者在大規(guī)模拍賣中做出有效競(jìng)價(jià)決策,需要有效感知競(jìng)爭(zhēng)對(duì)手策略的變化。參賽者必須考慮客戶到達(dá)的隨機(jī)性、轉(zhuǎn)化預(yù)測(cè)的方差、數(shù)據(jù)稀疏性和其他因素。這就需要在離線規(guī)劃最優(yōu)解的基礎(chǔ)上,自適應(yīng)在線競(jìng)價(jià)過程,以獲得更優(yōu)出價(jià)序列。快手團(tuán)隊(duì)創(chuàng)新地提出了一種基于強(qiáng)化學(xué)習(xí)的在線探索技術(shù)方案,巧妙地解決了該問題。首先,考慮多坑特點(diǎn),快手團(tuán)隊(duì)基于競(jìng)勝率以及多坑的曝光率將問題建模成約束優(yōu)化問題,并基于該問題的對(duì)偶問題求解出離線最優(yōu)出價(jià)系數(shù),得到最優(yōu)出價(jià)形式。然后,快手團(tuán)隊(duì)建模出價(jià)系數(shù)和未來預(yù)期消耗以及預(yù)期轉(zhuǎn)化的關(guān)系,并且為了解決不確定性問題,在建模時(shí)綜合考慮了稠密的先驗(yàn)轉(zhuǎn)化以及稀疏的后驗(yàn)轉(zhuǎn)化。最后,為了適應(yīng)在線環(huán)境的不確定性,快手團(tuán)隊(duì)提出基于強(qiáng)化學(xué)習(xí)的在線搜索方案:首先搭建一個(gè)競(jìng)價(jià)模擬器環(huán)境,能夠?qū)W習(xí)不同出價(jià)對(duì)應(yīng)的序列長(zhǎng)期價(jià)值;然后基于離線最優(yōu)出價(jià)系數(shù)劃定一個(gè)區(qū)間進(jìn)行采樣,最后挑選出價(jià)值最優(yōu)的動(dòng)作(action)作為最終的出價(jià)系數(shù)。圖片 結(jié)合最優(yōu)化理論和強(qiáng)化學(xué)習(xí)在線搜索。AIGB 賽道相比于通用賽道,AIGB 賽道面向一種全新的迭代范式。由于生成模型,包括擴(kuò)散模型(Diffusion Model)、決策 Transformer(Decision Transformer)、大型語(yǔ)言模型(LLM),在語(yǔ)言、視覺等領(lǐng)域體現(xiàn)出算力和數(shù)據(jù)的 scaling law,并且在決策任務(wù)中表現(xiàn)出了巨大的潛力,因此 AIGB 賽道要求采用生成模型,將自動(dòng)出價(jià)建模為生成式序列決策問題,探索生成模型用于出價(jià)問題的機(jī)會(huì)。在 AIGB 賽道,一個(gè)首先要解決的問題是選擇模型架構(gòu)。序列決策領(lǐng)域有擴(kuò)散模型和決策 Transformer 兩大類。參賽者面臨在競(jìng)爭(zhēng)性游戲中做出長(zhǎng)期戰(zhàn)略決策的關(guān)鍵挑戰(zhàn),眾多競(jìng)爭(zhēng)對(duì)手的策略會(huì)快速發(fā)生變化,以 DiffBid 為代表的擴(kuò)散模型方案存在兩個(gè)不足:

優(yōu)化目標(biāo)對(duì)齊能力弱:一次性生成一條序列,序列之間約束較弱,甚至學(xué)不出剩余預(yù)算單調(diào)遞減這一性質(zhì);

訓(xùn)練效率低:是兩階段范式,首先預(yù)測(cè)狀態(tài)序列 {s_{t+1},s_{t+2},...,s_{T}},然后根據(jù) {s_t,s_{t+1}} 預(yù)測(cè)最終出價(jià),訓(xùn)練較為復(fù)雜。

而決策 Transformer 建模長(zhǎng)期價(jià)值 return to go(RTG),直接預(yù)測(cè)出價(jià),相比于 DiffBid 具有和目標(biāo)對(duì)齊能力更強(qiáng)、訓(xùn)練更簡(jiǎn)單的優(yōu)勢(shì)。然而,快手團(tuán)隊(duì)發(fā)現(xiàn):決策 Transformer 模型的學(xué)習(xí)機(jī)制是模仿學(xué)習(xí),難以學(xué)習(xí)到超出數(shù)據(jù)集的出價(jià)策略。因此,他們考慮在策略學(xué)習(xí)時(shí)探索更優(yōu)的出價(jià)系數(shù),增強(qiáng)模型學(xué)習(xí),但簡(jiǎn)單的探索很容易導(dǎo)致離線強(qiáng)化學(xué)習(xí)的分布外(Out Of Distribution,OOD)問題。為了解決這個(gè)問題,快手團(tuán)隊(duì)從決策 Transformer 的本質(zhì)出發(fā),即決策 Transformer 根據(jù) RTG 生成對(duì)應(yīng)的出價(jià)系數(shù),下一時(shí)刻的高 RTG 出價(jià)系數(shù)(長(zhǎng)期價(jià)值)需要有更大的生成概率。有了這個(gè)關(guān)鍵認(rèn)知,快手團(tuán)隊(duì)提出一種 RTG 引導(dǎo)的出價(jià)系數(shù)探索方案——Decision Transformer with RTG-driven Explorations,保證探索性的同時(shí)兼顧安全性,從而增強(qiáng)模型學(xué)習(xí)。圖片 Decision Transformer with RTG-driven Explorations簡(jiǎn)單來說,Decision Transformer with RTG-driven Explorations 方案主要包括如下步驟:

首先訓(xùn)練模型預(yù)估下一時(shí)刻的 RTG,具備評(píng)估探索的出價(jià)系數(shù)好壞的能力。

每個(gè) timestep 額外預(yù)測(cè)一個(gè)基于原始出價(jià)系數(shù)圖片探索新的出價(jià)系數(shù)圖片,鼓勵(lì)模型探索下一時(shí)刻 RTG 更高的出價(jià)系數(shù)。

模型朝著原始出價(jià)系數(shù)和探索到的出價(jià)系數(shù)中更優(yōu)的出價(jià)系數(shù)更新,避免 OOD 問題。

廣告收入提升 5%+基于 RL 的自動(dòng)出價(jià)在業(yè)務(wù)側(cè)開始發(fā)力說起來,廣告投放的目的其實(shí)很簡(jiǎn)單,以企業(yè)或商家為主的廣告主選擇合適的廣告平臺(tái),將廣告?zhèn)鬟f給受眾(即消費(fèi)者)。但實(shí)現(xiàn)起來需要考慮的因素就多了,比如針對(duì)同一廣告位展開競(jìng)爭(zhēng)出價(jià)、投放預(yù)算與實(shí)際投放成本、投放收益等。這就要求廣告主進(jìn)行全方位權(quán)衡,其中動(dòng)態(tài)調(diào)整出價(jià)是控制廣告成本和提升廣告收入的關(guān)鍵一環(huán)。而作為廣告投放平臺(tái),快手也在廣告推薦、預(yù)算分配策略、效果預(yù)估以及尤為重要的自動(dòng)出價(jià)調(diào)整等層面進(jìn)行算法上的優(yōu)化升級(jí),更好地服務(wù)于客戶的同時(shí)增加自身廣告收入。從縱向來看,快手的出價(jià)算法經(jīng)歷了從 PID、MPC 到強(qiáng)化學(xué)習(xí)(RL)的「三代」演化路徑,技術(shù)上的持續(xù)迭代更新帶來了廣告投放效果的節(jié)節(jié)提升。第一代出價(jià)算法 PID(被動(dòng)反饋式控制)包含了三個(gè)關(guān)鍵的控制參數(shù):比例(Proportional)、積分(Integral)和微分(Derivative)。該算法可以通過動(dòng)態(tài)調(diào)整出價(jià)來很好地將廣告平均成交價(jià)穩(wěn)定在目標(biāo)成交價(jià),但不足的點(diǎn)在于對(duì)未來消耗和預(yù)期消耗沒有預(yù)估和規(guī)劃。第二代出價(jià)算法 MPC,它的全稱為 Model Predictive Control,引入了對(duì)未來的預(yù)測(cè),在對(duì)出價(jià)與未來消耗、成本的關(guān)系進(jìn)行建模的基礎(chǔ)上可以做出更精準(zhǔn)的出價(jià)規(guī)劃。不過,該算法建模能力較弱,也無法做出多步長(zhǎng)期決策。到了強(qiáng)化學(xué)習(xí)階段,包括出價(jià)、成本、用戶行為在內(nèi)各個(gè)變量的建模能力大大加強(qiáng),并對(duì)序列整體長(zhǎng)期價(jià)值進(jìn)行優(yōu)化。通過不斷與環(huán)境互動(dòng),強(qiáng)化學(xué)習(xí)算法可以根據(jù)實(shí)時(shí)市場(chǎng)環(huán)境變化調(diào)整出價(jià),并能夠預(yù)估長(zhǎng)期廣告效果以做出更精確的出價(jià)決策。相較于 PID、MPC,強(qiáng)化學(xué)習(xí)算法在動(dòng)態(tài)決策、處理復(fù)雜環(huán)境與競(jìng)爭(zhēng)行為、多目標(biāo)優(yōu)化、應(yīng)對(duì)不確定性與數(shù)據(jù)稀缺、長(zhǎng)期收益優(yōu)化等多個(gè)方面都占優(yōu)。此外,面對(duì) OOD 問題,快手在算法選型上采用了離線強(qiáng)化學(xué)習(xí)算法,緩解了訓(xùn)練數(shù)據(jù)集不足帶來的問題,可以更穩(wěn)健地進(jìn)行決策,降低策略失效的風(fēng)險(xiǎn);快手又搭建離線模擬環(huán)境,優(yōu)化出價(jià)策略并驗(yàn)證效果,確保在線策略的安全性、有效性和穩(wěn)健性,降低高風(fēng)險(xiǎn)決策可能造成的損失。目前,基于強(qiáng)化學(xué)習(xí)的自動(dòng)出價(jià)模型已經(jīng)在快手廣告系統(tǒng)全量推全,在成本達(dá)標(biāo)不降約束下取得了5% 以上的廣告收入提升。消融實(shí)驗(yàn)也證明了:收益來自于模型泛化以及強(qiáng)化學(xué)習(xí)最大化序列價(jià)值建模。通過此次大賽,快手看到生成模型(如 Decision Transformer)在廣告出價(jià)場(chǎng)景中的應(yīng)用潛力。雖然相較于強(qiáng)化學(xué)習(xí)在最大化序列整體價(jià)值方面存在短板,但對(duì)序列數(shù)據(jù)的擬合能力更強(qiáng),因此二者的有效結(jié)合可能是下一代更強(qiáng)出價(jià)模型的演化方向。同時(shí),快手也暢想借鑒 o1 思想,通過 Monte-Carlo Tree Search(MCTS)技術(shù)搜索不同出價(jià)序列,挑選出最優(yōu)路徑,在多輪決策和推理過程中優(yōu)化出價(jià)策略。奪冠背后是 AI 技術(shù)的厚積薄發(fā)此次 NeurIPS 2024 大賽,真正詮釋了快手商業(yè)化算法團(tuán)隊(duì)的 AI 技術(shù)積累以及在實(shí)際業(yè)務(wù)中經(jīng)受考驗(yàn)的信心。從確定參賽、前期準(zhǔn)備, 到練習(xí)輪(Practice Round)、再到正式比賽(Official Round),參賽成員在幾個(gè)月的時(shí)間里,攻克了不少的難關(guān),這才有了最終的雙賽道奪冠。參賽成員來自清華大學(xué)、香港中文大學(xué)、香港城市大學(xué)、南洋理工大學(xué)等國(guó)內(nèi)外名校。在談到此次最大的收獲時(shí),他們表示對(duì)幾類出價(jià)算法(包括最優(yōu)化理論、強(qiáng)化學(xué)習(xí)和生成模型)的優(yōu)劣有了定性和定量的分析,并對(duì)未來出價(jià)技術(shù)的演進(jìn)做出清晰的判斷。而且,此次比賽提出的創(chuàng)新點(diǎn)在快手的廣告業(yè)務(wù)中也得到了初步驗(yàn)證。據(jù)了解,作為快手核心算法部門,商業(yè)化算法團(tuán)隊(duì)負(fù)責(zé)快手國(guó)內(nèi)及海外多場(chǎng)景的變現(xiàn)算法研發(fā),著力構(gòu)建領(lǐng)先的廣告變現(xiàn)算法,通過算法驅(qū)動(dòng)商業(yè)營(yíng)銷增長(zhǎng),優(yōu)化用戶和客戶體驗(yàn)。團(tuán)隊(duì)依托快手實(shí)際業(yè)務(wù)問題,產(chǎn)出頂會(huì)論文覆蓋 KDD、ICLR、NeurIPS、CVPR 等多個(gè)領(lǐng)域的國(guó)際會(huì)議,還先后斬獲 CIKM Best Paper、SIGIR Best Paper 提名獎(jiǎng)、錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)。在 AI 技術(shù)層面的硬實(shí)力,是他們此次奪冠的最大底氣。作為一家以人工智能為核心驅(qū)動(dòng)和技術(shù)依托的科技公司,快手已經(jīng)看到了以技術(shù)為引擎、輔以算法在推動(dòng)業(yè)績(jī)?cè)鲩L(zhǎng)方面的巨大價(jià)值。未來,快手將繼續(xù)探索強(qiáng)化學(xué)習(xí)、生成模型等 AI 技術(shù)在廣告出價(jià)以及更廣泛業(yè)務(wù)場(chǎng)景的落地。屆時(shí)又會(huì)帶來哪些驚喜,我們拭目以待。
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章