Hulu:视频广告系统中的算法实践
分享嘉賓:韋春陽(yáng) Hulu
編輯整理:Hoh Xil
內(nèi)容來源:AI 科學(xué)前沿大會(huì)
出品社區(qū):DataFun
注:歡迎轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)注明出處
導(dǎo)讀:Hulu 是一家美國(guó)領(lǐng)先的互聯(lián)網(wǎng)專業(yè)視頻服務(wù)平臺(tái),商業(yè)廣告是 Hulu 的重要變現(xiàn)手段之一。視頻網(wǎng)站中的廣告以擔(dān)保合約式品牌廣告為主,本次演講分享了機(jī)器學(xué)習(xí)、人工智能技術(shù)如何在 Hulu 的廣告系統(tǒng)中實(shí)踐落地,如何幫助廣告業(yè)務(wù)更加高效的運(yùn)轉(zhuǎn),介紹了包括精準(zhǔn)廣告定向、廣告流量匹配、廣告庫(kù)存預(yù)估等項(xiàng)目中機(jī)器學(xué)習(xí)算法的應(yīng)用實(shí)踐。
▌概述
首先介紹一下 Hulu 以及 Hulu 的廣告產(chǎn)品形態(tài)。
Hulu 是一家美國(guó)的提供專業(yè)視頻點(diǎn)播與直播的服務(wù)平臺(tái),成立于2006年,目前由迪士尼控股,擁有近3000萬付費(fèi)訂閱用戶,是全美用戶數(shù)量增長(zhǎng)最快的流媒體平臺(tái)。
①?產(chǎn)品形態(tài):點(diǎn)播,直播,回看等;
②?廣告形態(tài):以視頻流中的15秒、30秒的視頻廣告短片為主;
③?廣告特點(diǎn):
以品牌類廣告為主,品牌類廣告看重長(zhǎng)期效果,品牌的曝光度,用戶認(rèn)知等等;
采用 CPM?( Cost Per Mille,千次展示 ) 方式計(jì)費(fèi),即無論用戶是否點(diǎn)擊,按照展示次數(shù)計(jì)價(jià);
以擔(dān)保式廣告訂單為主,廣告主希望其品牌曝光有一定量的保障,例如,某品牌希望在指定地區(qū)給指定用戶群投放指定的次數(shù);
質(zhì)量要求非常高,包括清晰度、創(chuàng)意、制作的精良程度等等。
上面簡(jiǎn)單介紹了 Hulu 和 Hulu 的廣告產(chǎn)品形態(tài),接下來介紹下廣告系統(tǒng)中我們主要面對(duì)的核心算法問題有哪些,以及算法發(fā)揮的主要作用。
廣告生態(tài)系統(tǒng)有三個(gè)核心要素:廣告主,用戶,媒體方 ( Hulu )?。每個(gè)要素都有自己的優(yōu)化目標(biāo)。
廣告主:
廣告主的核心優(yōu)化目標(biāo)是廣告的投放效率、有效性,以及?ROAS?( Return-On-Ad-Spend,廣告支出回報(bào)率 ),算法的主要應(yīng)用為:
①?廣告定向:使用機(jī)器學(xué)習(xí)算法進(jìn)行受眾定向、基于上下文的定向、lookalike 定向等;
② 訂單及價(jià)格優(yōu)化:給廣告主一些訂單定向條件及價(jià)格的建議,使其在 Hulu 上更好的進(jìn)行訂單的購(gòu)買和投放;
③ 轉(zhuǎn)化率優(yōu)化:越來越多的品牌類的廣告主也開始在意短期或者長(zhǎng)期的轉(zhuǎn)化率,使用機(jī)器學(xué)習(xí)方法提高轉(zhuǎn)化率,把正確的廣告投給正確的用戶;
用戶:
對(duì)于用戶的核心優(yōu)化目標(biāo)是優(yōu)化用戶體驗(yàn),盡可能減少?gòu)V告對(duì)用戶的干擾,給用戶更有連貫性的觀看體驗(yàn),算法的主要應(yīng)用為:
① 個(gè)性化廣告:給用戶推薦更感興趣,更相關(guān)的廣告
② 情景式廣告:使用 AI 技術(shù)進(jìn)行圖像音頻的識(shí)別、廣告創(chuàng)意的生成,為用戶帶來浸入式廣告體驗(yàn)
③?個(gè)性化頻次控制:為用戶提供個(gè)性化頻次控制,避免重復(fù)及過量廣告為用戶帶來的反感
媒體方(Hulu):
最終的優(yōu)化目標(biāo):廣告收入最大化,吸引更多的廣告商和用戶;與此同時(shí)我們也會(huì)進(jìn)行生產(chǎn)環(huán)境的工作效率優(yōu)化,算法的主要應(yīng)用為:
① 庫(kù)存預(yù)估:這是在擔(dān)保式廣告里面是一個(gè)必不可少的環(huán)節(jié),在售賣廣告以及做廣告預(yù)算時(shí)發(fā)揮重要作用
② 廣告流量匹配:對(duì)廣告訂單與用戶流量進(jìn)行匹配,保證擔(dān)保式廣告能夠按時(shí)按量且均勻的進(jìn)行投放
③ 定價(jià)策略優(yōu)化:根據(jù)流量的熱門程度及售賣壓力,進(jìn)行動(dòng)態(tài)的定價(jià),讓整個(gè)系統(tǒng)得到一個(gè)收入的最大化。
下圖總結(jié)了在 Hulu 的視頻廣告系統(tǒng)中的核心算法問題,也是我們研究員每天在做的事情:
①?廣告定向,涉及到:
預(yù)估模型:例如用戶標(biāo)簽的補(bǔ)全,構(gòu)建 lookalike 模型等等
主題模型:使用無監(jiān)督方式挖掘用戶屬性
圖像識(shí)別技術(shù):識(shí)別視頻內(nèi)容中物體、場(chǎng)景、氛圍等等,投放上下文相關(guān)視頻廣告
② 庫(kù)存預(yù)估,涉及到:
時(shí)序預(yù)測(cè)算法:庫(kù)存預(yù)估一般被建模成時(shí)序預(yù)測(cè)問題
③?流量匹配,涉及到:
凸優(yōu)化:使用凸優(yōu)化進(jìn)行離線流量匹配
自動(dòng)化控制理論 ( PID Controller ):使用自動(dòng)化控制理論進(jìn)行線上動(dòng)態(tài)調(diào)整
④?轉(zhuǎn)化率優(yōu)化,涉及到:
CVR 預(yù)估模型
Casual Inference ( 因果推斷 ):使用因果推斷,得到一個(gè)更加公正、有效的指標(biāo)來評(píng)估轉(zhuǎn)化是否有效。
Bandit/增強(qiáng)學(xué)習(xí):使用 Bandit 以及增強(qiáng)學(xué)習(xí)的方式來解決廣告冷啟動(dòng)的問題
⑤?程序化交易廣告,涉及到:
RTB ( Real time bidding ) 策略研究
流量預(yù)估/CVR 預(yù)估/投放節(jié)奏控制
⑥?用戶/廣告體驗(yàn)分析,涉及到:
統(tǒng)計(jì)理論
Casual Inference ( 因果推斷 )
⑦?價(jià)格機(jī)制設(shè)計(jì),涉及到:
博弈問題
增強(qiáng)學(xué)習(xí)
▌核心業(yè)務(wù)場(chǎng)景中的算法實(shí)踐
由于篇幅有限,這里著重講一下在三個(gè)比較核心的業(yè)務(wù)場(chǎng)景下,算法在 Hulu 廣告系統(tǒng)中的實(shí)踐與落地。
1.?Ad Targeting 廣告定向
廣告定向在品牌類廣告中,是最最重要的一個(gè)環(huán)節(jié)。
在 Hulu 的場(chǎng)景下,主要有三種類型的廣告定向:
① 上下文相關(guān):例如用戶用的設(shè)備,在什么位置,在哪個(gè)頻道,看什么樣的視頻內(nèi)容,插播廣告點(diǎn)前后的視頻內(nèi)容是什么情景等等。
② 用戶相關(guān):例如用戶年齡性別、用戶基本屬性以及根據(jù)用戶歷史行為挖掘出來的屬性等。
③ 用戶廣告交互相關(guān):
Remarketing ( 再營(yíng)銷 ):例如投放廣告給最近訪問過廣告商網(wǎng)站的用戶,為他加深品牌印象;
Look-alike Targeting ( 相似訪客定向 ):投放廣告給與種子用戶相似的受眾,擴(kuò)大受眾人數(shù),以及挖掘具有潛能的用戶。
下面分別介紹一下針對(duì)這三種類型的廣告定向使用到的核心算法:
a. 用戶相關(guān)定向:
我們構(gòu)建了用戶畫像系統(tǒng)作為用戶定向的基礎(chǔ)。底層是一個(gè)核心用戶平臺(tái),負(fù)責(zé)用戶數(shù)據(jù)的管理,版本控制,每天的 ETL 等等。注入的數(shù)據(jù)來自三種數(shù)據(jù)源:
① 來自第三方數(shù)據(jù)平臺(tái)的用戶標(biāo)簽、屬性,
② Hulu 自己本身的一些標(biāo)簽,這里有兩類工作:
第一類是工作是標(biāo)簽的補(bǔ)全,我們會(huì)用一些例如 XGBoost、DNN 的預(yù)測(cè)模型來對(duì)這些缺失標(biāo)簽的用戶進(jìn)行一個(gè)預(yù)估,得到用戶具有哪些標(biāo)簽,以及概率是多少。
第二類是無監(jiān)督模式,我們從用戶的歷史行為以及其他屬性中進(jìn)行挖掘,挖掘出一些新的屬性出來,會(huì)涉及聚類、主題模型、user2vec 的方式來生成用戶的標(biāo)簽。
③ 廣告商提供的用戶標(biāo)簽,針對(duì)這種標(biāo)簽最常用的就是進(jìn)行 Lookalike 定向,我們會(huì)用機(jī)器學(xué)習(xí)的方式來進(jìn)行預(yù)測(cè),找到與種子用戶相似的用戶群體。
b.?上下文相關(guān)定向:
這里主要介紹一下 AI 在視頻內(nèi)容上下文情景廣告中的應(yīng)用。視頻廣告會(huì)插播在視頻內(nèi)容播放前以及播放中, 投放與視頻上下文情節(jié)比較相關(guān)的廣告,會(huì)減少?gòu)V告對(duì)用戶的干擾,舉個(gè)例子:用戶當(dāng)前所看的是婚禮視頻,如果此時(shí)投放的廣告是珠寶廣告,那就毫無違和感,甚至?xí)て鹩脩舻馁?gòu)買欲望。另外,我們需要探測(cè)視頻中的的一些暴力血腥畫面,在這些地方不適合投放廣告。
這個(gè)問題的核心是使用圖像識(shí)別技術(shù)檢測(cè)出視頻每幀都出現(xiàn)了什么樣的實(shí)體、情景以及氛圍等。Hulu 結(jié)合業(yè)界的標(biāo)準(zhǔn)構(gòu)建了自己的 Taxonomy 體系,分為情緒、物體、場(chǎng)景、位置以及聲音幾個(gè)大的分類。
簡(jiǎn)要介紹一下圖像檢測(cè)大致流程:考慮到獲取大量數(shù)據(jù)樣本的人力物力成本較大,我們最開始會(huì)借助于公開數(shù)據(jù)集 ( 比如 Open Iamge、Places 365等 ),使用 Inception V3、VGG 等模型去生成一些標(biāo)簽,接下來會(huì)根據(jù) Hulu 的場(chǎng)景進(jìn)行少量的人工標(biāo)注,對(duì)模型進(jìn)行 Finetune 以及使用多模型融合決定最終的標(biāo)簽。
c. 轉(zhuǎn)化率優(yōu)化:
雖然品牌類的廣告點(diǎn)擊率沒有那么重要,但是越來越多的廣告商開始和 Hulu 談,我把我的轉(zhuǎn)化數(shù)據(jù)給你,你幫我計(jì)算下我這次投放的轉(zhuǎn)化率是多少。這就帶來了另外一個(gè)問題,廣告商最終還是希望優(yōu)化自己廣告的轉(zhuǎn)化率,所以我們最近開始了這方面的研究。目前開展的研究是基于 Hulu 自己的廣告的轉(zhuǎn)化率優(yōu)化,Hulu 在自己的視頻里面也會(huì)放一些推廣新劇的廣告內(nèi)容,例如一個(gè)15秒的預(yù)告,希望這些廣告能投放給正確的用戶,得到比較高的轉(zhuǎn)化率。這個(gè)問題被建模成為 CVR 預(yù)估的問題,根據(jù)投放數(shù)據(jù)以及轉(zhuǎn)化數(shù)據(jù),通過機(jī)器學(xué)習(xí)來建模用戶看到廣告后的7天內(nèi)、30天內(nèi)的轉(zhuǎn)化率,再投放的時(shí)候把正確的廣告投放給正確的用戶。
轉(zhuǎn)化率優(yōu)化中的特征 & 模型
特征主要分為三塊:
User related:基本的用戶屬性,如位置,活躍度,留存時(shí)間等,以及一些重要的歷史行為,比如曾經(jīng)看過哪些內(nèi)容,搜索過哪些內(nèi)容,收藏過哪些內(nèi)容。
Ad related:廣告本身的屬性,如行業(yè)、劇目本身的信息等等。
User-Ad:用戶這個(gè)廣告看過多少次了,通過多次投放使用戶加深印象。
模型方面我們目前使用了 DIN + FM 模型進(jìn)行建模,同時(shí)也在探索更好的模型優(yōu)化。
d. 廣告定向中不可忽視的問題:因果推斷和共享賬號(hào)
因果推斷
我們?cè)谠u(píng)估廣告轉(zhuǎn)化率的時(shí)候,會(huì)考慮評(píng)估是否正確,廣告是否有效,舉個(gè)例子:假如有一群用戶,不論你對(duì)不對(duì)他投放廣告,他都會(huì)去買這輛車,如果把廣告投放給這樣的用戶,最后評(píng)估廣告的轉(zhuǎn)化率的時(shí)候會(huì)評(píng)估的非常高,其實(shí)廣告效果一般,因?yàn)槟阃恫煌端紩?huì)去買,其實(shí)是白白消耗了這次投放。這就需要引入 Casual Inference 作為評(píng)估指標(biāo),其核心思想是:評(píng)估這個(gè)用戶看這個(gè)廣告和不看這個(gè)廣告的收益分別是怎么樣,最后將兩者之間的差作為評(píng)估指標(biāo),使用 Doubly Robust Estimator 進(jìn)行建模。除此,更加重要的問題是怎么根據(jù) Casual Inference 作為目標(biāo)去進(jìn)行轉(zhuǎn)化率的優(yōu)化,怎么找到這些廣告增益最大的用戶,然后把廣告投放給這些用戶。
共享賬號(hào)
接下來是用戶共享賬號(hào)的問題,例如:一個(gè)賬號(hào),孩子晚上8點(diǎn)左右看動(dòng)畫片,媽媽晚上10點(diǎn)左右看綜藝節(jié)目,爸爸周末看體育視頻,媽媽使用該賬號(hào)的時(shí)候,發(fā)現(xiàn)推薦的都是動(dòng)畫片,找不到自己喜歡看的內(nèi)容。這個(gè)在推薦以及廣告定向中都是非常重要的問題,例如有的廣告商,希望這個(gè)體育類廣告只推薦給家庭中的爸爸,如果是小孩和媽媽看是沒有效果的。
這個(gè)問題規(guī)劃到三個(gè)方面來解決:
① 探測(cè)這個(gè)賬號(hào)背后有多少個(gè)虛擬用戶
② 給每個(gè)虛擬用戶打上標(biāo)簽,預(yù)測(cè)他的行為模式
③ 用戶來到 app 的時(shí)候預(yù)估是哪個(gè)虛擬用戶,推薦對(duì)應(yīng)的廣告和內(nèi)容
這個(gè)問題核心是一些聚類的算法和預(yù)估模型的問題,這也是我們目前正在解決的問題。
2.?Inventory Prediction 流量預(yù)估
流量預(yù)估在擔(dān)保式廣告中是非常重要的環(huán)節(jié),廣告在售賣之前都要檢查是否有足夠多的庫(kù)存余量賣給廣告主,以保證售出的廣告都能夠保量完成投放。
問題簡(jiǎn)單描述為:給定未來的一段時(shí)間,一些定向條件的組合,預(yù)估有多少?gòu)V告流量庫(kù)存。
這個(gè)問題可以建模成時(shí)序預(yù)估的問題,通常有以下兩個(gè)步驟:
第一步:用時(shí)序預(yù)估模型來預(yù)估總的流量是多少;
第二步:根據(jù)歷史分布把流量分配到不同的排列組合,不同的維度上。
Time Series Model
我們目前嘗試過以下三類模型:
第一個(gè)是ARIMA ( Autoregressive Integrated Moving Average model ),穩(wěn)定時(shí)序預(yù)估中最常用的模型,第二個(gè)是來自 Facebook 的 Prophet 模型,第三個(gè)是 LSTM。
ARIMA 作為最為直接簡(jiǎn)單的穩(wěn)定時(shí)序預(yù)估模型,在我們的實(shí)驗(yàn)中,在短期時(shí)序的預(yù)估準(zhǔn)確率很不錯(cuò),但是對(duì)長(zhǎng)期的預(yù)估相對(duì)來說就不那么穩(wěn)定了。原因在于,以下一些因素都會(huì)影響到長(zhǎng)期的廣告流量時(shí)序數(shù)據(jù):
用戶增長(zhǎng)的因素
季節(jié)性的因素
每周的波動(dòng)
節(jié)假日和特殊事件
Prophe 模型是專門為具有這幾種特性的時(shí)序數(shù)據(jù)而設(shè)計(jì)的時(shí)序預(yù)估模型。
Prophet 把時(shí)序數(shù)據(jù)拆成了三部分:趨勢(shì)部分,周期性和季節(jié)性部分,節(jié)假日部分,每一部分會(huì)單獨(dú)做預(yù)測(cè)模型,最后合到一起得到最終的預(yù)測(cè)結(jié)果。
例如,上圖為 Prophet 模型產(chǎn)生的幾種因素的分解:左上角為趨勢(shì),左下角為節(jié)假日,右邊為季度性,分別為每個(gè)月和每周的變化,可以觀察到淡季和旺季的變化。目前,我們采用的是 Prophet 模型,在 Hulu 的廣告流量預(yù)估問題上表現(xiàn)穩(wěn)健。
3.?Inventory Allocation 流量匹配
流量匹配在擔(dān)保式廣告的投放環(huán)節(jié)發(fā)揮著重要的作用,保證所有廣告訂單都可以按時(shí)按量并且節(jié)奏均勻的投放完成。
流量匹配算法會(huì)分為以下幾個(gè)步驟:
第一步,把廣告訂單的投放目標(biāo)拆分到每個(gè)小時(shí),這個(gè)拆分會(huì)根據(jù)我們預(yù)估的流量和緊俏程度來進(jìn)行分配;
第二步,進(jìn)行 Offline Solving,把問題建模成一個(gè)二步圖匹配算法,然后使用優(yōu)化算法進(jìn)行壓縮解的求解;
第三步,進(jìn)行線上調(diào)控,采用 PID ( Proportion Integration Differentiation ) 控制,根據(jù)真實(shí)的流量實(shí)時(shí)進(jìn)行調(diào)控。
第一個(gè)步驟比較簡(jiǎn)單,下面簡(jiǎn)單介紹一下第二、三步中具體用到的算法。
在離線匹配中,我們把問題建模成一個(gè)二部圖匹配問題。
在廣告中最主要有 SUPPLY 與 DEMAND 端的兩個(gè)限制條件:上圖中左邊? SUPPLY 表示用戶帶來的流量,流量上會(huì)有一些標(biāo)簽,表示用戶及廣告位的屬性,右邊 DEMAND 表示廣告商的訂單,訂單上也會(huì)有些屬性,比如投給男性,或者某個(gè)地區(qū)的;SUPPLY 與 DEMAND 之間的連線表示這個(gè)廣告位可以投放的廣告。SUPPLY 端的限制條件為最多只有這么多的庫(kù)存可以使用,DEMAND 端的限制條件為需要將每個(gè)廣告訂單都保量投放完成。
之后可以根據(jù)二部圖建模優(yōu)化問題,求解目標(biāo)是每個(gè)邊的權(quán)重,表示該流量以多大的比例分配給某個(gè)廣告訂單。
首先會(huì)將原始優(yōu)化問題轉(zhuǎn)化為拉格朗日對(duì)偶問題,求解得到對(duì)偶變量 αj?和 βj,表示的分別是廣告的對(duì)偶變量和流量的對(duì)偶變量。根據(jù)最優(yōu)解滿足 KKT 條件,我們可以只將相對(duì)數(shù)量級(jí)較低的廣告對(duì)偶變量 αj?記下來,提高存儲(chǔ)效率,線上再根據(jù) KKT 條件計(jì)算 βj?和 xij。αj?可以被看做各個(gè)訂單重要程度影響因子,作為線上選擇訂單的權(quán)重。
但是這里還是存在一個(gè)問題,這里全部都是用的預(yù)估的流量和訂單來進(jìn)行匹配,但實(shí)際上會(huì)發(fā)生一些變化。所以需要第三步,線上實(shí)時(shí)調(diào)控。第一可以保證適應(yīng)真實(shí)的線上流量, 第二也可以進(jìn)一步保證投放節(jié)奏的穩(wěn)定性。一般使用 PID ( Proportion Integration Differentiation ) 控制技術(shù),這是常用于機(jī)械、電氣系統(tǒng)中的一種應(yīng)用非常廣泛的自動(dòng)控制技術(shù),分為比例調(diào)節(jié)、積分調(diào)節(jié)、微分調(diào)節(jié)這3項(xiàng)的調(diào)節(jié),根據(jù)線上廣告真實(shí)投放的快慢來調(diào)控接下來應(yīng)該投放的速度。
----------
以上就是今天的所有內(nèi)容了,由于篇幅有限,計(jì)算廣告以及視頻廣告系統(tǒng)中很多涉及到的算法沒有辦法一一覆蓋,也有很多更有挑戰(zhàn)的算法問題亟待研究員和算法工程師們來一一解決。本篇文章作為拋磚引玉,歡迎同行進(jìn)行探討指正。另外,對(duì)廣告算法感興趣、想要了解算法如何在商業(yè)化中落地、想要見證算法如何變現(xiàn)、想要解決具有挑戰(zhàn)性問題的同學(xué),歡迎聯(lián)系:
chunyang.wei@hulu.com
嘉賓介紹
韋春陽(yáng),2012年從北京大學(xué)碩士畢業(yè)后加入 Hulu,目前擔(dān)任智能廣告算法團(tuán)隊(duì)負(fù)責(zé)人。有7年的計(jì)算廣告領(lǐng)域的從業(yè)經(jīng)驗(yàn),致力于利用機(jī)器學(xué)習(xí)、人工智能技術(shù)來推動(dòng) Hulu 廣告業(yè)務(wù)的發(fā)展,負(fù)責(zé)包括精準(zhǔn)廣告定向、廣告流量匹配、廣告庫(kù)存預(yù)估、廣告轉(zhuǎn)化率優(yōu)化等項(xiàng)目。
總結(jié)
以上是生活随笔為你收集整理的Hulu:视频广告系统中的算法实践的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: resource failed to c
- 下一篇: 解决vs编译后运行提示“系统找不到指定的