阿里妈妈流量反作弊算法实践
阿里媽媽是阿里巴巴集團(tuán)旗下商業(yè)數(shù)字營(yíng)銷平臺(tái)。依托阿里巴巴集團(tuán)核心的商業(yè)數(shù)據(jù)和超級(jí)媒體矩陣,為數(shù)百萬的廣告主每年提供上千億金額的廣告服務(wù)。
2020年中國(guó)互聯(lián)網(wǎng)廣告市場(chǎng)規(guī)模達(dá)5292億元,根據(jù)秒針《2020中國(guó)異常流量報(bào)告》顯示,異常流量占比約8.6%。作為全球頂級(jí)廣告平臺(tái),阿里媽媽坐擁價(jià)值逾千億的商業(yè)流量,是黑灰產(chǎn)覬覦的主要目標(biāo)。風(fēng)控團(tuán)隊(duì)的核心工作之一,就是甄別其中作弊、低質(zhì)量的部分,保護(hù)廣告主和平臺(tái)的利益。
一、廣告風(fēng)控流程
下圖是廣告主投放內(nèi)容與風(fēng)控團(tuán)隊(duì)、下游業(yè)務(wù)團(tuán)隊(duì)的簡(jiǎn)易交互流程。廣告素材通過內(nèi)容風(fēng)控審核后,即可以在線上進(jìn)行展示。在展示期間,廣告主可能會(huì)主動(dòng)作弊、也可能受到其他廣告主攻擊。風(fēng)控團(tuán)隊(duì)需要對(duì)無效流量進(jìn)行過濾,保護(hù)廣告主的利益,維護(hù)健康的廣告投放環(huán)境。本文重點(diǎn)介紹在線展示期間,流量、淘客交易場(chǎng)景下的業(yè)務(wù)風(fēng)險(xiǎn)與算法體系。詳細(xì)的解決方案在未來的文章中逐一介紹。
二、無效流量
流量反作弊系統(tǒng)的核心能力就是清洗、過濾無效流量。但是無效流量并不等價(jià)于作弊流量。我們將這部分流量的定義分為2個(gè)層面:
1)低質(zhì)量:重復(fù)點(diǎn)擊計(jì)費(fèi)策略、頻率控制策略、劇烈波動(dòng)策略等;
2)作弊:轉(zhuǎn)化效果概率為0的流量;
作弊流量轉(zhuǎn)化期望概率一定為0,比如爬蟲產(chǎn)生的點(diǎn)擊流量。但后續(xù)實(shí)際頻率為0的流量不一定是作弊。比如新商品累計(jì)1萬點(diǎn)擊后仍沒有轉(zhuǎn)化,只能說頻率為0。不能直接斷定為作弊流量。
常見的無效流量包括:1)消耗競(jìng)爭(zhēng)對(duì)手;2)提升自身排名;3)自然寶貝刷單誤傷廣告主;4)非惡意無效流量。如下圖所示,一名誠(chéng)信投放的廣告主,可能受到多種維度的影響。
2.1 消耗競(jìng)爭(zhēng)對(duì)手
廣告主在設(shè)置投放策略的時(shí)候,通常有預(yù)算限制。一些廣告主,通過構(gòu)造虛假流量,攻擊其他廣告主,消耗預(yù)算致使廣告下架。如原定計(jì)劃可以投放7日的廣告內(nèi)容,在第2天突然被完全消耗。這種情況下,很容易引起受害廣告主的投訴,影響惡劣。
2.2 提升自身排名
廣告排名由出價(jià)和質(zhì)量評(píng)分決定。一些廣告主會(huì)雇傭黑產(chǎn)刷單,提高廣告的轉(zhuǎn)化率。通過低成本獲得靠前的廣告排名。這些作弊利益驅(qū)動(dòng)屬性也很強(qiáng),比較容易被平臺(tái)和相關(guān)廣告主感知到。對(duì)平臺(tái)的影響也較為惡劣。
2.3 自然寶貝刷單
一些廣告主通過雇傭黑產(chǎn)提高店鋪的成交數(shù)、好評(píng)數(shù)、加購(gòu)收藏?cái)?shù)等。刷手為了更好地隱藏自己,往往會(huì)裝作“貨比三家”,查看多個(gè)寶貝信息。該過程偶爾會(huì)誤傷了廣告展示寶貝。這種作弊對(duì)廣告生態(tài)的影響比較弱。感知程度會(huì)偏低一些。此外,人工刷手往往偽裝的更好,在流量甄別上難度比較大。
2.4 非惡意無效流量
除上述帶有惡意的虛假流量。還有非惡意、非薅羊毛的無效流量需要被過濾。比如一些瀏覽器在打開淘寶首頁時(shí),會(huì)預(yù)加載所有的寶貝鏈接后續(xù)跳轉(zhuǎn)網(wǎng)頁。顯然這些是無效流量。又比如,爬蟲或?yàn)g覽器劫持而產(chǎn)生的流量,不應(yīng)該計(jì)入廣告主的費(fèi)用中。
2.5 淘客交易作弊
淘寶聯(lián)盟是阿里媽媽平臺(tái)給淘寶客推廣者搭建的推廣平臺(tái),在淘寶聯(lián)盟后臺(tái)可以完成取鏈、推廣和提現(xiàn)等一系列操作。而淘客交易作弊,不滿足作弊流量轉(zhuǎn)化概率為0的假設(shè)。根據(jù)計(jì)費(fèi)方式不同,常見的2種作弊形式為:1)流量劫持;2)黑灰產(chǎn)淘客拉新。
2.5.1 流量劫持
CPS計(jì)費(fèi)下的主要作弊手法是流量劫持。常見的流量劫持有2種。第一種,是篡改記錄用戶流量來源,將其他淘寶客的拉新流量據(jù)為己有。廣告主會(huì)明顯感知到自然流量變少,拉新流量增加。第二種,是修改用戶跳轉(zhuǎn)鏈接,使得用戶跳轉(zhuǎn)到自己的寶貝頁面。會(huì)導(dǎo)致用戶在不知情的情況下購(gòu)買了另一家店鋪的商品。此時(shí)商家會(huì)在銷量層面有一定感知。
2.5.2 黑灰產(chǎn)淘客拉新
CPA計(jì)費(fèi)下的主要問題是虛假地址。常見的CPA通常發(fā)生在產(chǎn)品拉新中,如用戶注冊(cè)、用戶下單...等。在一些淘寶客拉新場(chǎng)景中,需要拉新用戶完成注冊(cè)、下單等一系列流程。此時(shí)一些淘寶客通過批量注冊(cè),下單廉價(jià)商品來賺取拉新差價(jià)。
除了虛擬類目以外,實(shí)體商品需要填寫明確的收獲地址。由于大量相同地址容易引起商家警覺,真實(shí)非本人地址可能引起快遞機(jī)構(gòu)的投訴,影響其后續(xù)結(jié)算。所以淘寶客往往會(huì)構(gòu)造一些半真半假的虛假地址,用于收貨。因此虛假地址的識(shí)別是該場(chǎng)景下的重點(diǎn)抓手之一。
2.6 下游任務(wù)影響
對(duì)于阿里媽媽來說,虛假流量不單影響著其他廣告主的權(quán)益,同時(shí)影響著阿里生態(tài)的下游業(yè)務(wù)。搜索、推薦、廣告等業(yè)務(wù)的收益,強(qiáng)依賴于其基于用戶行為數(shù)據(jù)的在線學(xué)習(xí)。如:個(gè)性化推薦、點(diǎn)擊率預(yù)估、流量分發(fā)、廣告定價(jià)等。而當(dāng)這些任務(wù)中混入虛假流量時(shí),會(huì)對(duì)其真實(shí)線上的精度造成極大影響。
三、算法實(shí)踐
相比于其他正向業(yè)務(wù),流量反作弊對(duì)于精度的要求尤其高。多過濾導(dǎo)致平臺(tái)收益減少、少過濾引起廣告主投訴,破壞投放生態(tài)。而且業(yè)務(wù)場(chǎng)景對(duì)實(shí)時(shí)返款的訴求越來越強(qiáng)烈,同時(shí)作弊對(duì)抗升級(jí),從集中式、大規(guī)模轉(zhuǎn)向分布式、稀疏化攻擊,識(shí)別難度增大。亟需基于高維異常檢查的新系統(tǒng)能力。為此,我們建立了集異常主動(dòng)感知、人工洞察分析、自動(dòng)處置過濾、客觀評(píng)價(jià)高效循環(huán)一體的風(fēng)控系統(tǒng)。
3.1 感知
在歷史的風(fēng)控體系中,往往是Case驅(qū)動(dòng)的。即遇到問題通過滯后的算法或策略迭代來覆蓋風(fēng)險(xiǎn)。為了提前發(fā)現(xiàn)問題,盡可能減少投訴,凈化投放環(huán)境,我們引入了感知。通過感知捕捉與常見分布不同的數(shù)據(jù),輸出異常列表。
我們將可感知異常流量分為:1)受害者可感知;2)平臺(tái)可感知;3)實(shí)戰(zhàn)攻防可感知;4)假想攻防可感知;5)算法挖掘可感知。
感知是重召回的,但并不是單純?yōu)榱烁嗟卣倩噩F(xiàn)有風(fēng)險(xiǎn)。它設(shè)計(jì)的核心是去感知所有的“異常”。以2020年初為例,由于騎行政策的調(diào)整,售賣頭盔商家的訪問量顯著偏高,連帶著必然影響到點(diǎn)擊率、轉(zhuǎn)化率等一系列指標(biāo)。這些異常是商鋪可感知的,需要被我們捕捉到。但并不屬于作弊流量。所以不會(huì)被流量反作弊系統(tǒng)所過濾。
那感知究竟如何來做呢?以“點(diǎn)擊流量反作弊”來說,作弊一定會(huì)導(dǎo)致點(diǎn)擊量增加。如果可以預(yù)估出一個(gè)商品每天的點(diǎn)擊數(shù)量。則超出該值的點(diǎn)擊一定為作弊。因此流量反作弊感知的核心之一,就是如何在大盤召回率未知的情況下,精準(zhǔn)預(yù)估正常流量值。這部分內(nèi)容在后續(xù)文章中進(jìn)行介紹。
3.2 洞察
為了確認(rèn)感知到的異常流量哪些屬于作弊,分析人員需要進(jìn)行洞察分析。“洞察 ”的目的是從“感知”到的異常中將風(fēng)險(xiǎn)抽離出來,進(jìn)而發(fā)現(xiàn)新的風(fēng)險(xiǎn)模式。我們將洞察分為:1)受害者洞察;2)攻擊者洞察;3)套利漏洞洞察;4)流量實(shí)例洞察。
傳統(tǒng)洞察需要人工挑選可疑特征(如停留時(shí)長(zhǎng)、注冊(cè)時(shí)長(zhǎng)),并與大盤好樣本進(jìn)行比較。如下圖。這就對(duì)領(lǐng)域經(jīng)驗(yàn)有強(qiáng)依賴。而領(lǐng)域?qū)<耶吘故巧贁?shù)。并且隨著作弊越發(fā)高級(jí),單一維度或少量維度下逐漸難以發(fā)現(xiàn)作弊。為此,我們引入了高維數(shù)據(jù)下的可視化洞察分析技術(shù)。
在洞察環(huán)節(jié),首先需要對(duì)樣本進(jìn)行高度抽象表示。如何在高維數(shù)據(jù)中選擇合適的子空間投影,是非常具有挑戰(zhàn)性的課題。后續(xù)文章會(huì)展開介紹。確定合適的子空間后,除了和大盤比較,我們還引入了時(shí)間維度的分布同比,如下圖所示。對(duì)于分布穩(wěn)定的某個(gè)廣告,3月6日降維圖中突然出現(xiàn)明顯不同的一簇(紅圈內(nèi)),很可能是新的異常模式。(圖中“樣本庫(kù)”指最終被識(shí)別為作弊的流量,在3.3節(jié)進(jìn)行介紹)
洞察的難點(diǎn)在于,如何減輕未召回的作弊對(duì)正常分布的污染。比如上圖中藍(lán)色線條內(nèi)部分可能也存在作弊,這時(shí)通過同比就無法發(fā)現(xiàn)異常。如何跳出既有認(rèn)知去召回未知異常模式,以及非常棘手的冷啟動(dòng)問題,這些都是后續(xù)文章的重點(diǎn)內(nèi)容。
3.3 處置
處置,指對(duì)風(fēng)險(xiǎn)進(jìn)行處置。對(duì)于不同的風(fēng)險(xiǎn)實(shí)體、風(fēng)險(xiǎn)類型,會(huì)使用不同的處置方法。
3.3.1 流量反作弊的處置
傳統(tǒng)的算法迭代模式,是根據(jù)洞察分析的結(jié)果,指導(dǎo)規(guī)則、統(tǒng)計(jì)模型為主的無監(jiān)督過濾系統(tǒng)。對(duì)領(lǐng)域經(jīng)驗(yàn)比較依賴,而且效率低下、難以形成沉淀。因此,對(duì)于流量反作弊的處置,我們部署了實(shí)時(shí)流式、小時(shí)批處理雙重防線。其邏輯如下圖所示。
在線實(shí)時(shí)過濾系統(tǒng),綜合了無監(jiān)督、半監(jiān)督的特征工程,以及監(jiān)督的集成(Ensemble)異常檢測(cè)器。相比于單條策略的獨(dú)立決策,集成的容錯(cuò)性更高(召回能力下降,適用于精度高的場(chǎng)景)。例如,PC端反作弊策略依賴于網(wǎng)頁采集的前端行為、鼠標(biāo)點(diǎn)擊行為等,當(dāng)數(shù)據(jù)采集出錯(cuò)時(shí),過渡依賴某一策略將導(dǎo)致大面積誤差。
同時(shí),我們會(huì)盡可能使用更觸及作弊本質(zhì)、更具有魯棒性的特征。和正向業(yè)務(wù)不同,我們不會(huì)在特征設(shè)計(jì)層面,過分聚焦于正樣本的區(qū)分度。比如絕大部分爬蟲流量都是PC端帶來的,“是否是PC”就是一個(gè)極強(qiáng)的特征。但一旦這種作弊沒有繼續(xù)攻擊,模型的效果就大打折扣。因此更多會(huì)使用各個(gè)維度上計(jì)算與Normal分布的偏差、到Normal簇的距離...等。
實(shí)時(shí)過濾系統(tǒng)基本可以解決90%的問題。為了更好地?cái)M合高級(jí)作弊,我們又引入了小時(shí)級(jí)別過濾系統(tǒng),使用開銷更大的特征與更復(fù)雜的模型。而且廣告結(jié)算支持事后返款,可以使用小時(shí)級(jí)結(jié)果對(duì)實(shí)時(shí)流模型進(jìn)行修正,用于結(jié)算與展示。當(dāng)然,處置能力最終收斂于實(shí)時(shí)流過濾系統(tǒng),會(huì)是我們更長(zhǎng)期的追求。
此外,在線實(shí)時(shí)過濾系統(tǒng)可以讓新同學(xué)快速上手迭代其中的組件,將不同同學(xué)的產(chǎn)出解耦,更客觀的評(píng)價(jià)業(yè)務(wù)貢獻(xiàn)。
3.3.2 淘客交易反作弊的處置
對(duì)于過濾系統(tǒng)判定作弊的淘客,我們首先凍結(jié)其傭金。搜集證據(jù)后下達(dá)處罰結(jié)果。并通過“預(yù)估傭金”、“異常特征”來對(duì)待處罰淘客進(jìn)行分級(jí)處置。
此外,傳統(tǒng)的處罰機(jī)制為月結(jié),從媒體開始作弊到下達(dá)處罰有一定延遲。一方面不利于及時(shí)管控風(fēng)險(xiǎn),另一方面會(huì)導(dǎo)致非主觀惡意作弊淘客的強(qiáng)烈反彈,為提升管控的時(shí)效,減少淘客的損失,同時(shí)提升用戶體驗(yàn),我們?cè)谠械脑陆Y(jié)機(jī)制基礎(chǔ)上,增加周/天的處罰機(jī)制。
3.4 評(píng)價(jià)
對(duì)于整個(gè)流量反作弊系統(tǒng),我們有4部分需要評(píng)價(jià):1)在線有監(jiān)督精度;2)在線有監(jiān)督召回;3)離線無監(jiān)督精度;4)離線無監(jiān)督召回。因?yàn)闆]有Ground Truth,為了客觀評(píng)價(jià)在線有監(jiān)督過濾系統(tǒng)的精度與召回,我們建立了離線無監(jiān)督樣本庫(kù)。使用離線無監(jiān)督樣本庫(kù)的最終結(jié)果,作為在線有監(jiān)督系統(tǒng)的Groud truth,就可以評(píng)估其分類效果。但也引入了后面2部分無監(jiān)督評(píng)價(jià)問題。
3.4.1 有監(jiān)督過濾系統(tǒng)的評(píng)價(jià)
在線與離線2者的關(guān)系如下圖所示。基于純無監(jiān)督的挖掘體系,我們的底線是消滅3.2.1中提到的5種可感知異常流量中的作弊流量,終局則是消滅不可感知的作弊流量。通過天級(jí)別的事后信息引入,以無監(jiān)督的方式對(duì)線上實(shí)時(shí)系統(tǒng)過濾結(jié)果進(jìn)行修正,并將標(biāo)簽用于后續(xù)在線監(jiān)督系統(tǒng)學(xué)習(xí)。
基于現(xiàn)有標(biāo)簽的AUC、KS、MAX-F1...等指標(biāo),會(huì)過分高估風(fēng)控模型效果。例如,實(shí)時(shí)模型的AUC很容易高于0.99。然而這其中絕大多數(shù)的樣本都來自于簡(jiǎn)單的爬蟲、或傻瓜式瘋狂點(diǎn)擊,如下圖離散分布的紅點(diǎn)。在更高級(jí)的作弊上AUC可能不足0.8,如下圖紅圈中的樣本。為了更客觀地評(píng)價(jià)模型,我們引入了“樣本庫(kù)分級(jí)”,將“簡(jiǎn)單作弊”與“高級(jí)作弊”區(qū)分開。并通過結(jié)構(gòu)化采樣構(gòu)造封閉評(píng)測(cè)集,指導(dǎo)模型迭代。
3.4.2 無監(jiān)督精準(zhǔn)評(píng)價(jià)
無監(jiān)督系統(tǒng)的精準(zhǔn)與召回評(píng)價(jià)一直是業(yè)內(nèi)的難題。傳統(tǒng)的評(píng)價(jià)方法是通過數(shù)據(jù)抽樣,由專家進(jìn)行標(biāo)注進(jìn)行評(píng)估。效率低下且非常主觀。為此我們借助淘系生態(tài)數(shù)據(jù),為無監(jiān)督系統(tǒng)引入了自動(dòng)化評(píng)價(jià)體系。基于無效流量轉(zhuǎn)化概率為0的假設(shè),通過統(tǒng)計(jì)推斷,得到模型在指定置信度下的精度指數(shù)下限。基于區(qū)間估計(jì)的精度推斷方法,在后續(xù)專題文章中進(jìn)行介紹。
3.4.3 無監(jiān)督召回評(píng)價(jià)
真實(shí)環(huán)境下的召回評(píng)價(jià),是難以定量的。除了大盤抽樣巡檢外,由于引入了完備的感知、洞察體系。將所有的異常流量,均歸納至一個(gè)風(fēng)險(xiǎn)池。無論何時(shí)有需要對(duì)流量進(jìn)行處置(臨時(shí)止血或迭代模型),我們都可以迅速定位到問題根源。于是將安全感最大化。
四、總結(jié)
高維數(shù)據(jù)下的異常檢測(cè)、大規(guī)模圖學(xué)習(xí)、機(jī)器學(xué)習(xí)可解釋性、數(shù)據(jù)可視化方法等,都是我們的重點(diǎn)研究方向。在我們看來,風(fēng)控可能是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域,對(duì)算法魯棒性和解釋性要求最高、精度要求最極致、系統(tǒng)規(guī)模和時(shí)效性挑戰(zhàn)最大、最能用錢衡量的工業(yè)級(jí)業(yè)務(wù)。這就需要我們具備卓越的業(yè)務(wù)數(shù)據(jù)洞察能力、工程架構(gòu)能力,讓研究成果轉(zhuǎn)換成堅(jiān)實(shí)的工業(yè)級(jí)解決方案。
本文重點(diǎn)介紹了我們?cè)诹髁糠醋鞅讏?chǎng)景下所遇到的問題,以及相應(yīng)的解決方案。希望通過這篇文章,可以讓讀者理解我們?cè)诹髁糠醋鞅最I(lǐng)域所遇到的問題,以及解決問題的思路。
阿里媽媽風(fēng)控團(tuán)隊(duì)集合了國(guó)內(nèi)業(yè)界身經(jīng)百戰(zhàn)的“武林高手”們,利用阿里巴巴獨(dú)特的數(shù)據(jù)積累,讓AI的能力在與黑灰產(chǎn)持續(xù)的過招過程中得到進(jìn)化和升華。打造攻守兼?zhèn)涞摹⒂袠O致安全感的智能風(fēng)控體系是我們不懈的追求。期待更多志同道合的同學(xué)加入我們。如有興趣請(qǐng)點(diǎn)擊下方↓↓「閱讀原文」投遞簡(jiǎn)歷。期待與您的交流,感謝閱讀~
END
歡迎關(guān)注「阿里媽媽技術(shù)」,了解更多~
瘋狂暗示↓↓↓↓↓↓↓
總結(jié)
以上是生活随笔為你收集整理的阿里妈妈流量反作弊算法实践的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【阿里妈妈数据科学系列】第二篇:在线分流
- 下一篇: 【阿里妈妈数据科学系列】第三篇:离线抽样