CIKM 2021 | 图模型在广告检索(Ad Retrieval)中的应用
??1. 摘要
圖模型能夠有效的挖掘數(shù)據(jù)中的關(guān)系信息來增強數(shù)據(jù)表示,在研究和工業(yè)領(lǐng)域都被廣泛應(yīng)用。阿里媽媽搜索廣告技術(shù)團隊于2019年開源了工業(yè)界首個支持大規(guī)模分布式的深度圖學(xué)習(xí)平臺Euler(https://github.com/alibaba/euler),被業(yè)界廣泛使用(Github Star:2.7K)。基于Euler框架,我們進行了在不同算法模塊的多版算法迭代升級,本文針對電商檢索系統(tǒng)中海量用戶行為以及多視圖并存(如共同點擊、共同競買或文本相似等)帶來的挑戰(zhàn),我們將介紹在搜索廣告檢索模塊(ad retrieval)中的一種可擴展的多視圖廣告圖匹配引擎(SMAD)。利用電商商品體系的類目樹結(jié)構(gòu),我們提出了一種類目相關(guān)性約束下的圖采樣和分割算法,可以實現(xiàn)大規(guī)模圖的分布式訓(xùn)練;同時,為了更好的捕捉多視圖結(jié)構(gòu),我們提出了一種并行的多視圖訓(xùn)練模型,可以將不同視圖下的信息有機融合起來。在阿里搜索廣告場景中,該方法在相關(guān)性、覆蓋率和平臺營收等指標上均取得了明顯的效果。該項工作論文發(fā)表在 CIKM 2021 ,歡迎交流討論。
??2. 引言
在電商搜索平臺中,用戶通過搜索詞(Query)來反映其意圖,平臺會給用戶返回一系列產(chǎn)品,包括廣告(Ad)和自然商品(Item)。為了平衡效率和效果,如圖(1)左下所示,業(yè)界搜索系統(tǒng)通常采用多階段的搜索架構(gòu):首先使用簡單高效的模型從大規(guī)模的廣告候選集中檢索出更小規(guī)模的相關(guān)的廣告(廣告檢索模塊,ad retrieval),然后使用更加復(fù)雜精細的模型對檢索出廣告進行排序(排序模塊,ad ranking)。在本文中,針對廣告檢索模塊,我們提出使用圖嵌入技術(shù)來得到 Query 和 Ad 的表征,并通過 ANN(Approximate Nearest Neighbor)來檢索相關(guān)廣告,保證計算效率的同時使用圖模型的表征能力優(yōu)勢提升匹配效果。
圖(1):淘寶搜索廣告系統(tǒng)架構(gòu),包含了廣告檢索和廣告排序兩個階段。在廣告檢索階段,我們提出了SMAD檢索算法,通過圖學(xué)習(xí)的方式來學(xué)習(xí)用戶搜索和廣告之間的匹配關(guān)系。然而,直接將傳統(tǒng)的圖嵌入方法[2, 4-8]應(yīng)用于電商搜索廣告中的檢索任務(wù),會遇到可擴展性和相關(guān)性下降的問題。考慮到工業(yè)場景下具有數(shù)十億規(guī)模的節(jié)點(Query、Item 和 Ad),因此需要多臺機器來存儲圖數(shù)據(jù),從而產(chǎn)生較高的通信成本。此外,在全圖上進行隨機游走可能導(dǎo)致相關(guān)性下降,例如,一個 Query 節(jié)點“連衣裙”和一個連衣裙相關(guān)的Ad節(jié)點有共同點擊連邊,而后者與“毛衣”相關(guān)的商品也具有共同點擊關(guān)系(例如,在同一個 Query “女裝”下),現(xiàn)有的方法[3,7]因為沒有限制從“連衣裙”到“毛衣”的隨機游走路徑從而無法保證相關(guān)性。此外,在類似淘寶的電商平臺,在 Query 和 Item/Ad 之間有多種類型的關(guān)系,例如共同點擊,文本相似等等,可以把每種關(guān)系將節(jié)點關(guān)聯(lián)起來的圖看成是一種“視圖”(view),單獨視圖通常都是稀疏和有偏的,需要對多視圖進行融合來實現(xiàn)互補。同時,淘寶上有數(shù)十種節(jié)點屬性,包括類目、品牌、店鋪等,充分利用這些信息可以提升模型的泛化能力。因此,我們希望設(shè)計一種方法能夠有效利用豐富的節(jié)點屬性和多視圖信息來提升模型效果。
在本文,我們提出了一個新穎的廣告檢索框架,即可擴展的多視圖廣告檢索(Scalable multi-view ad retrieval,SMAD),并已在淘寶廣告的生產(chǎn)環(huán)境中部署。其創(chuàng)新之處包括以下三個方面:
首先,我們提出利用電商系統(tǒng)中的類目樹以及圖的聚集性來進行游走和采樣。在電商平臺中,每個節(jié)點(Query/Item/Ad)均會被分配到類目樹中的某一個節(jié)點(如圖(2)所示)。為了尊重用戶的搜索意圖,Query 和 Ad 應(yīng)該在同一個子類目下進行匹配。具體地,SMAD 通過類目樹的性質(zhì)來進行子圖內(nèi)鄰居搜索,這種簡單有效的策略能顯著提升通信和計算效率,同時能夠增強 Query 和 Ad 之間的相關(guān)性。
圖(2):類目樹示例,搜索詞”實木北歐床”隸屬于“住宅家具”的子類“床類”的子類“實木床”其次,我們提出了一個有效的并行深度神經(jīng)網(wǎng)絡(luò)(Parallel deep Neural Network,PNN)架構(gòu)來從節(jié)點豐富的屬性和節(jié)點間多視圖關(guān)系中學(xué)習(xí)到節(jié)點表示信息。具體地,它對每個關(guān)系視圖學(xué)習(xí)一個DNN表示,根據(jù)節(jié)點在不同視圖中的特征和相關(guān)程度來學(xué)習(xí)特定視圖下的節(jié)點表征,最后使用注意力機制將同一個節(jié)點的多個視圖表征融合為一個更加魯棒的表征。
最后,我們提出了一個高效的分布式模型部署方案,該模型將大規(guī)模圖分解為多個較小的子圖,并可以獨立地在本地運行,從而實現(xiàn)訓(xùn)練的并行化。我們將 SMAD 部署在淘寶的無線廣告搜索平臺中,并通過離線和在線A/B測試來表明我們的系統(tǒng)可以顯著提高廣告檢索性能以及提升平臺收入和用戶體驗。
??3. SMAD模型訓(xùn)練和應(yīng)用
圖(1)左上展示了 SMAD 在 Query 和 Ad 之間進行匹配的流程。它首先從用戶的歷史行為以及 Query 和 Item 的文本描述中構(gòu)建一個多視圖的 Query-Item-Ad 關(guān)系圖,然后基于類目約束下的隨機游走生成訓(xùn)練樣本,最后應(yīng)用 PNN 模型來學(xué)習(xí)圖中每個節(jié)點的表示,并被用來進行最終的廣告檢索。下面將詳細介紹 SMAD 的設(shè)計細節(jié)。
3.1 多視圖構(gòu)建
在 SMAD 中,Query-Item-Ad 圖由三種類型的節(jié)點組成,包括Query、Item和Ad,每個節(jié)點都包含ID、類目、品牌、價格等特征。圖中包含以下邊類型:
1)點擊關(guān)系邊,給定在一個用戶搜索請求下的點擊序列,其中代表被點擊的自然結(jié)果商品(item)或廣告商品(ad)。我們在兩個被點擊的Item(或Ad)節(jié)點和之間建立共同點擊邊,以及在每個被點擊節(jié)點與Query節(jié)點之間建立點擊邊。
2)文本相似關(guān)系邊。由于電商系統(tǒng)中每天都會新建新的廣告,我們需要依靠其文本屬性進行冷啟動。具體地,我們計算Query和Item/Ad標題之間的Jaccard相似性,并作為權(quán)重來建立文本相似邊。
3)共同競價關(guān)系邊。在廣告搜索平臺中,廣告主通常會為每個廣告指定一組<競價詞,價格>,用來表達他們希望觸達的流量和此廣告被用戶點擊時支付的金額。如果兩個廣告至少有一個相同的競價詞,它們就會被建立一條共同競價邊。
3.2 類目樹約束下的圖采樣
我們使用隨機游走[3, 7]策略來生成訓(xùn)練樣本。一方面,正如上文中所提到的,在游走過程中相關(guān)性會衰減;另一方面,大規(guī)模圖訓(xùn)練的時間代價也很高。由于圖的規(guī)模很大,無法裝入單臺機器的內(nèi)存中,所以一般進行分布式圖存儲,使得在訓(xùn)練過程中需要在機器間進行大量的通信。為了解決這些問題,我們根據(jù)電商系統(tǒng)中的分層類目樹結(jié)構(gòu),建立了一個有效的采樣和圖劃分策略。具體地,在淘寶上,一個類目樹包含了大約幾萬個類目,最多有5個級別,例如“圓領(lǐng)衫≤長袖針織衫≤毛衣≤上衣≤女裝”。Query、Item和Ad節(jié)點都可以被分配至類目樹中的某一個節(jié)點。
3.2.1 類目約束下的隨機游走
我們提出了一種類目樹約束下隨機游走,要求游走路徑需要遵守類目層次,也就是說,游走的路徑必須是非遞增的。通過進入更低級的子類目或者在同一子類目上停留更長時間更能夠表達用戶的真實意圖,例如圖(3)中的“𝑣0(搜索女性時裝)→𝑣1(點擊裙子Item1)→𝑣2(搜索裙子)→𝑣3(點擊裙子Item2)”為一個合理的游走,這是搜索場景的一個特點,與沒有提供明確意圖的推薦應(yīng)用很不相同[9, 11]。給定一個基于關(guān)系元路徑的有效游走,我們在滑動窗口內(nèi)提取正節(jié)點對 ,其中 表示正節(jié)點。負采樣是為了給源節(jié)點𝑣生成負節(jié)點,為了使增加學(xué)習(xí)的魯棒性和模型的能力,我們既在與𝑣不同類目空間下采樣簡單的負樣本,同時也在與𝑣相同類目空間下采樣負樣本。
圖(3):類目樹約束下的隨機游走。圖中展現(xiàn)了一個合理的游走路徑。其中紅色節(jié)點是Query節(jié)點。3.2.2 類目約束下的子圖切分策略
基于上述的類目約束下的隨機游走策略,圖數(shù)據(jù)可以被分解為獨立的子圖。子圖可以獨立的在本地運行,實現(xiàn)大規(guī)模并行,從而帶來巨大的通信與計算效益提升。如圖(3)所示,子圖由同屬某一葉子類目的節(jié)點構(gòu)成。非葉子類目的節(jié)點則被切分到多個以其為鄰居節(jié)點的子圖上。例如節(jié)點 (搜索女裝)有兩個鄰居節(jié)點 (點擊連衣裙1)和 (點擊毛衣1),那么節(jié)點 會被切分為兩個節(jié)點,分別附加到“連衣裙”和“女士毛衣”兩個子圖中。通過節(jié)點切分,邊集可以根據(jù)源節(jié)點和目標節(jié)點所在的葉子類目進行拆分,并且跨子圖的邊可以被移除(比如構(gòu)圖時不創(chuàng)建)。此外如果兩個非葉子類目節(jié)點互相連接,我們允許它們的拆分復(fù)制體在相應(yīng)的子圖中也互相連接(見圖3)。通過這些方法,我們得到了大量不相交的子圖。
3.3 PNN模型結(jié)構(gòu)
圖(4):PNN(Parallel DNN)模型架構(gòu)。各個視圖的DNN分支共享同一個嵌入層。正負節(jié)點共享相同的中間網(wǎng)絡(luò)層。除了節(jié)點ID,節(jié)點屬性也被引入到DNN中。SMAD采用了一種新穎的并行DNN架構(gòu)(PNN),如圖(4)所示,用于在多視圖屬性圖上進行表征學(xué)習(xí)。模型結(jié)構(gòu)分為兩個模塊:
(i) 獨立視圖學(xué)習(xí)。 DNN架構(gòu)有多個并行分支,分別對應(yīng)于不同視圖(即游走方法中的不同類型關(guān)系或元路徑)。每個分支初始共享嵌入(EMB)層,用于編碼原始節(jié)點特征為統(tǒng)一的特征向量。每個分支最后包括視圖特定層,用于學(xué)習(xí)對應(yīng)視圖中節(jié)點的相似度。針對視圖 下具備 類型的節(jié)點 ,分支分別采用不同的特征變換層 來學(xué)習(xí)其向量 。為了促進多視圖的協(xié)作,我們允許具備同一類型 的節(jié)點在不同視圖中共享特征變換層 。因此,如果定義 , 為節(jié)點類型和視圖(邊類型)個數(shù),那么模型一共學(xué)習(xí) 個全連接神經(jīng)網(wǎng)絡(luò)分支,用來編碼 個視圖中 種類型的源節(jié)點,以及 個全連接神經(jīng)網(wǎng)絡(luò)分支,用來編碼 種類型的目標節(jié)點。
(ii) 基于注意力機制的視圖結(jié)合。 我們設(shè)計了注意力機制用來建模不同視圖的重要性。注意到對 類型的節(jié)點 ,它包含 個視圖的表征,在此基礎(chǔ)上使用注意力機制設(shè)計手段,我們選擇 softmax 來學(xué)習(xí)不同視圖的重要性:
其中 表明不同視圖下表征的重要性, 表明節(jié)點 學(xué)習(xí)到的特定穩(wěn)定表征, 是可學(xué)習(xí)的向量,表明哪些 類型的節(jié)點在 視圖中更重要。相似度高的節(jié)點往往具備相似的特定視圖表征,因此相似的視圖往往更受關(guān)注。
損失函數(shù)。 為了保留多視圖屬性圖的拓撲結(jié)構(gòu)信息,我們使用如下?lián)p失函數(shù):
其中 是 sigmoid 函數(shù), 是學(xué)習(xí)穩(wěn)定表征的損失函數(shù), 是在每個視圖中學(xué)習(xí)節(jié)點相似度的正則項, 是用來控制正則項權(quán)重的參數(shù)。、、 分別是節(jié)點 的穩(wěn)定表征、正樣本及負樣本,對應(yīng)到視圖 上,其表征分別為 、 及 。
3.4 實現(xiàn)細節(jié)
我們使用已經(jīng)開源的分布式圖學(xué)習(xí)框架 Euler 進行圖存儲和模型訓(xùn)練。訓(xùn)練結(jié)束后,使用一個類 Faiss 檢索,進行近似 KNN 計算,基于節(jié)點 Embedding 進行相似廣告召回。實驗相關(guān)配置如下:使用高斯分布進行模型參數(shù)的隨機初始化;采用 Adam 作為優(yōu)化器;batch size 設(shè)置為 512;學(xué)習(xí)率設(shè)置為 0.001;使用50臺阿里云上的虛擬機進行實驗,每個虛擬機配置 28個CPU核 + 30GB 內(nèi)存。
??4. 實驗評估
為了驗證SMAD的有效性,我們進行全面的離線實驗和在線A/B測試。
4.1 對比方法
實驗主要對比了一些經(jīng)典的廣告召回模型:
基于圖的用戶歷史行為建模方法:SimRank++、BKR;
基于語義的向量化召回:DSSM、Search2vec、MVE。
同時,為了方便對比 SMAD 中每個結(jié)構(gòu)設(shè)計的效果,我們也將 SMAD 的一些變體模型作為 baseline:
SMAD(random):將SMAD中采樣方法替換為標準的隨機游走;
SMAD(no-attribute):只使用ID類特征作為模型的輸入,不使用其他屬性特征
SMAD(no-attention):去掉SMAD中的attention聚合結(jié)構(gòu),只用單視圖進行點擊邊的訓(xùn)練
4.2 離線評估結(jié)果
我們基于一份人工標注的 query-ad/item-ad 數(shù)據(jù),進行相關(guān)性評估,作為離線模型的評估數(shù)據(jù)。這份人工標注的數(shù)據(jù)收集于淘寶搜索廣告場景的日志,一共抽取了20000個 query-ad 對和20000個 item-ad 對,并基于相關(guān)程度人工將其分為“bad”、“fair”、“good”、“excellent”和“perfert”五個等級。對于每個 query 或者 item,有10個候選廣告進行選擇。我們使用 macro NDCG 進行模型的離線評估,并賦予上述5個等級分值(grade)如下:bad-1,fair-2,good-3,excellent-4,perfect-5。我們使用 作為 NDCG 的 label,使用排序位置的 log 作為 NDCG 的分母。我們基于上文提到的淘寶搜索場景數(shù)據(jù)進行構(gòu)圖和離線模型訓(xùn)練。該圖包含了1億的 Query 節(jié)點、1億 Item 節(jié)點、1千萬 Ad 節(jié)點,百億級別的用戶行為邊和文本相似度邊。為了減少訓(xùn)練過程中的通訊開銷,我們將這張大圖基于類目分解成不同的子圖,從而實現(xiàn)模型的并行化訓(xùn)練。子圖的分解極大的優(yōu)化了模型訓(xùn)練的計算和通訊開銷。下表展示了 SMAD 在 Euler 系統(tǒng)下的運行性能,整張圖 SMAD 的訓(xùn)練時間少于24小時。
表(1):不同batch size下的運行時間對比實驗結(jié)果如下表所示。從表中可以看出,在這份離線數(shù)據(jù)上,SMAD效果遠高于其他baseline。對比其他的基于圖的或者基于向量化的廣告召回方法,SMAD得益于其有效的點邊信息匯聚,多視圖異構(gòu)建模和Query-Item-Ad高階關(guān)系提取,取得了不錯的離線收益。同時也驗證了這種新型PNN結(jié)構(gòu)和基于數(shù)據(jù)分布的鄰居檢索方式的有效性。通過SMAD和SMAD變體模型的對比實驗結(jié)果,進一步驗證了每個結(jié)構(gòu)模塊的有效性。
表(2):和比較流行的各種方法的對比實驗結(jié)果4.3 在線A/B測試
我們在淘寶搜索廣告召回系統(tǒng)中進行了上述模型的在線實驗。并使用 CTR,RPM 和 PVR(有廣告展示的請求占比)作為在線實驗評估指標。如下表所示,對比 SimRank++,BKR 和 Search2vec 模型,SMAD 分別獲得了CTR+5%,+5.5%和+1.5%的在線收益。實驗結(jié)果驗證了 SMAD 可以更優(yōu)的刻畫搜索意圖和廣告的匹配程度。同時,PVR也獲得了+3%,+2%和+1%的提升,說明 SMAD 模型可以覆蓋更多的搜索請求。通過 SMAD 與 SMAD(random)的對比發(fā)現(xiàn),隨機游走和隨機采樣方法并不能很好的刻畫廣告與當前請求的相關(guān)度,導(dǎo)致在線 CTR 和 RPM 均出現(xiàn)明顯下跌。與 SMAD(no-attribute)對比發(fā)現(xiàn),得益于豐富的屬性特征引入,SMAD 顯著提升了 CTR 和 PVR。與 SMAD(no-attention)對比發(fā)現(xiàn),attention 聚合方式的引入可以提升 PVR 指標。
??5. 結(jié)論
本文介紹了一種海量規(guī)模廣告召回框架 SMAD,該框架將廣告場景下用戶行為抽象成圖,并引入豐富的點邊屬性,通過衡量結(jié)構(gòu)相似度,多視圖建模相關(guān)性,從而實現(xiàn) Query 和 Ad 的有效匹配。我們采用了一種基于搜索廣告類目樹結(jié)構(gòu)的訓(xùn)練策略,并提出一種多視圖網(wǎng)絡(luò)模型匯聚 Query-Item-Ad 多維度異構(gòu)關(guān)系和信息,在淘系十億級別圖數(shù)據(jù)上進行的離在線實驗也充分證明了 SMAD 的有效性。
參考文獻
[1]?IoannisAntonellis,HectorGarciaMolina,andChiChaoChang.2008.Simrank++: query rewriting through link analysis of the click graph. Proceedings of the VLDB Endowment 1, 1 (2008), 408–421.
[2]?Shaosheng Cao, Wei Lu, and Qiongkai Xu. 2016. Deep neural networks for learn- ing graph representations. In Thirtieth AAAI Conference on Artificial Intelligence.
[3]?Yuxiao Dong, Nitesh V Chawla, and Ananthram Swami. 2017. metapath2vec: Scalable representation learning for heterogeneous networks. In Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 135–144.
[4] MihajloGrbovic,NemanjaDjuric,VladanRadosavljevic,FabrizioSilvestri,Ri- cardo Baeza-Yates, Andrew Feng, Erik Ordentlich, Lee Yang, and Gavin Owens. 2016. Scalable semantic matching of queries to ads in sponsored search advertis- ing. In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 375–384.
[5] Aditya Grover and Jure Leskovec. 2016. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 855–864.
[6]?Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, and Larry Heck. 2013. Learning deep structured semantic models for web search using clickthrough data. In Proceedings of the 22nd ACM international conference on Information & Knowledge Management. ACM, 2333–2338.
[7] BryanPerozzi,RamiAl-Rfou,andStevenSkiena.2014.Deepwalk:Onlinelearning of social representations. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 701–710.
[8] Meng Qu, Jian Tang, Jingbo Shang, Xiang Ren, Ming Zhang, and Jiawei Han. 2017. An attention-based collaboration framework for multi-view network repre- sentation learning. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. ACM, 1767–1776.?
[9] JizheWang,PipeiHuang,HuanZhao,ZhiboZhang,BinqiangZhao,andDikLun Lee. 2018. Billion-scale commodity embedding for e-commerce recommendation in alibaba. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 839–848.
[10] SuYan,WeiLin,TianshuWu,DaoruiXiao,XuZheng,BoWu,andKaipengLiu. 2018. Beyond keywords and relevance: a personalized ad retrieval framework in e-commerce sponsored search. In Proceedings of the 2018 World Wide Web Conference. International World Wide Web Conferences Steering Committee, 1919–1928.
[11] Rex Ying, Ruining He, Kaifeng Chen, and Pong Eksombatchai. 2018. Graph Con- volutional Neural Networks for Web-Scale Recommender Systems. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM.
END
歡迎關(guān)注「阿里媽媽技術(shù)」,了解更多~
瘋狂暗示↓↓↓↓↓↓↓
總結(jié)
以上是生活随笔為你收集整理的CIKM 2021 | 图模型在广告检索(Ad Retrieval)中的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 写给萌新,聊聊你初入职场的那些疑惑~
- 下一篇: CIKM 2021 | 基于异质图学习的