阿里妈妈技术团队 6 篇论文入选 CIKM 2021
關于 CIKM
CIKM(The Conference on Information and Knowledge Management )?是由ACM主辦的信息檢索和數據挖掘等領域的國際頂級會議,在相關領域享有較高的學術聲譽。今年將于11月1日?- 5日在線上召開。
近日,?CIKM 2021?公布了接收結果。本次會議共收到1251篇長文(Full Paper)和626篇短文(Short Paper),均創下CIKM投稿量的歷史記錄。其中,271篇長文和177篇短文被大會接收,錄取率分別為21.7%和28.3%。
阿里媽媽論文概述
阿里媽媽技術團隊此次有2篇長文和4篇短文被接收,我們將陸續邀請論文作者為大家詳細解析論文思路和技術成果,歡迎關注!
??Heterogeneous Graph Neural Networks for Largescale Bid Keyword Matching
基于異質圖學習的搜索廣告關鍵詞推薦
摘要:近年來,在線廣告在消費者側的大量工作受到了廣泛關注,旨在通過挖掘用戶的歷史行為模式、搜索詞意圖以及關鍵詞競價來呈現個性化的廣告內容。而在廣告平臺的另一側——廣告主側,廣告主營銷優化工作在廣告系統中也扮演著非常重要的角色。對于搜索廣告,關鍵詞推薦(Keyword Recommendation)就是其中一個面向廣告主的核心推薦服務。既有的關鍵詞推薦方法僅考慮了點擊或文本相似等單一種類的關系建模該任務,而忽略了額外的輔助關系信息(比如廣告/關鍵詞與普通商品間的關系)。如何從不同對象間的復雜關系中學習豐富和魯棒的表示向量十分關鍵。另一方面,對于通常缺乏足夠效果反饋數據的新廣告,進行高質量的推薦也非常重要。
為了應對這些挑戰,我們提出了HetMatch,一種基于異質圖神經網絡(HGNN)的關鍵詞推薦模型。通過引入多層次的GNN結構,HetMatch能在微觀和宏觀層面融合和增強不同類型的輔助關系信息,以更全面和魯棒地對廣告和詞進行表征。此外針對冷啟動問題,我們采用了多視圖框架,使模型能通過多視圖任務引入額外的新廣告樣本。我們通過直通車的工業數據集離線驗證了 HetMatch的有效性,并在直通車多個關鍵詞推薦工具上進行了AB 實驗,多個業務指標(如消耗與采納率)相比于基準算法都有顯著提升。目前該模型已在直通車全量部署,服務于多個關鍵詞推薦工具。
??One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domain CTR Prediction
One Model to Serve All:阿里媽媽廣告多場景下的星型CTR預估模型STAR
摘要:傳統的廣告/推薦CTR模型一般使用單個場景的數據訓練并服務單個場景。但是對于阿里巴巴這樣的大規模商業平臺,平臺經常需要為大量的場景提供CTR預估能力。不同的場景具有相似的用戶群體和廣告集合,但每個場景也有一些場景特定的用戶群體和廣告集合。在這種情況下,為每個場景單獨訓練一個模型忽視場景之間的相似性導致效果變差。另一方面,簡單的共享模型很難捕捉不同場景的差異性。為了更好地利用不同場景的數據,我們提出了星型拓撲結構的STAR模型。在STAR模型里,每個場景的網絡包含兩部分,共享的中心網絡以及場景私有的網絡。對于每個場景,最終的網絡通過共享和私有網絡參數相乘得到。通過這種形式,STAR同時建模了場景的相似性和差異性。STAR已經在2020年在阿里媽媽展示廣告系統上線,取得了8.0%的CTR提升和6.0的RPM提升。
??Binary Code based Hash Embedding for Web-scale Applications
大規模數據場景下基于二進制編碼策略的Hash Embedding表征技術
摘要:現如今,深度學習模型被廣泛的應用于Web級應用中,比如推薦系統,廣告系統等等。在這些應用中,ID類特征的表示學習(Embeding Learning)是這些模型成功的關鍵之一。其標準的模式是,為每一個特征值學習一個特征向量。盡管,這種方法能夠刻畫不同特征的特性,有效提升模型的精度。但是,存儲這樣的embeding將會消耗大量的空間,極大的約束了這類深度模型的應用和迭代。這樣的問題,對于Web級應用而言尤為嚴重。在本文中,我們提出了基于二進制碼的Hash Embedding學習,能夠任意比例的壓縮存儲空間的同時基本維持模型的精度。實驗結果表明,模型存儲大小縮減1000倍的時候,仍然能維持原有模型的99%精度。
??Learning Effective and Efficient Embedding via an Adaptively-Masked Twins-based Layer?
通過設計動態可適配的孿生掩碼層來升級效果和效率兼得的Embedding表征
摘要:在深度推薦模型中,ID類特征的表示學習是至關重要的。其中,每一個特征值將會被映射成一個特征向量。對于同一個特征域的不同特征值,傳統的特征表示學習方法會固定對應特征向量的維度大小。這樣一種設置統一維度的模式對于表示學習以及對應向量存儲而言,都是次優的。盡管,現有的方法嘗試從基于規則或者網絡搜索的角度去解決這個問題,這些方法需要額外的人工知識或者不易訓練,且對于特征向量的熱啟動也不友好。因此,在本文中,我們提出一種新穎并且高效的特征維度選擇方法。具體而言,我們在每一個表示層后面,設計了一個孿生的自適應掩碼層(AMTL)來去除每一個特征向量中不需要的維度。這樣一種掩碼的方式能夠靈活的應用在各個模型中,很好的支持了模型特征向量的熱啟動。大量實驗結果表明,所提方法在模型精度上相比于其他方法取得了最好的效果,且同時節省了60%存儲開銷。
??AutoHERI: Automated Hierarchical Representation Integration for Post-Click Conversion Rate Estimation
AutoHERI: 基于層次表示自動聚合的轉化率預估模型
摘要:廣告和推薦系統中,轉化率(Conversion Rate,CVR)預估是一個重要任務,在排序、智能出價等功能中發揮著關鍵作用。現有方法利用用戶行為序列(如展現->點擊->轉化)來聯合學習多個預估任務,實現全空間CVR預估。為進一步探究用戶行為序列中的層次關聯以提升CVR預估性能,我們提出AutoHERI:基于層次表示自動聚合的CVR預估模型,將前序任務中的特征表示聚合連接到后序任務以提升其表示學習,自動搜索最優的連接結構來使模型學習有效的特征聚合模式。同時,考慮到不同場景中的聚合模式都不盡相同,AutoHERI通過One-shot 自動搜索來提高搜索效率,保證面向不同場景時的復用性。我們在大規模真實數據集上的離線/在線實驗結果都驗證了AutoHERI的優越性能。
??SMAD: Scalable Multi-view Ad Retrieval System for E-Commerce Sponsored Search?
SMAD:基于大規模圖學習的多視圖電商搜索廣告匹配系統
摘要:阿里媽媽搜索直通車于2019年開源了工業界首個支持大規模分布式的深度圖學習平臺Euler(https://github.com/alibaba/euler),被業界普遍使用,并取得了廣泛的影響力(截止目前Github Star個數2.6K)。基于此,為了進一步地解決在電商檢索系統中海量用戶行為以及多視圖并存(如共同點擊、共同競買或文本相似等)帶來的挑戰,我們提出了一種可擴展的多視圖廣告圖匹配引擎(SMAD)。具體地,我們利用查詢詞和商品的類目樹結構,提出了一種類目和相關性約束下的圖采樣和分割算法,可以實現大規模圖的分布式訓練;同時,為了更好的捕捉多視圖,我們提出了一種并行的多視圖訓練模型,可以將不同視圖下的信息有機融合起來。在阿里媽媽搜索直通車場景中,我們的方法在相關性、覆蓋率和平臺營收等指標上均取得了明顯的增長。
END
歡迎關注「阿里媽媽技術」,了解更多~
瘋狂暗示↓↓↓↓↓↓↓
總結
以上是生活随笔為你收集整理的阿里妈妈技术团队 6 篇论文入选 CIKM 2021的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【阿里妈妈数据科学系列】第三篇:离线抽样
- 下一篇: KDD 2021 | Neural Au