【广告技术】如何科学地划分用户群体?在聚类中考虑用户特征和社会关系
劃分用戶群體是門大學(xué)問!
對互聯(lián)網(wǎng)廣告來說,讓不同的用戶看到不同的廣告是一件特別基本、也特別重要的事。比如,會吸引一位男性游戲愛好者的廣告,內(nèi)容很可能是電競顯示器、專業(yè)游戲鍵盤,而且他也很可能真的去購買廣告中推薦的商品;可要是廣告推薦的內(nèi)容是香水、口紅,他既不了解、也不感興趣,這個(gè)廣告推薦的機(jī)會就白白浪費(fèi)了。
廣告主和廣告平臺都希望能夠把全體用戶準(zhǔn)確地劃分成許多個(gè)帶有不同特點(diǎn)的群體,從而能夠根據(jù)這些群體各自不同的需求和消費(fèi)能力,推薦最適合的廣告。顯然,怎么有效地把用戶分成不同的類別是一門大學(xué)問,按年齡段分可能有點(diǎn)粗糙,但年齡和消費(fèi)能力、消費(fèi)品類相關(guān);如果按興趣愛好分,每個(gè)人可能會有多種興趣愛好,很難給出唯一的分類;如果按職業(yè)劃分,會不會他反倒對本職行業(yè)內(nèi)的產(chǎn)品都知根知底,所以反而對廣告免疫呢?
可以看到,我們當(dāng)然能提出很多種不同的分類劃分方法、可以選擇不同的細(xì)致程度,不同的劃分方法也肯定會帶來不同的效果,但這些方法都有不少當(dāng)事人的主觀判斷參與,而且這些主觀判斷認(rèn)為的優(yōu)勢劣勢到底有多顯著,和實(shí)際的廣告投放需求有多相符,很難分析驗(yàn)證,也就很難確定地選出一個(gè)最佳的分類方法來。
讓基于數(shù)據(jù)的方法做一個(gè)客觀的分類員
不過,大數(shù)據(jù)、人工智能的時(shí)代已經(jīng)來了,我們有了新的工具幫我們處理這些問題。比如機(jī)器學(xué)習(xí)中有個(gè)問題叫做“聚類”,讓算法尋找數(shù)據(jù)中本質(zhì)性的、客觀存在、可驗(yàn)證的區(qū)別,把它們分成不同的類別。就像上面這張圖中的點(diǎn),誰都能看出可以把這些點(diǎn)分成三組,每個(gè)組的點(diǎn)都明顯聚集在一起,而三個(gè)組之間又有明顯的距離。設(shè)計(jì)算法,通過一定的規(guī)則來做這件尋找區(qū)別、劃分分類的事情,不同的人也可以得出相同的分類結(jié)果,而且這個(gè)分類結(jié)果還可以用具體的統(tǒng)計(jì)指標(biāo)來衡量、驗(yàn)證。
如今,網(wǎng)絡(luò)平臺都積累了大量的用戶屬性和歷史行為數(shù)據(jù),我們能不能用類似的方法分析用戶數(shù)據(jù),尋找用戶特征中的本質(zhì)性的、客觀存在的、可驗(yàn)證的區(qū)別,從而把用戶分成不同的類別呢?而且我們希望分到每個(gè)類別內(nèi)的用戶都非常的相近,而不同類別之間又有明顯的區(qū)別,就像上面那張圖的點(diǎn)一樣。
當(dāng)然了,用戶數(shù)據(jù)是很復(fù)雜的,k-means之類的經(jīng)典、簡單的聚類算法能處理好“點(diǎn)”這樣的低維、數(shù)值數(shù)據(jù),而網(wǎng)絡(luò)平臺可能收集到的用戶數(shù)據(jù)中除了年齡、身高、性別、體重之類的數(shù)值之外,更會包含所在城市、消費(fèi)習(xí)慣、個(gè)人愛好、朋友關(guān)系、購買歷史、已購商品評價(jià)等等的高維、非數(shù)值數(shù)據(jù),這就需要用更先進(jìn)的方法才能處理。
隨著深度學(xué)習(xí)的發(fā)展,將深度學(xué)習(xí)強(qiáng)大的表征能力融入聚類目標(biāo)的深度聚類算法取得了很好的效果。其中典型的比如借助自動編碼器auto-encoder的深度聚類方法,自動編碼器的引入能夠?qū)W習(xí)不同特征之間的交互,提取出數(shù)據(jù)中最關(guān)鍵的、最有代表性的信息,去除一些無用的信息以及噪聲。在深度聚類方法的幫助下,我們可以將高維且稀疏的用戶特征壓縮成低維的數(shù)據(jù)表示,得到不錯(cuò)的結(jié)果;能處理的數(shù)據(jù)量也跟著一起邁上了新的臺階。
讓深度聚類結(jié)果再上一層樓
現(xiàn)在我們已經(jīng)可以很輕松的對大量的、復(fù)雜的用戶數(shù)據(jù)進(jìn)行聚類了,我們還能再做一些改進(jìn)嗎?當(dāng)然可以!在我們的成果《Structural Deep Clustering Network》這篇論文中,結(jié)合正火熱的圖卷積神經(jīng)網(wǎng)絡(luò)GCN提出了新的改進(jìn)思路。
現(xiàn)有的深度聚類方法已經(jīng)能很好地提取每一個(gè)數(shù)據(jù)樣本中的關(guān)鍵信息,但同時(shí),不同的數(shù)據(jù)樣本之間可能會還會存在一些關(guān)聯(lián),比如小明和小紅互相不認(rèn)識,性別不同,性格很不一樣,身材差了很多,住的也非常的遠(yuǎn),但是他們都有大量玩搖滾樂的朋友,因此他們某一方面的購物習(xí)慣很可能是一樣的。類似這樣的不同數(shù)據(jù)樣本之間的關(guān)聯(lián)就提供了一個(gè)全新角度的信息“結(jié)構(gòu)信息”,如果能把這些信息利用起來,就能獲得更上一層樓的聚類結(jié)果。這顯然又是一塊待發(fā)掘的金礦,而這篇論文就是首次對這塊金礦展開了探索。為了捕捉、描述、計(jì)算這種不同數(shù)據(jù)樣本之間的結(jié)構(gòu)信息,論文中引入了新的模塊“圖卷積神經(jīng)網(wǎng)絡(luò)”。"圖 graph"+神經(jīng)網(wǎng)絡(luò),是當(dāng)前的前沿研究熱點(diǎn),而且“圖”的結(jié)構(gòu)也最適合用來表現(xiàn)不同數(shù)據(jù)樣本之間的復(fù)雜結(jié)構(gòu)關(guān)系。在此基礎(chǔ)上,論文中設(shè)計(jì)了一些連接組件讓新加入的圖卷積模塊能和原來的深度聚類模型高效協(xié)作,還設(shè)計(jì)了新的模型學(xué)習(xí)訓(xùn)練機(jī)制,讓深度聚類模塊和圖卷積模塊相互影響、相互促進(jìn),都能比單獨(dú)工作時(shí)更好地提取信息,而不是把兩種模塊提取到的信息簡單相加。
論文作者們在六個(gè)真實(shí)世界數(shù)據(jù)集上的數(shù)據(jù)聚類實(shí)驗(yàn)有力地說明了改進(jìn)效果。這六個(gè)數(shù)據(jù)集的內(nèi)容差異巨大,包括手寫數(shù)字識別、人體動作識別、新聞報(bào)道分類、學(xué)術(shù)論文主題、論文作者關(guān)系、學(xué)術(shù)論文引用。作者們提出的模型在每個(gè)數(shù)據(jù)集上的聚類結(jié)果都取得了顯著的提升。
其中的DBLP論文作者關(guān)系數(shù)據(jù)集就是一個(gè)關(guān)于人的數(shù)據(jù)集,它包含了數(shù)千位計(jì)算機(jī)科學(xué)領(lǐng)域的學(xué)術(shù)論文作者的論文關(guān)鍵詞信息,以及作者之間的合著論文關(guān)系 —— 對應(yīng)了每條用戶數(shù)據(jù)本身的信息以及用戶數(shù)據(jù)之間的結(jié)構(gòu)信息。然后需要對這些作者們進(jìn)行聚類,把他們劃分為四種細(xì)分研究領(lǐng)域,是數(shù)據(jù)庫、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)還是信息檢索。把算法聚類的結(jié)果和他們真實(shí)的細(xì)分研究領(lǐng)域?qū)Ρ?#xff0c;就得到了聚類準(zhǔn)確率。此前最好的深度聚類的方法也只有62.05%的準(zhǔn)確率,最基礎(chǔ)的k-means甚至只有38.65%;這篇論文提出的加入了結(jié)構(gòu)信息的方法把準(zhǔn)確率一舉提高到了68.05%。在HHAR人體動作識別數(shù)據(jù)集上,需要把智能手機(jī)、智能手表收集到的運(yùn)動數(shù)據(jù)劃分為騎自行車、坐、站、走路、上樓梯、下樓梯六類,這篇論文的方法也把此前方法的最高76.51%的準(zhǔn)確率大幅提升到了84.26%(考慮到了不同運(yùn)動的前后順序關(guān)系)。
給真實(shí)廣告業(yè)務(wù)帶來革新
論文中的實(shí)驗(yàn)已經(jīng)有力地說明這個(gè)新方法能帶來大幅改進(jìn),可以期待當(dāng)它運(yùn)用到真實(shí)的廣告平臺、用戶分類和廣告投放中之后,也能帶來全方位的改進(jìn)。
最明顯也最直接的,就是可以根據(jù)聚類的結(jié)果重新給每個(gè)用戶類別總結(jié)標(biāo)簽,得到新的用戶分類體系。不僅這個(gè)分類體系比以往更明確、合理,更有能力處理騰訊的產(chǎn)品生態(tài)中十億級別的用戶及對應(yīng)的用戶數(shù)據(jù),也能夠幫助廣告平臺和廣告主更好地理解用戶群體。算法的長期持續(xù)演進(jìn)以及定制化聚類,可以讓聚類結(jié)果越來越準(zhǔn)確合理,也與廣告平臺、互聯(lián)網(wǎng)產(chǎn)品的總體商業(yè)策略越來越吻合。還可以按照一定的周期,結(jié)合最新的用戶數(shù)據(jù)重新運(yùn)行聚類,就能夠跟蹤用戶特點(diǎn)的變化,讓用戶群體分類總能最符合當(dāng)前情況。在這個(gè)用戶間差異越來越大、亞文化群體眾多、信息又快速更新迭代的時(shí)代,這些都難能可貴。
結(jié)構(gòu)化信息的使用也能讓真實(shí)應(yīng)用場景中的很多用戶數(shù)據(jù)派上用場。比如,不同的微信用戶會關(guān)注不同的微信公眾號,這就是一種結(jié)構(gòu)化信息;在基于用戶屬性的分類基礎(chǔ)上,結(jié)合這些結(jié)構(gòu)化信息,就可以幫助得到更好的聚類結(jié)果。
在這個(gè)基礎(chǔ)上,同一個(gè)用戶在不同的平臺上會有不同的結(jié)構(gòu)化信息,比如張三可能在微信上關(guān)注公眾號A、在騰訊視頻平臺觀看電視劇M、同時(shí)玩騰訊的X手游。這些不同平臺上的結(jié)構(gòu)化信息可以刻畫為不同視圖的網(wǎng)絡(luò),會含有更廣泛的信息,然后通過多視圖聚類的方法就提取其中的信息,繼續(xù)幫助改善聚類結(jié)果。
最后,這也能幫助廣告主制定更好的營銷策略。如果廣告主預(yù)期用戶分類效果不好,投放到的用戶特征模糊、復(fù)雜,廣告策略就可能會更看重“不出錯(cuò)”,因?yàn)樾枰骖櫜煌目谖?#xff1b;但準(zhǔn)確、清晰的用戶群體分類結(jié)果,可以讓廣告策略偏向于“精確引發(fā)一小部分用戶的共鳴”,反倒能建立很強(qiáng)的品牌認(rèn)知、引發(fā)自發(fā)傳播;品牌也能在這個(gè)過程中不斷優(yōu)化自己的營銷方法論,形成正向循環(huán)。另一方面,聚類方法帶來的更好的用戶分類結(jié)果,可以幫助廣告平臺更好地發(fā)現(xiàn)相似的用戶群體,讓那些“雖然廣告主沒有明確指出,但會喜歡這支廣告”的用戶也看到廣告,對廣告平臺而言這是進(jìn)一步提升廣告定向推薦效果,對廣告主來說,就是姿態(tài)優(yōu)雅地“出圈”,在更多潛在用戶的心中建立正面印象。
自2020年5月開始,在Wiztalk騰訊廣告專場系列學(xué)術(shù)視頻中,我們將請論文作者從深入、詳細(xì)的技術(shù)角度介紹這篇《Structural Deep Clustering Network》論文,以及介紹專門研究多視角聚類問題的《One2Multi Graph Auto-encoder for Multi-view Graph Clustering》論文。敬請期待。直播時(shí)間:5月29日 19:00
北京郵電大學(xué)計(jì)算機(jī)學(xué)院教師、博士生導(dǎo)師石川老師將在Wiztalk騰訊廣告專題直播中細(xì)致講解基于圖神經(jīng)網(wǎng)絡(luò)的聚類研究與應(yīng)用,為大家?guī)硌芯款I(lǐng)域的最新成果!趕快掃描上方二維碼或點(diǎn)擊【原文鏈接】即可一鍵預(yù)約直播。想要了解更多直播課程,可點(diǎn)擊騰訊廣告算法大賽公眾號主頁底部菜單欄【直播回放】觀看課程回顧,get干貨知識,獲取參賽秘籍。
一次實(shí)踐的好機(jī)會來啦!由騰訊廣告舉辦2020騰訊廣告算法大賽正在火熱進(jìn)行中~本屆大賽由騰訊廣告攜手八大平臺聯(lián)袂舉辦,產(chǎn)學(xué)研多界大咖組成的超強(qiáng)評委陣容將蒞臨指導(dǎo),更有百萬級總獎池的超級福利等你來贏!本屆大賽報(bào)名截止2020年5月31日,目前已吸引近兩萬名選手關(guān)注,有意向的同學(xué)趕快前往官網(wǎng)報(bào)名,加入這場算法比拼吧!
總結(jié)
以上是生活随笔為你收集整理的【广告技术】如何科学地划分用户群体?在聚类中考虑用户特征和社会关系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Python入门】Python之shu
- 下一篇: 太强了!用动图演示NLP中的自监督表示学