论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching
文章目錄
- 摘要
- 1.Introduction
- 2. 介紹兩個概念
- 2.1 Dynamic Heterogeneous Network Model動態(tài)異構(gòu)網(wǎng)絡(luò)模型
- 2.2 時間隨機游走
- 3NODE2BITS:基于散列的Emdedding框架
- 3.1 采樣時間隨機游動和定義時間上下文
- 3.2 基于多維特征的時態(tài)語境(上下文
- 3.3基于特征的上下文聚合和散列
- 4.EXPERIMENTS
摘要
在真實的web服務(wù)中,識別和匹配各種在線引用(例如,在不同設(shè)備和時間段上的會話)到同一用戶的任務(wù)對于個性化和推薦是至關(guān)重要的。然而,傳統(tǒng)的用戶拼接方法(如分組或阻塞)需要對大量用戶活動進行兩兩比較,從而對計算和存儲都造成了挑戰(zhàn)。最近的作品,往往是應(yīng)用特定的,啟發(fā)式地尋求減少比較的數(shù)量,但他們遭受低精度和回憶。為了以與應(yīng)用程序無關(guān)的方式解決這個問題,我們采用了一種基于異構(gòu)網(wǎng)絡(luò)的方法,其中用戶(節(jié)點)與內(nèi)容(如會話、網(wǎng)站)交互,并且可能具有屬性(如位置)。我們提出了node2bits,這是一種使用二進制哈希碼表示節(jié)點上下文多維特征的高效框架。node2bits利用基于特征的時間步來封裝異構(gòu)web網(wǎng)絡(luò)中節(jié)點之間的短期和長期交互,并采用SimHash來獲得緊湊的二進制表示,避免了相似度搜索的二次復(fù)雜度。在大型真實網(wǎng)絡(luò)上的大量實驗表明,node2bits的性能比傳統(tǒng)技術(shù)和現(xiàn)有工作都要好,后者在用戶拼接方面的F1分數(shù)最高可達5.16%,而存儲空間只占1.56%。
1.Introduction
個性化和推薦通過提供相關(guān)體驗和處理新聞、web搜索、娛樂等方面的在線信息過載來提高用戶滿意度。隨著時間的推移,準確地建模用戶行為和偏好是個性化的核心。然而,追蹤用戶在線活動是一項挑戰(zhàn),因為用戶每天都要與來自不同地點的數(shù)十臺聯(lián)網(wǎng)設(shè)備進行交互,導(dǎo)致用戶檔案支離破碎。如果沒有統(tǒng)一的配置文件,所觀察到的用戶數(shù)據(jù)將是稀疏的、不具有代表性的,并且對于驅(qū)動業(yè)務(wù)成功的準確預(yù)測是不夠的。
- 追蹤用戶的挑戰(zhàn)
- 用戶每天都要與來自不同地點的數(shù)十臺聯(lián)網(wǎng)設(shè)備進行交互,導(dǎo)致用戶檔案支離破碎。
在這項工作中,我們解決了身份或用戶拼接的問題,其目的是識別和分組在不同渠道、平臺、設(shè)備和瀏覽器[30]上發(fā)生的相同用戶的登錄和匿名會話。這個問題是實體或身份解析的一種形式[13,2],也稱為實體鏈接、記錄鏈接和重復(fù)檢測[6,21,2]。在實體解析中,每個用戶的文本信息(例如,姓名、地址)是可用的,而身份拼接僅依賴于用戶與在線內(nèi)容和web元數(shù)據(jù)的交互。雖然cookie可以幫助同一用戶縫幾個不同的會話,但許多用戶有多個cookie(例如,每個設(shè)備或web瀏覽器的一個cookie)[8],而且大多數(shù)cookie在短時間內(nèi)就會過期,因此不能幫助縫用戶。類似地,IP地址在不同位置的變化會導(dǎo)致在不同時間擁有相同IP地址的用戶(例如,機場)之間產(chǎn)生碎片甚至錯誤的拼接。與此同時,指紋識別方法基于設(shè)備或瀏覽器配置捕獲用戶相似度,而不是基于跨設(shè)備或瀏覽器保持一致的行為模式。另一方面,實體解析的窮舉解決方案需要所有實體對之間的二次比較,這對于大型web服務(wù)在計算上是難以處理的。這可以通過阻塞[24]的啟發(fā)式來部分處理,它將類似的實體描述分組到塊中,并且只比較同一塊中的實體。
-
本文做
- 實體鏈接
- 記錄鏈接
- 重復(fù)檢測
-
實體解析
- 每個用戶的文本信息(例如,姓名、地址)是可用的,
- 身份拼接僅依賴于用戶與在線內(nèi)容和web元數(shù)據(jù)的交互
-
使用cookie–不可用
- cookie可以幫助同一用戶縫幾個不同的會話,
- 但許多用戶有多個cookie
- 大多數(shù)cookie在短時間內(nèi)就會過期,因此不能幫助縫用戶
-
使用IP地址–不可用
- P地址在不同位置的變化會導(dǎo)致在不同時間擁有相同IP地址的用戶(例如,機場)之間產(chǎn)生碎片甚至錯誤的拼接。
-
指紋識別方法
- 基于設(shè)備或瀏覽器配置捕獲用戶相似度,而不是基于跨設(shè)備或瀏覽器保持一致的行為模式。
- 不可能用跨設(shè)備或瀏覽器
-
窮舉方案–分塊處理
- 實體解析的窮舉解決方案需要所有實體對之間的二次比較,這對于大型web服務(wù)在計算上是難以處理的。
- 這可以通過阻塞[24]的啟發(fā)式來部分處理,它將類似的實體描述分組到塊中,并且只比較同一塊中的實體。
-
解決方案的思想:
- 相似用戶::相同的用戶跨平臺訪問相似的內(nèi)容,并且隨著時間的推移具有相似的行為。
- 動態(tài)異構(gòu)網(wǎng)絡(luò)中隨時間變化的不同內(nèi)容和平臺的用戶交互進行建模,其中用戶將映射到對應(yīng)于相同現(xiàn)實實體的節(jié)點的標識。
- 在節(jié)點表示學(xué)習成功的激勵下,我們的目標是在這個豐富的交互網(wǎng)絡(luò)中找到隨時間變化的用戶配置文件的嵌入。
-
挑戰(zhàn):
- 大型圖數(shù)據(jù)–太大了
-
目標:
- 有效地找到稀疏的二進制表示
- 和基于相似活動的鏈接實體,同時
- 避免對所有用戶配置文件進行兩兩比較
-
問題1(臨時的、基于哈希的節(jié)點嵌入)。給定一個圖G (V, E),基于散列的網(wǎng)絡(luò)嵌入的目標是學(xué)習函數(shù)χ:V d{0,1}這樣派生的二進制采用嵌入
- (1)在交互空間中保持相似性在G
- (2)有效利用空間
- (3)準確地捕獲時間信息和底層網(wǎng)絡(luò)的異構(gòu)性。
-
Node2BITs:
- 它捕獲網(wǎng)絡(luò)中節(jié)點間的臨時有效交互,并
- 基于拓撲特征和
- (可選)參與交互的實體側(cè)信息。
-
本文的貢獻:
- 基于嵌入的公式:超越傳統(tǒng)的阻塞技術(shù),我們將用戶拼接的問題表述為在異構(gòu)網(wǎng)絡(luò)中尋找臨時的、基于散列的嵌入的問題,以便它們在用戶交互之間保持隨時間的相似性。
- 節(jié)省空間的嵌入:我們提出node2bits,這是一個實用、直觀、快速的框架,可以生成適合用戶拼接的緊湊的二進制嵌入。我們的方法結(jié)合了上下文的隨機步進抽樣、基于特征的直方圖表示和局部敏感哈希來保持上下文隨時間的異構(gòu)等價性。
- 廣泛的經(jīng)驗分析:我們在真實網(wǎng)絡(luò)上的實驗表明,node2bits輸出一種節(jié)省空間的二進制表示,比基線少使用63到339個空間,同時在用戶拼接任務(wù)中獲得了可比較或更好的性能。此外,node2bits對于大型的現(xiàn)實世界、時間和異構(gòu)網(wǎng)絡(luò)是可伸縮的
- https://github.com/GemsLab/node2bits.
2. 介紹兩個概念
動態(tài)異構(gòu)網(wǎng)絡(luò)模型和時間隨機游動
2.1 Dynamic Heterogeneous Network Model動態(tài)異構(gòu)網(wǎng)絡(luò)模型
- 我們將用戶與內(nèi)容、網(wǎng)站、設(shè)備等的交互建模為異構(gòu)網(wǎng)絡(luò)
- 異構(gòu)網(wǎng)絡(luò):異構(gòu)網(wǎng)絡(luò)G = (V, E,ψ,ξ)
- V:節(jié)點集合
- E:邊集
- 映射ψ:V→τV\tau_VτV?節(jié)點類型
- (iii)映射ξ:E→TE\Tau_ETE?邊集類型
- 許多圖類型是異構(gòu)網(wǎng)絡(luò)的特例:
- 同構(gòu)圖:∣τV∣=∣τE∣=1|\tau_V|=|\tau_E|=1∣τV?∣=∣τE?∣=1
- k部圖: ∣τV∣=k,∣τE∣=k?1|\tau_V|=k,|\tau_E|=k-1∣τV?∣=k,∣τE?∣=k?1
- signed network:∣τV∣=1,∣τE∣=2|\tau_V|=1,|\tau_E|=2∣τV?∣=1,∣τE?∣=2
- labeled graph: a single label per node/edge.
- 建模為連續(xù)時間的動態(tài)網(wǎng)絡(luò)
- (連續(xù)時間動態(tài)網(wǎng)絡(luò)):一個連續(xù)時間動態(tài)、異構(gòu)網(wǎng)絡(luò)G = (V, Eτ,ψ,ξ,τ)
- Eτ:時間邊
- τ:E→R+\tau:E\rightarrow R^+τ:E→R+將每條邊映射到對應(yīng)時間戳的函數(shù)
2.2 時間隨機游走
- 圖上的行走是節(jié)點序列,其中每對連續(xù)節(jié)點由一條邊連接。目前流行的網(wǎng)絡(luò)嵌入方法是使用隨機化的過程生成游動[25,14]來構(gòu)造節(jié)點ids或節(jié)點上下文的語料庫。在連續(xù)時間動態(tài)網(wǎng)絡(luò)中,時間上有效的遍歷被定義為一組節(jié)點序列,這些節(jié)點由具有非遞減時間戳的邊連接(例如,表示用戶內(nèi)容交互發(fā)生的順序),并且首次被提出并用于嵌入
- 定義:temporal walk:
- L:長度v1->vL在圖G = (V, E,ψ,ξ)
- 路徑:v1,v2,…,vL
- <vi,vi+1>∈Eτ,1≤i≤L時間順序排列:τ(vi,vi+1)≤τ(vi+1,vi+2),1≤i≤L?1<v_i,v_{i+1}>\in E_\tau ,1\leq i\leq L\\ 時間順序排列:\tau(v_i,v_{i+1})\leq\tau(v_{i+1},v_{i+2}),1\leq i\leq L-1<vi?,vi+1?>∈Eτ?,1≤i≤L時間順序排列:τ(vi?,vi+1?)≤τ(vi+1?,vi+2?),1≤i≤L?1
3NODE2BITS:基于散列的Emdedding框架
- 任務(wù):用戶拼接
- 目的:在實際交互的上下文中簡潔地描述每個節(jié)點/實體(問題1)
- 要求
- 支持異構(gòu)網(wǎng)絡(luò)
- 保證數(shù)據(jù)中事件和交互的時間有效性;
- 在運行時擴展到具有數(shù)百萬個節(jié)點/邊的大型網(wǎng)絡(luò);
- 內(nèi)存需求的規(guī)模與空間效率,但強大的二進制嵌入式可以捕獲id無關(guān)的相似性。
- 我們詳細介紹了node2bits的三個主要步驟:
- (3.1)采樣時間隨機游動和定義時間上下文;
- (3.2)基于多維特征構(gòu)建時態(tài)語境;
- (3.3)將上下文聚合和散列成稀疏嵌入。我們在圖2和算法1中給出了node2bits的概述
3.1 采樣時間隨機游動和定義時間上下文
node2bits的第一步是捕獲節(jié)點上下文中的交互,這對于用戶拼接任務(wù)非常重要:它不是簡單的交互,而是通過隨機漫步對更復(fù)雜的交互序列進行采樣。但與許多現(xiàn)有的表示學(xué)習方法不同[25,14],我們的方法通過Lstep時間隨機游走(定義3[23])對現(xiàn)實交互進行采樣,從而滿足需求R2。node2bits將節(jié)點u在時間距離t處的時間上下文CuΔtC_u^{\Delta t}CuΔt?定義為采樣的隨機游走中時間距離Δt\Delta tΔt,距離為Δt\Delta tΔt的實體集合為u的上下文。
- 通過隨機游走對更復(fù)雜的交互序列進行采樣
- 上下文:CuΔt={v:∣wK[v]?wL[u]=Δt,任意wL∈W}wL[‘]是隨即游走中對應(yīng)節(jié)點的索引上下文:C_u^{\Delta t}=\{v:|w_K[v]-w_L[u]=\Delta t,任意w_L\in W\}\\w_L[`]是隨即游走中對應(yīng)節(jié)點的索引上下文:CuΔt?={v:∣wK?[v]?wL?[u]=Δt,任意wL?∈W}wL?[‘]是隨即游走中對應(yīng)節(jié)點的索引
通常,小的時間距離值可以捕捉到實體間更直接的交互作用和相似性。在靜態(tài)圖中,?t僅僅對應(yīng)于采樣序列中節(jié)點之間的距離,沒有捕捉到任何時間信息。
時間局部性。上面定義的上下文沒有明確地包含連續(xù)采樣的交互之間經(jīng)過的時間。然而,在建模臨時用戶交互時,區(qū)分短期轉(zhuǎn)換和長期轉(zhuǎn)換非常重要。受[23]的啟發(fā),node2bits解釋了連續(xù)上下文之間的緊密性或局部性(例如,CuΔt和CuΔt+1C_u^{\Delta t}和C_u^{\Delta t+1}CuΔt?和CuΔt+1?)通過不同的偏置時間步長策略。例如,在短期策略中,節(jié)點u到v的
轉(zhuǎn)移概率為softmax函數(shù)
- short-term transitions
- 轉(zhuǎn)移概率:p(v∣u)=exp(?τ(u,v)/d)Σi∈Tτ(u)exp(?τ(u,i)/d)p(v|u)=\frac{exp(-\tau(u,v)/d)}{\Sigma_{i\in \Tau_\tau(u)}exp(-\tau(u,i)/d)}p(v∣u)=Σi∈Tτ?(u)?exp(?τ(u,i)/d)exp(?τ(u,v)/d)?softmax
- d=maxe∈Eττ(e)?mine∈Eττ(e)d=max_{e\in E_\tau}\tau(e)-min_{e\in E_\tau}\tau(e)d=maxe∈Eτ??τ(e)?mine∈Eτ??τ(e) 所有時間戳的總持續(xù)時間,
- Tτ(u)\Tau_\tau(u)Tτ?(u)時間鄰域的集合:從節(jié)點u通過時間有效邊到達。
- long-term transitions
- 轉(zhuǎn)移概率同上
- 同樣,在長期政策中,節(jié)點u到v的轉(zhuǎn)移概率如式(2)所示,但分子分母上都有正的符號。
3.2 基于多維特征的時態(tài)語境(上下文
式(1)中的上下文取決于節(jié)點標識(IDs)。然而,在多平臺環(huán)境中,單個實體可能有多個節(jié)點id,因此可能導(dǎo)致看起來不同的上下文。為了生成與身份無關(guān)的適合用戶拼接的上下文,我們通過假設(shè)相應(yīng)或相似的實體具有相似的特征,使時態(tài)上下文具有屬性感知或特征感知(R1)。正式,我們假設(shè)一個網(wǎng)絡(luò)可能有一組輸入節(jié)點屬性(如IP地址,設(shè)備類型),以及一組導(dǎo)出拓撲特性(例如,學(xué)位,PageRank),所有這些都存儲在一個N
x|F
|特性矩陣F(圖2中,步驟1)。然后,我們推廣我們的隨機漫步不僅依據(jù)時間(R2)[23],還捕獲這個特性信息使用的概念認為/特點走在[1提出
- 與id無關(guān)的上下文:我們通過假設(shè)相應(yīng)或相似的實體具有相似的特征,使時態(tài)上下文具有屬性感知或特征感知(R1)
- 基于特征的時間隨機游走:(通用的
3.3基于特征的上下文聚合和散列
用戶縫合的關(guān)鍵點是,隨著時間的推移,每個用戶都通過類似的關(guān)系與類似類型的實體進行交互:例如,在在線銷售日志中,用戶可能在登錄和匿名會話中瀏覽類似類型的商品;在在線社交網(wǎng)絡(luò)中,分享幾乎相同的互動模式(如回復(fù)或分享)的賬戶可能來自同一個人。基于這一認識,node2bits使用節(jié)點類型(以及隱含的對應(yīng)關(guān)系或邊緣類型)增強了先前生成的時間、多維特征上下文,這是異構(gòu)網(wǎng)絡(luò)(R1)的一個關(guān)鍵屬性。隨后,它將它們聚合起來,并通過對位置敏感的哈希得到保持相似性和節(jié)省空間的二進制實體表示(R4)。
- 關(guān)鍵點:行為相似的用戶是同一個人。
- node2bits:上下文(節(jié)點類型+時間+多維特征)->聚合->位置敏感的hash保持相似性,二進制實體表示
context聚合。與現(xiàn)有的將上下文特征聚合成單個值(如平均值或最大值)的工作不同[15,29],node2bits將它們聚合成更低損耗的表示形式:通過區(qū)分節(jié)點類型(R1)為異構(gòu)網(wǎng)絡(luò)定制的直方圖。具體地,通過進一步將式(4)中的導(dǎo)出上下文條件設(shè)置在節(jié)點類型pi∈Tvp_i\in\Tau_vpi?∈Tv?(即,每個時態(tài)上下文只包含一個節(jié)點類型的特征)。我們將基于特征和節(jié)點類型的時間上下文表示為CuΔt∣f,pC_u^{\Delta t}|f,pCuΔt?∣f,p。節(jié)點u在時間距離t處的最終直方圖表示由t處條件上下文上的直方圖連接組成(圖2,步驟3)。
在這種表示法中,特征被對數(shù)地結(jié)合起來,以解釋結(jié)構(gòu)特征(如度)的經(jīng)常偏態(tài)分布。我們注意到,直方圖可以進一步擴展到[19]中所示的邊緣類型,例如,通過區(qū)分由多種類型的邊緣連接的節(jié)點對。
- simHash:保持相似性的hash表示(也保證了空間效率
- 余弦相似度也被映射過去了
- 余弦相似度也被映射過去了
4.EXPERIMENTS
- 標準
- 有效嗎?
- 比以前好嘛
- 可擴展嗎
- 空間需求低否
- 任務(wù)構(gòu)建
- 用戶鏈接–二元分類任務(wù),每一對節(jié)點,是否是一個人?
- 用戶鏈接–二元分類任務(wù),每一對節(jié)點,是否是一個人?
總結(jié)
以上是生活随笔為你收集整理的论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【搜索/推荐排序】总结
- 下一篇: IDEA Pycharm 等工具