日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching

發(fā)布時間:2024/7/5 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • 摘要
  • 1.Introduction
  • 2. 介紹兩個概念
    • 2.1 Dynamic Heterogeneous Network Model動態(tài)異構網(wǎng)絡模型
    • 2.2 時間隨機游走
  • 3NODE2BITS:基于散列的Emdedding框架
    • 3.1 采樣時間隨機游動和定義時間上下文
    • 3.2 基于多維特征的時態(tài)語境(上下文
    • 3.3基于特征的上下文聚合和散列
  • 4.EXPERIMENTS

摘要

在真實的web服務中,識別和匹配各種在線引用(例如,在不同設備和時間段上的會話)到同一用戶的任務對于個性化和推薦是至關重要的。然而,傳統(tǒng)的用戶拼接方法(如分組或阻塞)需要對大量用戶活動進行兩兩比較,從而對計算和存儲都造成了挑戰(zhàn)。最近的作品,往往是應用特定的,啟發(fā)式地尋求減少比較的數(shù)量,但他們遭受低精度和回憶。為了以與應用程序無關的方式解決這個問題,我們采用了一種基于異構網(wǎng)絡的方法,其中用戶(節(jié)點)與內(nèi)容(如會話、網(wǎng)站)交互,并且可能具有屬性(如位置)。我們提出了node2bits,這是一種使用二進制哈希碼表示節(jié)點上下文多維特征的高效框架。node2bits利用基于特征的時間步來封裝異構web網(wǎng)絡中節(jié)點之間的短期和長期交互,并采用SimHash來獲得緊湊的二進制表示,避免了相似度搜索的二次復雜度。在大型真實網(wǎng)絡上的大量實驗表明,node2bits的性能比傳統(tǒng)技術和現(xiàn)有工作都要好,后者在用戶拼接方面的F1分數(shù)最高可達5.16%,而存儲空間只占1.56%。

1.Introduction

個性化和推薦通過提供相關體驗和處理新聞、web搜索、娛樂等方面的在線信息過載來提高用戶滿意度。隨著時間的推移,準確地建模用戶行為和偏好是個性化的核心。然而,追蹤用戶在線活動是一項挑戰(zhàn),因為用戶每天都要與來自不同地點的數(shù)十臺聯(lián)網(wǎng)設備進行交互,導致用戶檔案支離破碎。如果沒有統(tǒng)一的配置文件,所觀察到的用戶數(shù)據(jù)將是稀疏的、不具有代表性的,并且對于驅(qū)動業(yè)務成功的準確預測是不夠的。

  • 追蹤用戶的挑戰(zhàn)
    • 用戶每天都要與來自不同地點的數(shù)十臺聯(lián)網(wǎng)設備進行交互,導致用戶檔案支離破碎。

在這項工作中,我們解決了身份或用戶拼接的問題,其目的是識別和分組在不同渠道、平臺、設備和瀏覽器[30]上發(fā)生的相同用戶的登錄和匿名會話。這個問題是實體或身份解析的一種形式[13,2],也稱為實體鏈接、記錄鏈接和重復檢測[6,21,2]。在實體解析中,每個用戶的文本信息(例如,姓名、地址)是可用的,而身份拼接僅依賴于用戶與在線內(nèi)容和web元數(shù)據(jù)的交互。雖然cookie可以幫助同一用戶縫幾個不同的會話,但許多用戶有多個cookie(例如,每個設備或web瀏覽器的一個cookie)[8],而且大多數(shù)cookie在短時間內(nèi)就會過期,因此不能幫助縫用戶。類似地,IP地址在不同位置的變化會導致在不同時間擁有相同IP地址的用戶(例如,機場)之間產(chǎn)生碎片甚至錯誤的拼接。與此同時,指紋識別方法基于設備或瀏覽器配置捕獲用戶相似度,而不是基于跨設備或瀏覽器保持一致的行為模式。另一方面,實體解析的窮舉解決方案需要所有實體對之間的二次比較,這對于大型web服務在計算上是難以處理的。這可以通過阻塞[24]的啟發(fā)式來部分處理,它將類似的實體描述分組到塊中,并且只比較同一塊中的實體。

  • 本文做

    • 實體鏈接
    • 記錄鏈接
    • 重復檢測
  • 實體解析

    • 每個用戶的文本信息(例如,姓名、地址)是可用的,
    • 身份拼接僅依賴于用戶與在線內(nèi)容和web元數(shù)據(jù)的交互
  • 使用cookie–不可用

    • cookie可以幫助同一用戶縫幾個不同的會話,
    • 但許多用戶有多個cookie
    • 大多數(shù)cookie在短時間內(nèi)就會過期,因此不能幫助縫用戶
  • 使用IP地址–不可用

    • P地址在不同位置的變化會導致在不同時間擁有相同IP地址的用戶(例如,機場)之間產(chǎn)生碎片甚至錯誤的拼接。
  • 指紋識別方法

    • 基于設備或瀏覽器配置捕獲用戶相似度,而不是基于跨設備或瀏覽器保持一致的行為模式。
    • 不可能用跨設備或瀏覽器
  • 窮舉方案–分塊處理

    • 實體解析的窮舉解決方案需要所有實體對之間的二次比較,這對于大型web服務在計算上是難以處理的。
    • 這可以通過阻塞[24]的啟發(fā)式來部分處理,它將類似的實體描述分組到塊中,并且只比較同一塊中的實體。
  • 解決方案的思想:

    • 相似用戶::相同的用戶跨平臺訪問相似的內(nèi)容,并且隨著時間的推移具有相似的行為。
    • 動態(tài)異構網(wǎng)絡中隨時間變化的不同內(nèi)容和平臺的用戶交互進行建模,其中用戶將映射到對應于相同現(xiàn)實實體的節(jié)點的標識。
    • 在節(jié)點表示學習成功的激勵下,我們的目標是在這個豐富的交互網(wǎng)絡中找到隨時間變化的用戶配置文件的嵌入。
  • 挑戰(zhàn):

    • 大型圖數(shù)據(jù)–太大了
  • 目標:

    • 有效地找到稀疏的二進制表示
    • 和基于相似活動的鏈接實體,同時
    • 避免對所有用戶配置文件進行兩兩比較
  • 問題1(臨時的、基于哈希的節(jié)點嵌入)。給定一個圖G (V, E),基于散列的網(wǎng)絡嵌入的目標是學習函數(shù)χ:V d{0,1}這樣派生的二進制采用嵌入

    • (1)在交互空間中保持相似性在G
    • (2)有效利用空間
    • (3)準確地捕獲時間信息和底層網(wǎng)絡的異構性。
  • Node2BITs:

    • 它捕獲網(wǎng)絡中節(jié)點間的臨時有效交互,并
    • 基于拓撲特征和
    • (可選)參與交互的實體側(cè)信息。
  • 本文的貢獻:

    • 基于嵌入的公式:超越傳統(tǒng)的阻塞技術,我們將用戶拼接的問題表述為在異構網(wǎng)絡中尋找臨時的、基于散列的嵌入的問題,以便它們在用戶交互之間保持隨時間的相似性。
    • 節(jié)省空間的嵌入:我們提出node2bits,這是一個實用、直觀、快速的框架,可以生成適合用戶拼接的緊湊的二進制嵌入。我們的方法結合了上下文的隨機步進抽樣、基于特征的直方圖表示和局部敏感哈希來保持上下文隨時間的異構等價性。
    • 廣泛的經(jīng)驗分析:我們在真實網(wǎng)絡上的實驗表明,node2bits輸出一種節(jié)省空間的二進制表示,比基線少使用63到339個空間,同時在用戶拼接任務中獲得了可比較或更好的性能。此外,node2bits對于大型的現(xiàn)實世界、時間和異構網(wǎng)絡是可伸縮的
    • https://github.com/GemsLab/node2bits.

2. 介紹兩個概念


動態(tài)異構網(wǎng)絡模型和時間隨機游動

2.1 Dynamic Heterogeneous Network Model動態(tài)異構網(wǎng)絡模型

  • 我們將用戶與內(nèi)容、網(wǎng)站、設備等的交互建模為異構網(wǎng)絡
  • 異構網(wǎng)絡:異構網(wǎng)絡G = (V, E,ψ,ξ)
    • V:節(jié)點集合
    • E:邊集
    • 映射ψ:V→τV\tau_VτV?節(jié)點類型
    • (iii)映射ξ:E→TE\Tau_ETE?邊集類型
  • 許多圖類型是異構網(wǎng)絡的特例:
    • 同構圖:∣τV∣=∣τE∣=1|\tau_V|=|\tau_E|=1τV?=τE?=1
    • k部圖: ∣τV∣=k,∣τE∣=k?1|\tau_V|=k,|\tau_E|=k-1τV?=k,τE?=k?1
    • signed network:∣τV∣=1,∣τE∣=2|\tau_V|=1,|\tau_E|=2τV?=1,τE?=2
    • labeled graph: a single label per node/edge.
  • 建模為連續(xù)時間的動態(tài)網(wǎng)絡
  • (連續(xù)時間動態(tài)網(wǎng)絡):一個連續(xù)時間動態(tài)、異構網(wǎng)絡G = (V, Eτ,ψ,ξ,τ)
    • Eτ:時間邊
    • τ:E→R+\tau:E\rightarrow R^+τ:ER+將每條邊映射到對應時間戳的函數(shù)

2.2 時間隨機游走

  • 圖上的行走是節(jié)點序列,其中每對連續(xù)節(jié)點由一條邊連接。目前流行的網(wǎng)絡嵌入方法是使用隨機化的過程生成游動[25,14]來構造節(jié)點ids或節(jié)點上下文的語料庫。在連續(xù)時間動態(tài)網(wǎng)絡中,時間上有效的遍歷被定義為一組節(jié)點序列,這些節(jié)點由具有非遞減時間戳的邊連接(例如,表示用戶內(nèi)容交互發(fā)生的順序),并且首次被提出并用于嵌入
  • 定義:temporal walk:
    • L:長度v1->vL在圖G = (V, E,ψ,ξ)
    • 路徑:v1,v2,…,vL
    • <vi,vi+1>∈Eτ,1≤i≤L時間順序排列:τ(vi,vi+1)≤τ(vi+1,vi+2),1≤i≤L?1<v_i,v_{i+1}>\in E_\tau ,1\leq i\leq L\\ 時間順序排列:\tau(v_i,v_{i+1})\leq\tau(v_{i+1},v_{i+2}),1\leq i\leq L-1<vi?,vi+1?>Eτ?,1iLτ(vi?,vi+1?)τ(vi+1?,vi+2?),1iL?1

3NODE2BITS:基于散列的Emdedding框架

  • 任務:用戶拼接
  • 目的:在實際交互的上下文中簡潔地描述每個節(jié)點/實體(問題1)
  • 要求
  • 支持異構網(wǎng)絡
  • 保證數(shù)據(jù)中事件和交互的時間有效性;
  • 在運行時擴展到具有數(shù)百萬個節(jié)點/邊的大型網(wǎng)絡;
  • 內(nèi)存需求的規(guī)模與空間效率,但強大的二進制嵌入式可以捕獲id無關的相似性。
  • 我們詳細介紹了node2bits的三個主要步驟:
    • (3.1)采樣時間隨機游動和定義時間上下文;
    • (3.2)基于多維特征構建時態(tài)語境;
    • (3.3)將上下文聚合和散列成稀疏嵌入。我們在圖2和算法1中給出了node2bits的概述

3.1 采樣時間隨機游動和定義時間上下文

node2bits的第一步是捕獲節(jié)點上下文中的交互,這對于用戶拼接任務非常重要:它不是簡單的交互,而是通過隨機漫步對更復雜的交互序列進行采樣。但與許多現(xiàn)有的表示學習方法不同[25,14],我們的方法通過Lstep時間隨機游走(定義3[23])對現(xiàn)實交互進行采樣,從而滿足需求R2。node2bits將節(jié)點u在時間距離t處的時間上下文CuΔtC_u^{\Delta t}CuΔt?定義為采樣的隨機游走中時間距離Δt\Delta tΔt,距離為Δt\Delta tΔt的實體集合為u的上下文。

  • 通過隨機游走對更復雜的交互序列進行采樣
  • 上下文:CuΔt={v:∣wK[v]?wL[u]=Δt,任意wL∈W}wL[‘]是隨即游走中對應節(jié)點的索引上下文:C_u^{\Delta t}=\{v:|w_K[v]-w_L[u]=\Delta t,任意w_L\in W\}\\w_L[`]是隨即游走中對應節(jié)點的索引CuΔt?={v:wK?[v]?wL?[u]=Δt,wL?W}wL?[]節(jié)

通常,小的時間距離值可以捕捉到實體間更直接的交互作用和相似性。在靜態(tài)圖中,?t僅僅對應于采樣序列中節(jié)點之間的距離,沒有捕捉到任何時間信息。
時間局部性。上面定義的上下文沒有明確地包含連續(xù)采樣的交互之間經(jīng)過的時間。然而,在建模臨時用戶交互時,區(qū)分短期轉(zhuǎn)換和長期轉(zhuǎn)換非常重要。受[23]的啟發(fā),node2bits解釋了連續(xù)上下文之間的緊密性或局部性(例如,CuΔt和CuΔt+1C_u^{\Delta t}和C_u^{\Delta t+1}CuΔt?CuΔt+1?)通過不同的偏置時間步長策略。例如,在短期策略中,節(jié)點u到v的

轉(zhuǎn)移概率為softmax函數(shù)

  • short-term transitions
  • 轉(zhuǎn)移概率:p(v∣u)=exp(?τ(u,v)/d)Σi∈Tτ(u)exp(?τ(u,i)/d)p(v|u)=\frac{exp(-\tau(u,v)/d)}{\Sigma_{i\in \Tau_\tau(u)}exp(-\tau(u,i)/d)}p(vu)=ΣiTτ?(u)?exp(?τ(u,i)/d)exp(?τ(u,v)/d)?softmax
    • d=maxe∈Eττ(e)?mine∈Eττ(e)d=max_{e\in E_\tau}\tau(e)-min_{e\in E_\tau}\tau(e)d=maxeEτ??τ(e)?mineEτ??τ(e) 所有時間戳的總持續(xù)時間,
    • Tτ(u)\Tau_\tau(u)Tτ?(u)時間鄰域的集合:從節(jié)點u通過時間有效邊到達。
  • long-term transitions
    • 轉(zhuǎn)移概率同上
    • 同樣,在長期政策中,節(jié)點u到v的轉(zhuǎn)移概率如式(2)所示,但分子分母上都有正的符號。

3.2 基于多維特征的時態(tài)語境(上下文

式(1)中的上下文取決于節(jié)點標識(IDs)。然而,在多平臺環(huán)境中,單個實體可能有多個節(jié)點id,因此可能導致看起來不同的上下文。為了生成與身份無關的適合用戶拼接的上下文,我們通過假設相應或相似的實體具有相似的特征,使時態(tài)上下文具有屬性感知或特征感知(R1)。正式,我們假設一個網(wǎng)絡可能有一組輸入節(jié)點屬性(如IP地址,設備類型),以及一組導出拓撲特性(例如,學位,PageRank),所有這些都存儲在一個N
x|F
|特性矩陣F(圖2中,步驟1)。然后,我們推廣我們的隨機漫步不僅依據(jù)時間(R2)[23],還捕獲這個特性信息使用的概念認為/特點走在[1提出

  • 與id無關的上下文:我們通過假設相應或相似的實體具有相似的特征,使時態(tài)上下文具有屬性感知或特征感知(R1)
  • 基于特征的時間隨機游走:(通用的

3.3基于特征的上下文聚合和散列

用戶縫合的關鍵點是,隨著時間的推移,每個用戶都通過類似的關系與類似類型的實體進行交互:例如,在在線銷售日志中,用戶可能在登錄和匿名會話中瀏覽類似類型的商品;在在線社交網(wǎng)絡中,分享幾乎相同的互動模式(如回復或分享)的賬戶可能來自同一個人。基于這一認識,node2bits使用節(jié)點類型(以及隱含的對應關系或邊緣類型)增強了先前生成的時間、多維特征上下文,這是異構網(wǎng)絡(R1)的一個關鍵屬性。隨后,它將它們聚合起來,并通過對位置敏感的哈希得到保持相似性和節(jié)省空間的二進制實體表示(R4)。

  • 關鍵點:行為相似的用戶是同一個人。
  • node2bits:上下文(節(jié)點類型+時間+多維特征)->聚合->位置敏感的hash保持相似性,二進制實體表示

context聚合。與現(xiàn)有的將上下文特征聚合成單個值(如平均值或最大值)的工作不同[15,29],node2bits將它們聚合成更低損耗的表示形式:通過區(qū)分節(jié)點類型(R1)為異構網(wǎng)絡定制的直方圖。具體地,通過進一步將式(4)中的導出上下文條件設置在節(jié)點類型pi∈Tvp_i\in\Tau_vpi?Tv?(即,每個時態(tài)上下文只包含一個節(jié)點類型的特征)。我們將基于特征和節(jié)點類型的時間上下文表示為CuΔt∣f,pC_u^{\Delta t}|f,pCuΔt?f,p。節(jié)點u在時間距離t處的最終直方圖表示由t處條件上下文上的直方圖連接組成(圖2,步驟3)。
在這種表示法中,特征被對數(shù)地結合起來,以解釋結構特征(如度)的經(jīng)常偏態(tài)分布。我們注意到,直方圖可以進一步擴展到[19]中所示的邊緣類型,例如,通過區(qū)分由多種類型的邊緣連接的節(jié)點對。

  • simHash:保持相似性的hash表示(也保證了空間效率
    • 余弦相似度也被映射過去了

4.EXPERIMENTS

  • 標準
    • 有效嗎?
    • 比以前好嘛
    • 可擴展嗎
    • 空間需求低否
  • 任務構建
    • 用戶鏈接–二元分類任務,每一對節(jié)點,是否是一個人?

總結

以上是生活随笔為你收集整理的论文学习5-NODE2BITS: Compact Time- and Attribute-aware Node Representations for User Stitching的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。