日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据产品-规则型和挖掘型标签构建案例

發(fā)布時間:2025/3/17 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据产品-规则型和挖掘型标签构建案例 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

數(shù)據(jù)產(chǎn)品經(jīng)理在構建數(shù)據(jù)標簽的過程中,最為常見的是構建統(tǒng)計性的標簽,其很大原因是統(tǒng)計型標簽的可解釋型比較強,開發(fā)周期很短,容易根據(jù)業(yè)務需要進行調(diào)整。而對于規(guī)則型和挖掘型標簽,其構建周期較長,而且可解釋性較差,很難真正定義一個挖掘型標簽是絕對的可應用型。但作為數(shù)據(jù)產(chǎn)品經(jīng)理,需要知曉這兩種類型標簽的構建過程,也需要了解一些統(tǒng)計學理論和算法理論,才能夠在需要之時構建對應的標簽

一、規(guī)則型-用戶生命周期分組

1、背景說明

通過生命周期的判定,對不同階段用戶采取不同運營手段,結(jié)合后續(xù)用戶中心的流失預警建立,減少用戶流失,及時挽回沉默、流失用戶,并根據(jù)數(shù)據(jù)分析結(jié)果形成通用規(guī)則型標簽

2、用戶分組劃分核心

五個分組:新手期賬號、新增賬號流失、活躍賬號、沉默賬號、活躍賬號流失
①活躍用戶:連續(xù)多久未上線可以判定流失?
②新用戶:注冊后多久未上線可以判定當日流失?

3、流失劃分核心點

①“新用戶流失界線”:新用戶注冊后連續(xù)m天未上線——找到m值
②“活躍用戶流失界線”:活躍用戶連續(xù)n天未上線-----找到n值
注:當新用戶在注冊后m天內(nèi)有過上線,即切換活躍用戶流失界線的口徑來計算流失

4、根據(jù)二八原則尋找分界點

①新用戶流失界限分界點
A、注冊當天為第0天
B、樣本選取T日的新注冊賬號;T范圍限定在7.1-10.30期間,樣本量為7017235
C、連續(xù)Y天未上線新用戶的回流率=注冊后連續(xù)Y天未上線的用戶在T+Y+1日及之后(截止至11.27)有過回流的人數(shù)/連續(xù)Y天未上線的新用戶總數(shù)

結(jié)論:根據(jù)二八原則,找到回流率20%的分界點對應的天數(shù)值作為新用戶流失界限的分界點為6天,即新用戶注冊后,第1-6天均未上線視為當日流失用戶

②活躍用戶流失界限分界點
A、樣本選取距離11.27日,182天(即5.28)之前的活躍用戶;樣本量為5180595
B、最后一次活躍間隔天數(shù)=活躍用戶的最后一次活躍時間-上一次活躍時間

結(jié)論:根據(jù)二八原則,找到80%人數(shù)占比的分界點為活躍流失用戶的分界點為27天,再找有百分之50%會再次活躍的人群定義為活躍用戶,找到分界點為3天。即連續(xù)3天至27天未上線的用戶,視為沉默用戶;連續(xù)27天以上未上線的活躍用戶,有80%的可能性不會再上線,視為流失用戶

5、用戶生命周期分層


說明:以此分層信息,可以構建用戶生命周期標簽,基于不同的數(shù)值區(qū)間劃分對應的分組信息

二、挖掘型-賬號流失概率

1、賬號流失概率

基于用戶生命周期分組進行預測
說明:
A、新增賬號流失&活躍賬號流失:流失概率100%
B、新手期賬號屬于新賬號
C、活躍賬號、沉默賬號屬于老賬號
計算規(guī)則:計算每一個賬號截至計算時的流失概率

2、判斷過程

使用不同的模型和特征對新賬號和老賬號進行流失概率判定
A、特征選取:主要是用戶的登錄上線情況特征,基于算法訓練提取主要影響特征因素

B、驗收方法:使用測試集,比較其【流失概率】和【實際是否流失】的AUC (Area Under Curve) 值
C、驗收標準:AUC值的分布(具有通用的行業(yè)取值分層值,至少需要大于0.5)
AUC值解釋(百度百科)
AUC = 1,是完美分類器
AUC = [0.85, 0.95], 效果很好
AUC = [0.7, 0.85], 效果一般
AUC = [0.5, 0.7],效果較低,但用于預測股票已經(jīng)很不錯了
AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值
AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優(yōu)于隨機猜測

3、模型部署

算法訓練過程的細節(jié)不太理解,感興趣的可以自己多去了解。將模型訓練完成后進行部署定期計算并進行增量數(shù)據(jù)存儲,記錄每天對應用戶數(shù)值情況,形成挖掘型標簽

三、挖掘型-用戶內(nèi)容偏好

用戶偏好內(nèi)容(TF-IDF):構建用戶的內(nèi)容分類的偏好情況標簽

1、結(jié)果1:無場景權重

A、對內(nèi)容單元互動行為內(nèi)容分類TF-IDF算法求出每個用戶身上內(nèi)容分類標簽的無場景權重
B、內(nèi)容分類標簽的綜合權重基于以下數(shù)據(jù),求出每個用戶身上的內(nèi)容分類標簽的綜合權重:- 內(nèi)容分類標簽的無場景權重
a) 行為次數(shù) (根據(jù)行為數(shù)據(jù)統(tǒng)計得出)
b) 行為類型權重 (自定義)
c) 時間衰減函數(shù) (暫用牛頓冷卻定律)
基于相關系數(shù)矩陣的內(nèi)容分類標簽相關性舉個例子:用戶1身上打上了5個A標簽、2個B標簽、1個C標簽;用戶2身上打上了4個A標簽,3個B標簽;用戶3身上打上了4個C標簽、1個D標簽。用個圖象表示一下:那么同時打上A、B標簽的用戶有兩個人,這就說明AB之間可能存在某種相關性
d) 用戶:以賬號 (User ID)為統(tǒng)計口徑
e) 標簽:內(nèi)容單元的分類標簽
我們用- w(P, T) 表示一個標簽T被用于標記用戶P的次數(shù)
a) TF(P, T) 表示這個標記次數(shù)在用戶P所有標簽中所占的比重
b) IDF(P, T) 表示標簽T在全部標簽中的稀缺程度,即這個標簽的出現(xiàn)幾率
用戶P對于標簽T的無場景權重 = TF(P, T) * IDF(P, T)

2、結(jié)果2:綜合權重

a) “TF-IDF計算得到每個用戶身上的標簽權重”即上一步的無場景權重
b) “行為次數(shù)”由行為數(shù)據(jù)統(tǒng)計得出(行為權重更多的是基于業(yè)務判斷,對動作的大小進行權重分數(shù)賦予,不用業(yè)務場景給予權重不同,根據(jù)實際業(yè)務情況確定)

牛頓冷卻定律的數(shù)學模型
F(t) = 初始溫度 × exp( -冷卻系數(shù) × 間隔的時間 )
補充(基于實際的業(yè)務去定義冷卻系數(shù)的計算):指定14天后降為初始值的0.5,即 __ 0.5=1×exp(-__α×14)

3、應用說明:

通過TF-IDF算法,結(jié)合時間衰減因素后,得出該用戶最喜歡的 TopN 風格分類。
舉例:
選擇“Top 3 包含 古風、校園、戀愛”表示“古風 或 校園 或 戀愛 中任意一個屬于該用戶最喜歡的前3個風格”
選擇“Top 1 包含 古風、校園、戀愛”表示“古風 或 校園 或 戀愛 中任意一個屬于該用戶最喜歡的第1個風格”

四、規(guī)則型-影響力標簽

(絕對排名、百分比排位,定位出個人的影響力)

1、絕對排名

將用戶按單篇發(fā)布頻率從大到小排列,排名a表示該用戶的單篇發(fā)布頻率排在第a位。允許并列,并列的下一名需跳過并列人數(shù)。如3人并列第1,則無第2、3名,下一位是第4名

2、百分比排位

表示該用戶的單篇發(fā)布頻率高于b%的樣本,類似四分位數(shù),可參考 Excel “PERCENTRANK”函數(shù)

總結(jié)

以上是生活随笔為你收集整理的数据产品-规则型和挖掘型标签构建案例的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。