當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据产品-规则型和挖掘型标签构建案例

發布時間：2025/3/17 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了数据产品-规则型和挖掘型标签构建案例小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據產品經理在構建數據標簽的過程中，最為常見的是構建統計性的標簽，其很大原因是統計型標簽的可解釋型比較強，開發周期很短，容易根據業務需要進行調整。而對于規則型和挖掘型標簽，其構建周期較長，而且可解釋性較差，很難真正定義一個挖掘型標簽是絕對的可應用型。但作為數據產品經理，需要知曉這兩種類型標簽的構建過程，也需要了解一些統計學理論和算法理論，才能夠在需要之時構建對應的標簽

一、規則型-用戶生命周期分組

1、背景說明

通過生命周期的判定，對不同階段用戶采取不同運營手段，結合后續用戶中心的流失預警建立，減少用戶流失，及時挽回沉默、流失用戶，并根據數據分析結果形成通用規則型標簽

2、用戶分組劃分核心

五個分組：新手期賬號、新增賬號流失、活躍賬號、沉默賬號、活躍賬號流失
①活躍用戶：連續多久未上線可以判定流失？
②新用戶：注冊后多久未上線可以判定當日流失？

3、流失劃分核心點

①“新用戶流失界線”：新用戶注冊后連續m天未上線——找到m值
②“活躍用戶流失界線”：活躍用戶連續n天未上線-----找到n值
注：當新用戶在注冊后m天內有過上線，即切換活躍用戶流失界線的口徑來計算流失

4、根據二八原則尋找分界點

①新用戶流失界限分界點
A、注冊當天為第0天
B、樣本選取T日的新注冊賬號；T范圍限定在7.1-10.30期間，樣本量為7017235
C、連續Y天未上線新用戶的回流率=注冊后連續Y天未上線的用戶在T+Y+1日及之后（截止至11.27）有過回流的人數/連續Y天未上線的新用戶總數

結論：根據二八原則，找到回流率20%的分界點對應的天數值作為新用戶流失界限的分界點為6天，即新用戶注冊后，第1-6天均未上線視為當日流失用戶

②活躍用戶流失界限分界點
A、樣本選取距離11.27日，182天（即5.28）之前的活躍用戶；樣本量為5180595
B、最后一次活躍間隔天數=活躍用戶的最后一次活躍時間-上一次活躍時間

結論：根據二八原則，找到80%人數占比的分界點為活躍流失用戶的分界點為27天，再找有百分之50%會再次活躍的人群定義為活躍用戶，找到分界點為3天。即連續3天至27天未上線的用戶，視為沉默用戶；連續27天以上未上線的活躍用戶，有80%的可能性不會再上線，視為流失用戶

5、用戶生命周期分層

說明：以此分層信息，可以構建用戶生命周期標簽，基于不同的數值區間劃分對應的分組信息

二、挖掘型-賬號流失概率

1、賬號流失概率

基于用戶生命周期分組進行預測
說明：
A、新增賬號流失&活躍賬號流失：流失概率100%
B、新手期賬號屬于新賬號
C、活躍賬號、沉默賬號屬于老賬號
計算規則：計算每一個賬號截至計算時的流失概率

2、判斷過程

使用不同的模型和特征對新賬號和老賬號進行流失概率判定
A、特征選取：主要是用戶的登錄上線情況特征，基于算法訓練提取主要影響特征因素

B、驗收方法：使用測試集，比較其【流失概率】和【實際是否流失】的AUC (Area Under Curve) 值
C、驗收標準：AUC值的分布（具有通用的行業取值分層值，至少需要大于0.5）
AUC值解釋（百度百科）
AUC = 1，是完美分類器
AUC = [0.85, 0.95], 效果很好
AUC = [0.7, 0.85], 效果一般
AUC = [0.5, 0.7],效果較低，但用于預測股票已經很不錯了
AUC = 0.5，跟隨機猜測一樣（例：丟銅板），模型沒有預測價值
AUC < 0.5，比隨機猜測還差；但只要總是反預測而行，就優于隨機猜測

3、模型部署

算法訓練過程的細節不太理解，感興趣的可以自己多去了解。將模型訓練完成后進行部署定期計算并進行增量數據存儲，記錄每天對應用戶數值情況，形成挖掘型標簽

三、挖掘型-用戶內容偏好

用戶偏好內容（TF-IDF）：構建用戶的內容分類的偏好情況標簽

1、結果1：無場景權重

A、對內容單元互動行為內容分類TF-IDF算法求出每個用戶身上內容分類標簽的無場景權重
B、內容分類標簽的綜合權重基于以下數據，求出每個用戶身上的內容分類標簽的綜合權重：- 內容分類標簽的無場景權重
a) 行為次數 (根據行為數據統計得出)
b) 行為類型權重 (自定義)
c) 時間衰減函數 (暫用牛頓冷卻定律)
基于相關系數矩陣的內容分類標簽相關性舉個例子：用戶1身上打上了5個A標簽、2個B標簽、1個C標簽；用戶2身上打上了4個A標簽，3個B標簽；用戶3身上打上了4個C標簽、1個D標簽。用個圖象表示一下：那么同時打上A、B標簽的用戶有兩個人，這就說明AB之間可能存在某種相關性
d) 用戶：以賬號 (User ID)為統計口徑
e) 標簽：內容單元的分類標簽
我們用- w(P, T) 表示一個標簽T被用于標記用戶P的次數
a) TF(P, T) 表示這個標記次數在用戶P所有標簽中所占的比重
b) IDF(P, T) 表示標簽T在全部標簽中的稀缺程度，即這個標簽的出現幾率
用戶P對于標簽T的無場景權重 = TF(P, T) * IDF(P, T)

2、結果2：綜合權重

a) “TF-IDF計算得到每個用戶身上的標簽權重”即上一步的無場景權重
b) “行為次數”由行為數據統計得出（行為權重更多的是基于業務判斷，對動作的大小進行權重分數賦予，不用業務場景給予權重不同，根據實際業務情況確定）

牛頓冷卻定律的數學模型
F(t) = 初始溫度 × exp( -冷卻系數 × 間隔的時間 )
補充（基于實際的業務去定義冷卻系數的計算）：指定14天后降為初始值的0.5，即 __ 0.5=1×exp(-__α×14)

3、應用說明：

通過TF-IDF算法，結合時間衰減因素后，得出該用戶最喜歡的 TopN 風格分類。
舉例：
選擇“Top 3 包含古風、校園、戀愛”表示“古風或校園或戀愛中任意一個屬于該用戶最喜歡的前3個風格”
選擇“Top 1 包含古風、校園、戀愛”表示“古風或校園或戀愛中任意一個屬于該用戶最喜歡的第1個風格”

四、規則型-影響力標簽

（絕對排名、百分比排位，定位出個人的影響力）

1、絕對排名

將用戶按單篇發布頻率從大到小排列，排名a表示該用戶的單篇發布頻率排在第a位。允許并列，并列的下一名需跳過并列人數。如3人并列第1，則無第2、3名，下一位是第4名

2、百分比排位

表示該用戶的單篇發布頻率高于b%的樣本，類似四分位數，可參考 Excel “PERCENTRANK”函數

總結

以上是生活随笔為你收集整理的数据产品-规则型和挖掘型标签构建案例的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CSS3--幽灵按钮特效(实例)
下一篇：手机端召唤Debug