當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

用户画像系统

發(fā)布時間：2024/7/5 windows 60 豆豆

生活随笔收集整理的這篇文章主要介紹了用户画像系统小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 用戶畫像系統(tǒng)

1 用戶畫像概述

1.1?什么是用戶畫像

用戶畫像就是對現(xiàn)實(shí)世界中用戶的數(shù)學(xué)建模。現(xiàn)實(shí)世界的用戶通過自己各種各樣的行為，瀏覽購買，或者收藏，等等這些行為會把自己的興趣愛好等體現(xiàn)在這些行為中，比如喜歡看書就會有很多購買書的行為，行為就會把興趣愛好暴露出來，我們就是要基于用戶建模，把他興趣的維度給劃分清楚體現(xiàn)出來，才能充分了解用戶。

用戶畫像是描述用戶的數(shù)據(jù)，是符合特定需求的對用戶形式化的描述，源于現(xiàn)實(shí)又高于現(xiàn)實(shí)。用戶畫像是通過分析挖掘用戶盡可能得到多的數(shù)據(jù)信息。

1.2 用戶畫像作用

用戶精細(xì)化營銷：廣告推送給誰，優(yōu)惠券如何發(fā)放等

商戶精細(xì)化支持：活動精準(zhǔn)推送，定價策略

個性化：商品推薦，購物推薦

趨勢預(yù)測：銷售預(yù)測，票房預(yù)測

大數(shù)據(jù)報告：

2 用戶標(biāo)簽畫像

2.1 什么是標(biāo)簽

標(biāo)簽是某一種用戶特征的符號表示，在商家眼里你會被貼上各種各樣的標(biāo)簽比如男性，高富帥，高學(xué)歷等等。一個人有很多標(biāo)簽，當(dāng)商家想要了解客戶的時候就要基于這些標(biāo)簽來生成用戶畫像，所以用戶畫像其實(shí)就是一個整體，包含了多個維度（由不同的標(biāo)簽的集合組成的），所以，用戶畫像可以用標(biāo)簽的集合來表示。

2.2 用戶標(biāo)簽的數(shù)學(xué)描述

用戶標(biāo)簽的數(shù)學(xué)表示就是維度和特征空間，標(biāo)簽是特征空間中的維度，比如說你的基本信息就是你的性別和年齡，通過性別和年齡構(gòu)成一個二維空間，這個二維空間可以把任何用戶放到這個空間中去，這個二維空間就是非常簡單的特征空間。在實(shí)際當(dāng)中你的標(biāo)簽可能上百，上千，上萬個。

每個標(biāo)簽都是特征空間中的基向量（向量：有方向有大小的量），基向量之間有關(guān)聯(lián)，不一定是正交的

用戶畫像本質(zhì)就是特征空間中的高維向量

用戶標(biāo)簽舉例引用下圖

3 用戶畫像系統(tǒng)流程

總體來用，可以分成離線部分和在線部分，用戶畫像所需要的基礎(chǔ)數(shù)據(jù)需要離線的先存儲下來，再基于里面的數(shù)據(jù)進(jìn)行建模，在線部分使得業(yè)務(wù)更加完善更加充實(shí)，所以總體大的部分是在離線這一端去做的。傳統(tǒng)數(shù)據(jù)倉庫也是一樣的，在數(shù)據(jù)倉庫中按照主題建模也會包含到用戶畫像這個過程。

流程分為5個步驟：

（1）明確問題：①追求數(shù)據(jù)的的匹配；②明確需求，是分類問題，還是聚類問題，還是推薦等③數(shù)據(jù)的規(guī)模，重要特征的覆蓋度等

（2）數(shù)據(jù)預(yù)處理：進(jìn)來的數(shù)據(jù)是多種多樣的，如日志數(shù)據(jù)，第三方合作伙伴傳過來接口的數(shù)據(jù)，這些數(shù)據(jù)都不是很規(guī)范，對同一個維度的表述有各自的標(biāo)準(zhǔn)，比如說男女的描述，有些用M|F，有些用0|1表示。①數(shù)據(jù)的集成，數(shù)據(jù)的冗余，數(shù)值的沖突，②數(shù)據(jù)采樣③數(shù)據(jù)清洗，缺失值處理，噪聲數(shù)據(jù)

（3）特征工程：①特征提取，業(yè)務(wù)日志，web抓取的數(shù)據(jù)，第三方數(shù)據(jù)②特征處理，特征清洗，特征預(yù)處理，如值處理，特征選擇，特征組合，降維③特征監(jiān)控，指標(biāo)的實(shí)效性，覆蓋率，異常值

（4）模型算法：統(tǒng)計，分類，回歸，聚類，語義，高維偏好等

（5）產(chǎn)生：如個性化推薦，個性化廣告

4 用戶畫像架構(gòu)

5 性別預(yù)測分析步驟

（1）明確問題：①屬于數(shù)據(jù)挖掘中的哪一類分類，聚類還是推薦等？年齡預(yù)測屬于分類問題；②數(shù)據(jù)集規(guī)模，數(shù)據(jù)集是否夠大？分類需要大數(shù)據(jù)集；③問題假設(shè)，數(shù)據(jù)是否滿足所有問題的假設(shè)？男女的行為是否不同，比如買手機(jī)行為不帶有性別特征，買口紅，香煙等就帶有性別特征。

（2）數(shù)據(jù)預(yù)處理：

（3）特征工程：①單個特征分析：1）數(shù)值型特征的處理，如使用app時長，可用高，中，低三個檔次，將啟動次數(shù)分段成離散值；2）類別型特征的處理，如用戶使用的設(shè)備是華為，或者小米，這是類別特征，可用采用0-1編碼來處理；3）數(shù)據(jù)歸一化。

②多個特征分析：1）設(shè)備類型是否決定了類型？做相關(guān)性分析，計算相關(guān)系數(shù)。2）app啟動次數(shù)和停留時長完全正相關(guān)，結(jié)果表明特別相關(guān)，去掉停留時長或啟動次數(shù)；2）如果特征太多，需要做降維處理

③文本數(shù)據(jù)處理的典型步驟：網(wǎng)頁-》分詞-》去停用次-》向量化。分詞可以采用jieba分詞；去停用詞，停用詞表除了加入常規(guī)的停用詞外，還可將DF較高的詞加入停用詞表；向量化一般是將文本轉(zhuǎn)換為TF或TF-IDF向量

④算法和模型：1:）選擇算法需要考慮的因素，如訓(xùn)練集的大小，特征維度的大小，要解決的問題是否是線性可分的，所有特征是獨(dú)立的嗎，需不需要考慮過擬合問題，對性能有哪些要求等。

⑤算法和模型的評價：分類模型采用混淆矩陣，可參見分類模型評估的文章https://blog.csdn.net/weixin_43786255/article/details/100174121

總結(jié)

以上是生活随笔為你收集整理的用户画像系统的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Power BI连接MySQL 提示错误
下一篇：学生成绩统计c语言课程设计,学生成绩管理