用户画像系统
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 用戶畫像系統(tǒng)
1 用戶畫像概述
1.1?什么是用戶畫像
用戶畫像就是對現(xiàn)實(shí)世界中用戶的數(shù)學(xué)建模。現(xiàn)實(shí)世界的用戶通過自己各種各樣的行為,瀏覽購買,或者收藏,等等這些行為會把自己的興趣愛好等體現(xiàn)在這些行為中,比如喜歡看書就會有很多購買書的行為,行為就會把興趣愛好暴露出來,我們就是要基于用戶建模,把他興趣的維度給劃分清楚體現(xiàn)出來,才能充分了解用戶。
用戶畫像是描述用戶的數(shù)據(jù),是符合特定需求的對用戶形式化的描述,源于現(xiàn)實(shí)又高于現(xiàn)實(shí)。用戶畫像是通過分析挖掘用戶盡可能得到多的數(shù)據(jù)信息。
1.2 用戶畫像作用
用戶精細(xì)化營銷:廣告推送給誰,優(yōu)惠券如何發(fā)放等
商戶精細(xì)化支持:活動精準(zhǔn)推送,定價策略
個性化:商品推薦,購物推薦
趨勢預(yù)測:銷售預(yù)測,票房預(yù)測
大數(shù)據(jù)報告:
?
2 用戶標(biāo)簽畫像
2.1 什么是標(biāo)簽
標(biāo)簽是某一種用戶特征的符號表示,在商家眼里你會被貼上各種各樣的標(biāo)簽比如男性,高富帥,高學(xué)歷等等。一個人有很多標(biāo)簽,當(dāng)商家想要了解客戶的時候就要基于這些標(biāo)簽來生成用戶畫像,所以用戶畫像其實(shí)就是一個整體,包含了多個維度(由不同的標(biāo)簽的集合組成的),所以,用戶畫像可以用標(biāo)簽的集合來表示。
2.2 用戶標(biāo)簽的數(shù)學(xué)描述
用戶標(biāo)簽的數(shù)學(xué)表示就是維度和特征空間,標(biāo)簽是特征空間中的維度,比如說你的基本信息就是你的性別和年齡,通過性別和年齡構(gòu)成一個二維空間,這個二維空間可以把任何用戶放到這個空間中去,這個二維空間就是非常簡單的特征空間。在實(shí)際當(dāng)中你的標(biāo)簽可能上百,上千,上萬個。
每個標(biāo)簽都是特征空間中的基向量(向量:有方向有大小的量),基向量之間有關(guān)聯(lián),不一定是正交的
用戶畫像本質(zhì)就是特征空間中的高維向量
用戶標(biāo)簽舉例引用下圖
3 用戶畫像系統(tǒng)流程
總體來用,可以分成離線部分和在線部分,用戶畫像所需要的基礎(chǔ)數(shù)據(jù)需要離線的先存儲下來,再基于里面的數(shù)據(jù)進(jìn)行建模,在線部分使得業(yè)務(wù)更加完善更加充實(shí),所以總體大的部分是在離線這一端去做的。傳統(tǒng)數(shù)據(jù)倉庫也是一樣的,在數(shù)據(jù)倉庫中按照主題建模也會包含到用戶畫像這個過程。
流程分為5個步驟:
(1)明確問題:①追求數(shù)據(jù)的的匹配;②明確需求,是分類問題,還是聚類問題,還是推薦等③數(shù)據(jù)的規(guī)模,重要特征的覆蓋度等
(2)數(shù)據(jù)預(yù)處理:進(jìn)來的數(shù)據(jù)是多種多樣的,如日志數(shù)據(jù),第三方合作伙伴傳過來接口的數(shù)據(jù),這些數(shù)據(jù)都不是很規(guī)范,對同一個維度的表述有各自的標(biāo)準(zhǔn),比如說男女的描述,有些用M|F,有些用0|1表示。①數(shù)據(jù)的集成,數(shù)據(jù)的冗余,數(shù)值的沖突,②數(shù)據(jù)采樣③數(shù)據(jù)清洗,缺失值處理,噪聲數(shù)據(jù)
(3)特征工程:①特征提取,業(yè)務(wù)日志,web抓取的數(shù)據(jù),第三方數(shù)據(jù)②特征處理,特征清洗,特征預(yù)處理,如值處理,特征選擇,特征組合,降維③特征監(jiān)控,指標(biāo)的實(shí)效性,覆蓋率,異常值
(4)模型算法:統(tǒng)計,分類,回歸,聚類,語義,高維偏好等
(5)產(chǎn)生:如個性化推薦,個性化廣告
4 用戶畫像架構(gòu)
5 性別預(yù)測分析步驟
(1)明確問題:①屬于數(shù)據(jù)挖掘中的哪一類分類,聚類還是推薦等?年齡預(yù)測屬于分類問題;②數(shù)據(jù)集規(guī)模,數(shù)據(jù)集是否夠大?分類需要大數(shù)據(jù)集;③問題假設(shè),數(shù)據(jù)是否滿足所有問題的假設(shè)?男女的行為是否不同,比如買手機(jī)行為不帶有性別特征,買口紅,香煙等就帶有性別特征。
(2)數(shù)據(jù)預(yù)處理:
(3)特征工程:①單個特征分析:1)數(shù)值型特征的處理,如使用app時長,可用高,中,低三個檔次,將啟動次數(shù)分段成離散值;2)類別型特征的處理,如用戶使用的設(shè)備是華為,或者小米,這是類別特征,可用采用0-1編碼來處理;3)數(shù)據(jù)歸一化。
②多個特征分析:1)設(shè)備類型是否決定了類型?做相關(guān)性分析,計算相關(guān)系數(shù)。2)app啟動次數(shù)和停留時長完全正相關(guān),結(jié)果表明特別相關(guān),去掉停留時長或啟動次數(shù);2)如果特征太多,需要做降維處理
③文本數(shù)據(jù)處理的典型步驟:網(wǎng)頁-》分詞-》去停用次-》向量化。 分詞可以采用jieba分詞;去停用詞,停用詞表除了加入常規(guī)的停用詞外,還可將DF較高的詞加入停用詞表;向量化一般是將文本轉(zhuǎn)換為TF或TF-IDF向量
④算法和模型:1:)選擇算法需要考慮的因素,如訓(xùn)練集的大小,特征維度的大小,要解決的問題是否是線性可分的,所有特征是獨(dú)立的嗎,需不需要考慮過擬合問題,對性能有哪些要求等。
⑤算法和模型的評價:分類模型采用混淆矩陣,可參見分類模型評估的文章https://blog.csdn.net/weixin_43786255/article/details/100174121
?
總結(jié)
- 上一篇: Power BI连接MySQL 提示错误
- 下一篇: 学生成绩统计c语言课程设计,学生成绩管理