用户画像——“打标签”
用戶畫像是根據(jù)用戶社會(huì)屬性、生活習(xí)慣、興趣愛好和消費(fèi)行為等信息而抽象出的一個(gè)標(biāo)簽化的用戶模型,簡而言之,就是給用戶“打標(biāo)簽”。通過獲取用戶的信息,并對其進(jìn)行分析,繪制用戶畫像。
用戶信息可以分為兩個(gè)維度,靜態(tài)信息和動(dòng)態(tài)信息,靜態(tài)信息則指用戶的固有屬性,如性別,年齡,消費(fèi)水平等,動(dòng)態(tài)信息則是通過觀察用戶的一舉一動(dòng),即獲取的用戶行為信息。
此外,我們還可將標(biāo)簽分為兩種:靜態(tài)屬性標(biāo)簽和動(dòng)態(tài)屬性標(biāo)簽。靜態(tài)屬性標(biāo)簽長期甚至永遠(yuǎn)都不會(huì)發(fā)生改變,比如性別,出生日期,這些數(shù)據(jù)都是既定的事實(shí),幾乎不會(huì)改變;動(dòng)態(tài)屬性標(biāo)簽存在有效期,需要定期地更新,保證標(biāo)簽的有效性,比如用戶的購買力,用戶的活躍情況等內(nèi)容。
通過分析用戶行為,然后為用戶打上標(biāo)簽,再為打上的標(biāo)簽添加權(quán)重,其中標(biāo)簽用來表征內(nèi)容,權(quán)重用來表征指數(shù)(可信度)。用戶畫像需要通過對用戶行為進(jìn)行監(jiān)控即建立在大量的真實(shí)數(shù)據(jù)的基礎(chǔ)上從而虛擬出人物畫像。后臺(tái)數(shù)據(jù)庫表如下圖:
user_id:用戶id
tag_id:標(biāo)簽id
tag_name:標(biāo)簽名稱,用戶某一行為與該標(biāo)簽聯(lián)系
tag_type:標(biāo)簽類型
action_name:用戶行為名稱,如搜索,點(diǎn)擊,收藏等
action_count:用戶該行為的次數(shù)
action_time:用戶該行為的時(shí)間,某年某月某日
weight:該標(biāo)簽的權(quán)重
標(biāo)簽權(quán)重字段非常重要,該權(quán)重影響著對用戶屬性的歸類,屬性歸類不準(zhǔn)確,接下來基于畫像對用戶進(jìn)行推薦。標(biāo)簽權(quán)重也可以分為兩部分來看,一是該標(biāo)簽的用戶權(quán)重,就單純的考慮用戶與標(biāo)簽的關(guān)系;二是在客觀權(quán)重的基礎(chǔ)上,結(jié)合業(yè)務(wù)場景,再得到真正的標(biāo)簽權(quán)重。判斷用戶權(quán)重的方法很多,我們采用的是TF-IDF算法。
TF-IDF標(biāo)簽權(quán)重算法
TF:詞頻,指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的頻率,如果一個(gè)詞條在一類文檔中頻繁出現(xiàn),則說明該詞條能夠很好代表這個(gè)類的文本的特征,數(shù)學(xué)表示:
IDF:逆向文件頻率,是一個(gè)詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取以10為底的對數(shù)得到,簡單來說,就是看這個(gè)詞語的稀缺程度,數(shù)學(xué)表示:
計(jì)算公式:用戶標(biāo)簽權(quán)重=行為權(quán)重*衰減因子*行為次數(shù)*TF-IDF計(jì)算得到每個(gè)用戶身上標(biāo)簽的權(quán)重。
行為權(quán)重
用戶對同種產(chǎn)品產(chǎn)生不同行為,例如搜索、點(diǎn)擊、收藏、取消收藏這幾種行為的行為權(quán)重一定是不一樣的,例如將取消收藏行為權(quán)重設(shè)為負(fù)值,具體的行為權(quán)重可以參考網(wǎng)上案例或者根據(jù)業(yè)務(wù)場景決定;
衰減因子
一般考慮時(shí)間,用戶的行為會(huì)隨著時(shí)間的過去,歷史行為和當(dāng)前的相關(guān)性不斷減弱,例如去年發(fā)生的行為和今年發(fā)生的行為應(yīng)該是有衰減邏輯在里面的,在建立與時(shí)間衰減相關(guān)的函數(shù)時(shí),我們可套用牛頓冷卻定律數(shù)學(xué)模型。如果周期小或業(yè)務(wù)場景穩(wěn)定,也可以選擇忽略這個(gè)因素;
行為次數(shù)
一般來說,不同的行為次數(shù)決定了用戶的偏好程度,用戶行為越多,對偏好影響就越大;
以上內(nèi)容如有不當(dāng)之處還望指正!
總結(jié)
以上是生活随笔為你收集整理的用户画像——“打标签”的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 非常人贩2在线观看(非常人贩2在线观看高
- 下一篇: 文件(夹)对比利器WinMerge