當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

40亿移动设备的用户画像和标签架构实践

發(fā)布時間：2025/4/5 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 40亿移动设备的用户画像和标签架构实践小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

http://www.infoq.com/cn/articles/4-billion-mobile-device-user-portrait-and-tag-architecture

大家好，我是來自TalkingData的王鵬，很高興在這里和大家一起探討大數(shù)據(jù)的應(yīng)用。

說起大數(shù)據(jù)的應(yīng)用可能很多朋友們腦子里邊第一映像就是畫像，我想從以下幾個方面跟大家聊聊畫像相關(guān)的事情：1、什么是畫像；2、畫像的用處；3、如何進(jìn)行用戶畫像；4畫像應(yīng)用中的難點(diǎn)。

什么是畫像呢？可能大家看到過一些外文資料或者演講中出現(xiàn)過profile一詞，其實(shí)和畫像是一個概念，都是從不同的維度來表達(dá)一個人，這些維度可以是事實(shí)的，可以是抽象的；可以是自然屬性，比如性別、年齡；可以是社會屬性，比如職業(yè)、社交特征；可以是財富狀況，比如是否高收入人群，是否有固定資產(chǎn)；可以是家庭情況，比如是否已經(jīng)結(jié)婚，是否有孩子；可以是購物習(xí)慣，比如喜歡網(wǎng)購還是喜歡逛商場；可以是位置特征，比如在哪個城市生活；可以是其他行為習(xí)慣。總之，所有大家能想到的描述一個人的特征的都可以算作是畫像的范疇，畫像其實(shí)就是想方設(shè)法用數(shù)據(jù)來描述人的特征。

畫像有什么用處呢？大家之所以要進(jìn)行用戶畫像，就是為了解決業(yè)務(wù)問題，或者為了拓展一個新用戶，或者為了獲得一個新訂單。想要獲得新用戶，首先必須知道自己產(chǎn)品定位的用戶畫像（也就是用戶長什么樣子，有什么行為特征），而很多產(chǎn)品設(shè)計的時候可能由于定位不清晰，對用戶的了解不夠，導(dǎo)致最后產(chǎn)品上線后效果與預(yù)期大相徑庭。

這里舉一個例子，A銀行的電子支付團(tuán)隊計劃與Uber公司合作，在春節(jié)后以短信推送優(yōu)惠劵的方式進(jìn)行營銷，選擇了多類人群進(jìn)行投放，其中有“有打車需求且有車”和“有打車需求且無車”兩類人群，本以為“有需求且無車”人群的廣告觸達(dá)的營銷效果會更好，結(jié)果卻完全相反，“有需求且有車”人群的廣告觸達(dá)的比例反而最高。這可能映射出無論是開車還是打車，習(xí)慣了車反而離不開車。用數(shù)據(jù)來畫像正是幫助企業(yè)了解用戶和定位產(chǎn)品的最直接的方法。?

綜上我們可以看到要向更好的解決業(yè)務(wù)問題，首先必須明確業(yè)務(wù)目標(biāo)，而用戶畫像是幫助企業(yè)明確目標(biāo)客群的重要手段之一。當(dāng)企業(yè)了解了自己的用戶都長什么樣子以后，接下來的任務(wù)就是如何將有類似畫像特征人群的潛在用戶變成自己的用戶，也就是在營銷上獲新客的過程。所以，從大的框架來看，用戶畫像承載了兩個業(yè)務(wù)目標(biāo)：一是如何準(zhǔn)確的了解現(xiàn)有用戶；二是如何在茫茫人海中通過廣告營銷獲取類似畫像特征的新用戶。

如果仔細(xì)琢磨這兩個目標(biāo)，其實(shí)在根源上邏輯是有些相悖的。了解現(xiàn)有用戶的畫像，需要的是少量、畫像特征覆蓋度全面的無傾斜的精準(zhǔn)樣本，這樣能更精確的定位產(chǎn)品的用戶。而通過畫像結(jié)果做廣告營銷獲取新用戶，在一定程度上需要的是大量的相似樣本。量的大小和精準(zhǔn)度的不同決定了后續(xù)畫像模型在應(yīng)用設(shè)計中的不同。

提到用戶畫像就不得不提到一個詞“標(biāo)簽”。標(biāo)簽是表達(dá)人的基本屬性、行為傾向、興趣偏好等某一個維度的數(shù)據(jù)標(biāo)識，它是一種相關(guān)性很強(qiáng)的關(guān)鍵字，可以簡潔的描述和分類人群。標(biāo)簽的定義來源于業(yè)務(wù)目標(biāo)，基于不同的行業(yè)，不同的應(yīng)用場景，同樣的標(biāo)簽名稱可能代表了不同的含義，也決定了不同的模型設(shè)計和數(shù)據(jù)處理方式。

舉個例子，如果一款賣男裝的app想在近期做營銷，只篩選“男性”和“網(wǎng)絡(luò)購物”這兩個標(biāo)簽進(jìn)行投放，可能效果并不一定理想。因為“性別（男/女）”可能有多種維度，真實(shí)性別男女是一種維度，網(wǎng)絡(luò)購物特征男女是一種維度，性取向男女可能又是另外一種維度。因為網(wǎng)絡(luò)的發(fā)展，你甚至都不知道網(wǎng)絡(luò)的另一端是不是一個人，更何況是男女呢。想要正確的設(shè)計標(biāo)簽?zāi)Ｐ秃陀嬎闾幚頂?shù)據(jù)，必須了解畫像標(biāo)簽應(yīng)用的場景和目標(biāo)。

接下來如何進(jìn)行用戶畫像呢？這完全取決于業(yè)務(wù)目標(biāo)（需要什么樣的畫像標(biāo)簽）和有什么樣的原材料（有什么類型的數(shù)據(jù)源），基于這兩樣才能確定使用什么樣的模型設(shè)計和數(shù)據(jù)計算處理方式。就像做菜一樣，要做一頓美味的晚餐，必須知道客戶是想吃中餐還是西餐，配菜都有哪些魚蛋肉和蔬菜，然后才能確定牛肉是紅燒還是煎炸。

仍然以性別（男/女）為例，嘗試演繹一下剛才的三個場景。

如果業(yè)務(wù)是征信場景，想知道的是這個人的真實(shí)性別（男/女），在沒有全量真實(shí)數(shù)據(jù)的前提下可以采取如下的方法來處理，可以選取少量真實(shí)樣本，使用這些真實(shí)樣本追加一些特征因子，使用lookalike算法進(jìn)行樣本擴(kuò)展，將該少數(shù)樣本特征擴(kuò)展到大量或者全量數(shù)據(jù)。當(dāng)然，這些數(shù)據(jù)的準(zhǔn)確度取決于樣本的均衡程度和算法的質(zhì)量。

如果業(yè)務(wù)是網(wǎng)絡(luò)購物的電商場景，我們先不嘗試判斷真實(shí)購買男裝的是否是男性（很多已婚人士是妻子負(fù)責(zé)網(wǎng)購丈夫的裝備），僅僅考慮將來該網(wǎng)絡(luò)賬戶實(shí)體是否會購買男裝的角度考慮，需要的是“男裝購買傾向”的標(biāo)簽，可以直接基于所有賬戶實(shí)體以往購買記錄來計算處理該標(biāo)簽。

如果是業(yè)務(wù)場景是blued（一款同志交友a(bǔ)pp）定義的男性又是另外一個特殊群體，基于客戶想拓展新客，這里定義的特殊男性群體或許可以定義為“男性同志”標(biāo)簽，而實(shí)現(xiàn)該標(biāo)簽可以考慮通過安裝了類似同志交友的app人群或者以同志人群經(jīng)常出現(xiàn)的聚集地進(jìn)行計算處理。

所以說針對不同的行業(yè)，不同的應(yīng)用場景，需要使用不同的數(shù)據(jù)源進(jìn)行不同的標(biāo)簽設(shè)計和計算。

說起標(biāo)簽，可能每個行業(yè)有每個行業(yè)的標(biāo)簽體系，各個公司基于自己的數(shù)據(jù)源和特征不同也設(shè)立了不同的標(biāo)簽體系。我認(rèn)為這些標(biāo)簽都可以歸納為以下幾個方面。

人口屬性：包含性別、年齡等人的基本特征

資產(chǎn)情況：車輛、房產(chǎn)、收入等資產(chǎn)特征

興趣特征：閱讀資訊、運(yùn)動健康等興趣偏好

消費(fèi)特征：網(wǎng)上/線下消費(fèi)類別品牌等特征

位置特征：常駐城市、職住距離等

設(shè)備屬性：所使用終端的特性等

要支持以上這些標(biāo)簽的設(shè)計和計算，需要多種維度的數(shù)據(jù)源，從產(chǎn)生維度來看：可以包含PC端的數(shù)據(jù)、移動終端的數(shù)據(jù)、線下的數(shù)據(jù)；從數(shù)據(jù)擁有者來看：可以包含一方客戶自己的數(shù)據(jù)、外部官方渠道的數(shù)據(jù)、市場采集的數(shù)據(jù)；從數(shù)據(jù)類型來看：有社交數(shù)據(jù)、交易數(shù)據(jù)、位置數(shù)據(jù)、運(yùn)營商數(shù)據(jù)等。

使用這些不同源的數(shù)據(jù)，我們?nèi)绾斡嬎闾幚順I(yè)務(wù)需要的標(biāo)簽?zāi)?#xff1f;一般都會經(jīng)過如下幾步：

數(shù)據(jù)抽取：從不同數(shù)據(jù)源抽取要計算標(biāo)簽的數(shù)據(jù)原材料。

數(shù)據(jù)標(biāo)準(zhǔn)化：針對抽取的數(shù)據(jù)將其清洗為標(biāo)準(zhǔn)格式，將其中的錯誤數(shù)據(jù)和無效數(shù)據(jù)剔除。

數(shù)據(jù)打通：不同來源的數(shù)據(jù)有不同的主鍵和屬性，如何將這些數(shù)據(jù)關(guān)聯(lián)起來是數(shù)據(jù)打通的關(guān)鍵，比如有設(shè)備的wifi信息，又有設(shè)備的poi信息，就可以通過wifi將設(shè)備終端和POI建立起關(guān)聯(lián)。

模型設(shè)計：針對不同的數(shù)據(jù)內(nèi)容和業(yè)務(wù)目標(biāo)設(shè)計不同的規(guī)則和算法進(jìn)行模型的構(gòu)建，并使用小樣本數(shù)據(jù)來驗證模型的可靠性。

標(biāo)簽計算：在模型可靠性驗證的基礎(chǔ)上，部署生產(chǎn)運(yùn)營環(huán)境來進(jìn)行標(biāo)簽計算。

一般標(biāo)簽計算無外乎以上過程，以“大學(xué)生”標(biāo)簽為例，假如我們需要針對移動終端人群設(shè)計一個大學(xué)生標(biāo)簽，而我們并沒有每個大學(xué)生的入學(xué)信息和證件信息，我們該如何操作呢。首先進(jìn)行業(yè)務(wù)分析，發(fā)現(xiàn)大學(xué)生的行為特征，一般大學(xué)生都會在大學(xué)校園內(nèi)活動比較多，我們可以將全國2000多所高校的位置找到，根據(jù)移動終端設(shè)備的位置信息來篩選“大學(xué)生”人群；另外大學(xué)生可能還會使用一些特殊的app比如考研類、四六級、超級課程表等這些特殊app，我們可以通過app進(jìn)行“大學(xué)生”人群的篩選。

如果不用算法，就只用規(guī)則，我們想找精確的“大學(xué)生”人群，可以將位置和app行為兩個特征疊加使用；如果我們想要擴(kuò)展樣本進(jìn)行大規(guī)模廣告投放，可以考慮含有位置、app行為任意一個特征的人群，同時還可以通過算法進(jìn)行l(wèi)ookalike的擴(kuò)展樣本學(xué)習(xí)。

注：以上表達(dá)的都是數(shù)據(jù)和標(biāo)簽處理的邏輯過程，實(shí)際業(yè)務(wù)中的數(shù)據(jù)處理要視具體情況而定。

最后說一說用戶畫像和標(biāo)簽設(shè)計/計算中的一些難點(diǎn)。

1. 如何定義畫像主體？也可以理解為如何唯一標(biāo)識一個實(shí)體？

可以理解真實(shí)世界每個人都是一個實(shí)體，但是虛擬世界他可能就變身為多個，比如人可能有一個身份ID，但是可能有多個手機(jī)，就對應(yīng)了多個手機(jī)號，多個設(shè)備終端ID，那就對應(yīng)多個移動終端的使用行為；這多個終端ID分別代表了這個實(shí)體的不同特征，只有將這個實(shí)體拼接起來才能代表完整的畫像。一個人可能有多個qq號，如果從qq行為的角度分析，同樣的邏輯。這是終端實(shí)體多對一的體現(xiàn)。

反過來也會有一對多的情況，比如就一個家庭用的ipad，孩子用ipad來玩游戲，父親用ipad來查收郵件，母親用ipad來購物，這一個ipad代表了多個實(shí)體的行為特征，并且無法分拆。所以要想唯一完整的定義一個實(shí)體其實(shí)很難。所以在業(yè)務(wù)領(lǐng)域中追求標(biāo)簽的完整性有時候是一個很難達(dá)到的目標(biāo)，反過來應(yīng)該更多的關(guān)注標(biāo)簽的代表性，無論是一對多還是多對一，只要能通過標(biāo)簽篩選出來想尋找的受眾群體就可以，即便是家庭公用的ipad，有游戲標(biāo)簽也表明了家庭中有成員有該方面的興趣偏好。

2. 如何打通不同源的數(shù)據(jù)？

pc端的行為信息、移動終端的行為信息和TV端的行為信息，如何將這些信息關(guān)聯(lián)起來？核心問題在于如何將這些終端的唯一標(biāo)識ID打通。TalkingData的數(shù)據(jù)體系已經(jīng)建立了以TDID為核心ID的關(guān)聯(lián)圖譜，TalkingData的IDmapping能力已經(jīng)實(shí)現(xiàn)了跨設(shè)備ID的關(guān)聯(lián)映射。所以要解決不同源ID的打通只要接入一家類似TalkingData的數(shù)據(jù)即可。

感謝大家能如此長時間的聽我嘮叨，希望這些信息對您的工作能有所幫助。

大家都剛剛跨入大數(shù)據(jù)的門檻，大數(shù)據(jù)在各個領(lǐng)域的應(yīng)用任重而道遠(yuǎn)，希望同行多多切磋學(xué)習(xí)，一起前行。

答疑部分

Q1：畫像的時候常用的算法有哪些，比如什么類型的標(biāo)簽適合什么類型的算法？怎么評估畫像畫的好壞？

王鵬：我們除了用常規(guī)的算法以外，還有自研的開源算法系統(tǒng)fregata，基于spark，支持10億樣本1億維度的超大規(guī)模運(yùn)算，無需調(diào)參，超高速度。

(點(diǎn)擊放大圖像)

評估畫像的好壞：1、小樣本的真實(shí)驗證；2，在實(shí)際的case中迭代驗證

Q2：畫像的標(biāo)簽體系一般怎么設(shè)計，還有你們的標(biāo)簽體系如何存儲？更便于不同畫像標(biāo)簽之間的追溯？

王鵬：畫像的體系一般參考你們公司的業(yè)務(wù)體系來設(shè)計。標(biāo)簽的存儲也取決于你的服務(wù)應(yīng)用場景：我們的存儲有多種：hdfs、vertica、hbase。標(biāo)簽的追溯屬于另外一個問題，取決于你的標(biāo)簽的生命周期，有的標(biāo)簽就是最新的，有的標(biāo)簽就是每周每月加工的，有的標(biāo)簽是有時間衰減迭代的。

Q3：標(biāo)簽的確定一般是怎樣的？是人工打標(biāo)簽，想業(yè)務(wù)場景，還是通過自動的算法跑出來？TalkingData目前又是如何實(shí)現(xiàn)的呢？

王鵬：標(biāo)簽的確定，一般是先人工篩選小樣本規(guī)則，進(jìn)行驗證，規(guī)則合理后，在通過算法擴(kuò)展。

人工和自動是結(jié)合的，取決于該標(biāo)簽的具體場景、字典數(shù)據(jù)的使用、主數(shù)據(jù)的量等各種因素。

TD的標(biāo)簽也是結(jié)合這二者一起完成的。

Q4：計算標(biāo)簽的具體流程是怎樣的效果如何評估謝謝？

王鵬：計算標(biāo)簽的具體流程我在剛才講的過程中已經(jīng)說過了，這里可以再貼一下：

數(shù)據(jù)抽取：從不同數(shù)據(jù)源抽取要計算標(biāo)簽的數(shù)據(jù)原材料。

數(shù)據(jù)標(biāo)準(zhǔn)化：針對抽取的數(shù)據(jù)將其清洗為標(biāo)準(zhǔn)格式，將其中的錯誤數(shù)據(jù)和無效數(shù)據(jù)剔除。

標(biāo)簽計算：在模型可靠性驗證的基礎(chǔ)上，部署生產(chǎn)運(yùn)營環(huán)境來進(jìn)行標(biāo)簽計算

效果評估除了剛才說的真實(shí)case驗證以外，還可以考慮外部標(biāo)簽的交叉驗證，自有標(biāo)簽的交叉驗證，比如：有“已婚”標(biāo)簽的，不可能是“18歲以下”人群；“已婚”標(biāo)簽的“大學(xué)生”人群也應(yīng)該極少；“大學(xué)生”標(biāo)簽的人群“有車”標(biāo)簽的也應(yīng)該很少。

Q5：在做用戶畫像時如何解決數(shù)據(jù)準(zhǔn)確性不足的問題，畢竟非BAT公司太多，很多數(shù)據(jù)都不完善，或者說沒有準(zhǔn)確數(shù)據(jù)。

王鵬：說到這個問題，談?wù)勎覍Υ髷?shù)據(jù)的看法：我理解大數(shù)據(jù)本身不存在所謂的正確性，大數(shù)據(jù)是用來驗證人的先驗知識/經(jīng)驗的一種工具，這個里邊應(yīng)該考慮的不止是準(zhǔn)確性的問題，而是如何能更好的提高你認(rèn)為的準(zhǔn)確率的問題，大數(shù)據(jù)由于體量大，需要的是數(shù)量、時間等多維的迭代，維度的擴(kuò)展。

轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/9815733.html

總結(jié)

以上是生活随笔為你收集整理的40亿移动设备的用户画像和标签架构实践的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习实战读书笔记--logistic
下一篇： gradle本地、远程仓库配置--转