40亿移动设备的用户画像和标签架构实践
http://www.infoq.com/cn/articles/4-billion-mobile-device-user-portrait-and-tag-architecture
大家好,我是來自TalkingData的王鵬,很高興在這里和大家一起探討大數(shù)據(jù)的應(yīng)用。
說起大數(shù)據(jù)的應(yīng)用可能很多朋友們腦子里邊第一映像就是畫像,我想從以下幾個方面跟大家聊聊畫像相關(guān)的事情:1、什么是畫像;2、畫像的用處;3、如何進行用戶畫像;4畫像應(yīng)用中的難點。
什么是畫像呢?可能大家看到過一些外文資料或者演講中出現(xiàn)過profile一詞,其實和畫像是一個概念,都是從不同的維度來表達一個人,這些維度可以是事實的,可以是抽象的;可以是自然屬性,比如性別、年齡;可以是社會屬性,比如職業(yè)、社交特征;可以是財富狀況,比如是否高收入人群,是否有固定資產(chǎn);可以是家庭情況,比如是否已經(jīng)結(jié)婚,是否有孩子;可以是購物習(xí)慣,比如喜歡網(wǎng)購還是喜歡逛商場;可以是位置特征,比如在哪個城市生活;可以是其他行為習(xí)慣??傊?#xff0c;所有大家能想到的描述一個人的特征的都可以算作是畫像的范疇,畫像其實就是想方設(shè)法用數(shù)據(jù)來描述人的特征。
畫像有什么用處呢?大家之所以要進行用戶畫像,就是為了解決業(yè)務(wù)問題,或者為了拓展一個新用戶,或者為了獲得一個新訂單。想要獲得新用戶,首先必須知道自己產(chǎn)品定位的用戶畫像(也就是用戶長什么樣子,有什么行為特征),而很多產(chǎn)品設(shè)計的時候可能由于定位不清晰,對用戶的了解不夠,導(dǎo)致最后產(chǎn)品上線后效果與預(yù)期大相徑庭。
這里舉一個例子,A銀行的電子支付團隊計劃與Uber公司合作,在春節(jié)后以短信推送優(yōu)惠劵的方式進行營銷,選擇了多類人群進行投放,其中有“有打車需求且有車”和“有打車需求且無車”兩類人群,本以為“有需求且無車”人群的廣告觸達的營銷效果會更好,結(jié)果卻完全相反,“有需求且有車”人群的廣告觸達的比例反而最高。這可能映射出無論是開車還是打車,習(xí)慣了車反而離不開車。用數(shù)據(jù)來畫像正是幫助企業(yè)了解用戶和定位產(chǎn)品的最直接的方法。?
綜上我們可以看到要向更好的解決業(yè)務(wù)問題,首先必須明確業(yè)務(wù)目標,而用戶畫像是幫助企業(yè)明確目標客群的重要手段之一。當(dāng)企業(yè)了解了自己的用戶都長什么樣子以后,接下來的任務(wù)就是如何將有類似畫像特征人群的潛在用戶變成自己的用戶,也就是在營銷上獲新客的過程。所以,從大的框架來看,用戶畫像承載了兩個業(yè)務(wù)目標:一是如何準確的了解現(xiàn)有用戶;二是如何在茫茫人海中通過廣告營銷獲取類似畫像特征的新用戶。
如果仔細琢磨這兩個目標,其實在根源上邏輯是有些相悖的。了解現(xiàn)有用戶的畫像,需要的是少量、畫像特征覆蓋度全面的無傾斜的精準樣本,這樣能更精確的定位產(chǎn)品的用戶。而通過畫像結(jié)果做廣告營銷獲取新用戶,在一定程度上需要的是大量的相似樣本。量的大小和精準度的不同決定了后續(xù)畫像模型在應(yīng)用設(shè)計中的不同。
提到用戶畫像就不得不提到一個詞“標簽”。標簽是表達人的基本屬性、行為傾向、興趣偏好等某一個維度的數(shù)據(jù)標識,它是一種相關(guān)性很強的關(guān)鍵字,可以簡潔的描述和分類人群。標簽的定義來源于業(yè)務(wù)目標,基于不同的行業(yè),不同的應(yīng)用場景,同樣的標簽名稱可能代表了不同的含義,也決定了不同的模型設(shè)計和數(shù)據(jù)處理方式。
舉個例子,如果一款賣男裝的app想在近期做營銷,只篩選“男性”和“網(wǎng)絡(luò)購物”這兩個標簽進行投放,可能效果并不一定理想。因為“性別(男/女)”可能有多種維度,真實性別男女是一種維度,網(wǎng)絡(luò)購物特征男女是一種維度,性取向男女可能又是另外一種維度。因為網(wǎng)絡(luò)的發(fā)展,你甚至都不知道網(wǎng)絡(luò)的另一端是不是一個人,更何況是男女呢。想要正確的設(shè)計標簽?zāi)P秃陀嬎闾幚頂?shù)據(jù),必須了解畫像標簽應(yīng)用的場景和目標。
接下來如何進行用戶畫像呢?這完全取決于業(yè)務(wù)目標(需要什么樣的畫像標簽)和有什么樣的原材料(有什么類型的數(shù)據(jù)源),基于這兩樣才能確定使用什么樣的模型設(shè)計和數(shù)據(jù)計算處理方式。就像做菜一樣,要做一頓美味的晚餐,必須知道客戶是想吃中餐還是西餐,配菜都有哪些魚蛋肉和蔬菜,然后才能確定牛肉是紅燒還是煎炸。
仍然以性別(男/女)為例,嘗試演繹一下剛才的三個場景。
如果業(yè)務(wù)是征信場景,想知道的是這個人的真實性別(男/女),在沒有全量真實數(shù)據(jù)的前提下可以采取如下的方法來處理,可以選取少量真實樣本,使用這些真實樣本追加一些特征因子,使用lookalike算法進行樣本擴展,將該少數(shù)樣本特征擴展到大量或者全量數(shù)據(jù)。當(dāng)然,這些數(shù)據(jù)的準確度取決于樣本的均衡程度和算法的質(zhì)量。
如果業(yè)務(wù)是網(wǎng)絡(luò)購物的電商場景,我們先不嘗試判斷真實購買男裝的是否是男性(很多已婚人士是妻子負責(zé)網(wǎng)購丈夫的裝備),僅僅考慮將來該網(wǎng)絡(luò)賬戶實體是否會購買男裝的角度考慮,需要的是“男裝購買傾向”的標簽,可以直接基于所有賬戶實體以往購買記錄來計算處理該標簽。
如果是業(yè)務(wù)場景是blued(一款同志交友app)定義的男性又是另外一個特殊群體,基于客戶想拓展新客,這里定義的特殊男性群體或許可以定義為“男性同志”標簽,而實現(xiàn)該標簽可以考慮通過安裝了類似同志交友的app人群或者以同志人群經(jīng)常出現(xiàn)的聚集地進行計算處理。
所以說針對不同的行業(yè),不同的應(yīng)用場景,需要使用不同的數(shù)據(jù)源進行不同的標簽設(shè)計和計算。
說起標簽,可能每個行業(yè)有每個行業(yè)的標簽體系,各個公司基于自己的數(shù)據(jù)源和特征不同也設(shè)立了不同的標簽體系。我認為這些標簽都可以歸納為以下幾個方面。
?
要支持以上這些標簽的設(shè)計和計算,需要多種維度的數(shù)據(jù)源,從產(chǎn)生維度來看:可以包含PC端的數(shù)據(jù)、移動終端的數(shù)據(jù)、線下的數(shù)據(jù);從數(shù)據(jù)擁有者來看:可以包含一方客戶自己的數(shù)據(jù)、外部官方渠道的數(shù)據(jù)、市場采集的數(shù)據(jù);從數(shù)據(jù)類型來看:有社交數(shù)據(jù)、交易數(shù)據(jù)、位置數(shù)據(jù)、運營商數(shù)據(jù)等。
使用這些不同源的數(shù)據(jù),我們?nèi)绾斡嬎闾幚順I(yè)務(wù)需要的標簽?zāi)?#xff1f;一般都會經(jīng)過如下幾步:
?
一般標簽計算無外乎以上過程,以“大學(xué)生”標簽為例,假如我們需要針對移動終端人群設(shè)計一個大學(xué)生標簽,而我們并沒有每個大學(xué)生的入學(xué)信息和證件信息,我們該如何操作呢。首先進行業(yè)務(wù)分析,發(fā)現(xiàn)大學(xué)生的行為特征,一般大學(xué)生都會在大學(xué)校園內(nèi)活動比較多,我們可以將全國2000多所高校的位置找到,根據(jù)移動終端設(shè)備的位置信息來篩選“大學(xué)生”人群;另外大學(xué)生可能還會使用一些特殊的app比如考研類、四六級、超級課程表等這些特殊app,我們可以通過app進行“大學(xué)生”人群的篩選。
如果不用算法,就只用規(guī)則,我們想找精確的“大學(xué)生”人群,可以將位置和app行為兩個特征疊加使用;如果我們想要擴展樣本進行大規(guī)模廣告投放,可以考慮含有位置、app行為任意一個特征的人群,同時還可以通過算法進行l(wèi)ookalike的擴展樣本學(xué)習(xí)。
注:以上表達的都是數(shù)據(jù)和標簽處理的邏輯過程,實際業(yè)務(wù)中的數(shù)據(jù)處理要視具體情況而定。
最后說一說用戶畫像和標簽設(shè)計/計算中的一些難點。
1. 如何定義畫像主體?也可以理解為如何唯一標識一個實體?
可以理解真實世界每個人都是一個實體,但是虛擬世界他可能就變身為多個,比如人可能有一個身份ID,但是可能有多個手機,就對應(yīng)了多個手機號,多個設(shè)備終端ID,那就對應(yīng)多個移動終端的使用行為;這多個終端ID分別代表了這個實體的不同特征,只有將這個實體拼接起來才能代表完整的畫像。一個人可能有多個qq號,如果從qq行為的角度分析,同樣的邏輯。這是終端實體多對一的體現(xiàn)。
反過來也會有一對多的情況,比如就一個家庭用的ipad,孩子用ipad來玩游戲,父親用ipad來查收郵件,母親用ipad來購物,這一個ipad代表了多個實體的行為特征,并且無法分拆。所以要想唯一完整的定義一個實體其實很難。所以在業(yè)務(wù)領(lǐng)域中追求標簽的完整性有時候是一個很難達到的目標,反過來應(yīng)該更多的關(guān)注標簽的代表性,無論是一對多還是多對一,只要能通過標簽篩選出來想尋找的受眾群體就可以,即便是家庭公用的ipad,有游戲標簽也表明了家庭中有成員有該方面的興趣偏好。
2. 如何打通不同源的數(shù)據(jù)?
pc端的行為信息、移動終端的行為信息和TV端的行為信息,如何將這些信息關(guān)聯(lián)起來?核心問題在于如何將這些終端的唯一標識ID打通。TalkingData的數(shù)據(jù)體系已經(jīng)建立了以TDID為核心ID的關(guān)聯(lián)圖譜,TalkingData的IDmapping能力已經(jīng)實現(xiàn)了跨設(shè)備ID的關(guān)聯(lián)映射。所以要解決不同源ID的打通只要接入一家類似TalkingData的數(shù)據(jù)即可。
感謝大家能如此長時間的聽我嘮叨,希望這些信息對您的工作能有所幫助。
大家都剛剛跨入大數(shù)據(jù)的門檻,大數(shù)據(jù)在各個領(lǐng)域的應(yīng)用任重而道遠,希望同行多多切磋學(xué)習(xí),一起前行。
答疑部分
Q1:畫像的時候常用的算法有哪些,比如什么類型的標簽適合什么類型的算法?怎么評估畫像畫的好壞?
王鵬:我們除了用常規(guī)的算法以外,還有自研的開源算法系統(tǒng)fregata,基于spark,支持10億樣本1億維度的超大規(guī)模運算,無需調(diào)參,超高速度。
(點擊放大圖像)
評估畫像的好壞:1、小樣本的真實驗證;2,在實際的case中迭代驗證
Q2:畫像的標簽體系一般怎么設(shè)計,還有你們的標簽體系如何存儲?更便于不同畫像標簽之間的追溯?
王鵬:畫像的體系一般參考你們公司的業(yè)務(wù)體系來設(shè)計。標簽的存儲也取決于你的服務(wù)應(yīng)用場景:我們的存儲有多種:hdfs、vertica、hbase。標簽的追溯屬于另外一個問題,取決于你的標簽的生命周期,有的標簽就是最新的,有的標簽就是每周每月加工的,有的標簽是有時間衰減迭代的。
Q3:標簽的確定一般是怎樣的?是人工打標簽,想業(yè)務(wù)場景,還是通過自動的算法跑出來?TalkingData目前又是如何實現(xiàn)的呢?
王鵬:標簽的確定,一般是先人工篩選小樣本規(guī)則,進行驗證,規(guī)則合理后,在通過算法擴展。
人工和自動是結(jié)合的,取決于該標簽的具體場景、字典數(shù)據(jù)的使用、主數(shù)據(jù)的量等各種因素。
TD的標簽也是結(jié)合這二者一起完成的。
Q4:計算標簽的具體流程是怎樣的 效果如何評估 謝謝 ?
王鵬:計算標簽的具體流程我在剛才講的過程中已經(jīng)說過了,這里可以再貼一下:
效果評估除了剛才說的真實case驗證以外,還可以考慮外部標簽的交叉驗證,自有標簽的交叉驗證,比如:有“已婚”標簽的,不可能是“18歲以下”人群;“已婚”標簽的“大學(xué)生”人群也應(yīng)該極少;“大學(xué)生”標簽的人群“有車”標簽的也應(yīng)該很少。
Q5:在做用戶畫像時如何解決數(shù)據(jù)準確性不足的問題,畢竟非BAT公司太多,很多數(shù)據(jù)都不完善,或者說沒有準確數(shù)據(jù)。
王鵬:說到這個問題,談?wù)勎覍Υ髷?shù)據(jù)的看法:我理解大數(shù)據(jù)本身不存在所謂的正確性,大數(shù)據(jù)是用來驗證人的先驗知識/經(jīng)驗的一種工具,這個里邊應(yīng)該考慮的不止是準確性的問題,而是如何能更好的提高你認為的準確率的問題,大數(shù)據(jù)由于體量大,需要的是數(shù)量、時間等多維的迭代,維度的擴展。
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/9815733.html
總結(jié)
以上是生活随笔為你收集整理的40亿移动设备的用户画像和标签架构实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习实战读书笔记--logistic
- 下一篇: gradle本地、远程仓库配置--转