日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

40亿移动设备的用户画像和标签架构实践

發(fā)布時間:2025/4/5 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 40亿移动设备的用户画像和标签架构实践 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

http://www.infoq.com/cn/articles/4-billion-mobile-device-user-portrait-and-tag-architecture

大家好,我是來自TalkingData的王鵬,很高興在這里和大家一起探討大數(shù)據(jù)的應(yīng)用。

說起大數(shù)據(jù)的應(yīng)用可能很多朋友們腦子里邊第一映像就是畫像,我想從以下幾個方面跟大家聊聊畫像相關(guān)的事情:1、什么是畫像;2、畫像的用處;3、如何進(jìn)行用戶畫像;4畫像應(yīng)用中的難點(diǎn)。

什么是畫像呢?可能大家看到過一些外文資料或者演講中出現(xiàn)過profile一詞,其實(shí)和畫像是一個概念,都是從不同的維度來表達(dá)一個人,這些維度可以是事實(shí)的,可以是抽象的;可以是自然屬性,比如性別、年齡;可以是社會屬性,比如職業(yè)、社交特征;可以是財富狀況,比如是否高收入人群,是否有固定資產(chǎn);可以是家庭情況,比如是否已經(jīng)結(jié)婚,是否有孩子;可以是購物習(xí)慣,比如喜歡網(wǎng)購還是喜歡逛商場;可以是位置特征,比如在哪個城市生活;可以是其他行為習(xí)慣。總之,所有大家能想到的描述一個人的特征的都可以算作是畫像的范疇,畫像其實(shí)就是想方設(shè)法用數(shù)據(jù)來描述人的特征。

畫像有什么用處呢?大家之所以要進(jìn)行用戶畫像,就是為了解決業(yè)務(wù)問題,或者為了拓展一個新用戶,或者為了獲得一個新訂單。想要獲得新用戶,首先必須知道自己產(chǎn)品定位的用戶畫像(也就是用戶長什么樣子,有什么行為特征),而很多產(chǎn)品設(shè)計的時候可能由于定位不清晰,對用戶的了解不夠,導(dǎo)致最后產(chǎn)品上線后效果與預(yù)期大相徑庭。

這里舉一個例子,A銀行的電子支付團(tuán)隊計劃與Uber公司合作,在春節(jié)后以短信推送優(yōu)惠劵的方式進(jìn)行營銷,選擇了多類人群進(jìn)行投放,其中有“有打車需求且有車”和“有打車需求且無車”兩類人群,本以為“有需求且無車”人群的廣告觸達(dá)的營銷效果會更好,結(jié)果卻完全相反,“有需求且有車”人群的廣告觸達(dá)的比例反而最高。這可能映射出無論是開車還是打車,習(xí)慣了車反而離不開車。用數(shù)據(jù)來畫像正是幫助企業(yè)了解用戶和定位產(chǎn)品的最直接的方法。?

綜上我們可以看到要向更好的解決業(yè)務(wù)問題,首先必須明確業(yè)務(wù)目標(biāo),而用戶畫像是幫助企業(yè)明確目標(biāo)客群的重要手段之一。當(dāng)企業(yè)了解了自己的用戶都長什么樣子以后,接下來的任務(wù)就是如何將有類似畫像特征人群的潛在用戶變成自己的用戶,也就是在營銷上獲新客的過程。所以,從大的框架來看,用戶畫像承載了兩個業(yè)務(wù)目標(biāo):一是如何準(zhǔn)確的了解現(xiàn)有用戶;二是如何在茫茫人海中通過廣告營銷獲取類似畫像特征的新用戶。

如果仔細(xì)琢磨這兩個目標(biāo),其實(shí)在根源上邏輯是有些相悖的。了解現(xiàn)有用戶的畫像,需要的是少量、畫像特征覆蓋度全面的無傾斜的精準(zhǔn)樣本,這樣能更精確的定位產(chǎn)品的用戶。而通過畫像結(jié)果做廣告營銷獲取新用戶,在一定程度上需要的是大量的相似樣本。量的大小和精準(zhǔn)度的不同決定了后續(xù)畫像模型在應(yīng)用設(shè)計中的不同。

提到用戶畫像就不得不提到一個詞“標(biāo)簽”。標(biāo)簽是表達(dá)人的基本屬性、行為傾向、興趣偏好等某一個維度的數(shù)據(jù)標(biāo)識,它是一種相關(guān)性很強(qiáng)的關(guān)鍵字,可以簡潔的描述和分類人群。標(biāo)簽的定義來源于業(yè)務(wù)目標(biāo),基于不同的行業(yè),不同的應(yīng)用場景,同樣的標(biāo)簽名稱可能代表了不同的含義,也決定了不同的模型設(shè)計和數(shù)據(jù)處理方式。

舉個例子,如果一款賣男裝的app想在近期做營銷,只篩選“男性”和“網(wǎng)絡(luò)購物”這兩個標(biāo)簽進(jìn)行投放,可能效果并不一定理想。因為“性別(男/女)”可能有多種維度,真實(shí)性別男女是一種維度,網(wǎng)絡(luò)購物特征男女是一種維度,性取向男女可能又是另外一種維度。因為網(wǎng)絡(luò)的發(fā)展,你甚至都不知道網(wǎng)絡(luò)的另一端是不是一個人,更何況是男女呢。想要正確的設(shè)計標(biāo)簽?zāi)P秃陀嬎闾幚頂?shù)據(jù),必須了解畫像標(biāo)簽應(yīng)用的場景和目標(biāo)。

接下來如何進(jìn)行用戶畫像呢?這完全取決于業(yè)務(wù)目標(biāo)(需要什么樣的畫像標(biāo)簽)和有什么樣的原材料(有什么類型的數(shù)據(jù)源),基于這兩樣才能確定使用什么樣的模型設(shè)計和數(shù)據(jù)計算處理方式。就像做菜一樣,要做一頓美味的晚餐,必須知道客戶是想吃中餐還是西餐,配菜都有哪些魚蛋肉和蔬菜,然后才能確定牛肉是紅燒還是煎炸。

仍然以性別(男/女)為例,嘗試演繹一下剛才的三個場景。

如果業(yè)務(wù)是征信場景,想知道的是這個人的真實(shí)性別(男/女),在沒有全量真實(shí)數(shù)據(jù)的前提下可以采取如下的方法來處理,可以選取少量真實(shí)樣本,使用這些真實(shí)樣本追加一些特征因子,使用lookalike算法進(jìn)行樣本擴(kuò)展,將該少數(shù)樣本特征擴(kuò)展到大量或者全量數(shù)據(jù)。當(dāng)然,這些數(shù)據(jù)的準(zhǔn)確度取決于樣本的均衡程度和算法的質(zhì)量。

如果業(yè)務(wù)是網(wǎng)絡(luò)購物的電商場景,我們先不嘗試判斷真實(shí)購買男裝的是否是男性(很多已婚人士是妻子負(fù)責(zé)網(wǎng)購丈夫的裝備),僅僅考慮將來該網(wǎng)絡(luò)賬戶實(shí)體是否會購買男裝的角度考慮,需要的是“男裝購買傾向”的標(biāo)簽,可以直接基于所有賬戶實(shí)體以往購買記錄來計算處理該標(biāo)簽。

如果是業(yè)務(wù)場景是blued(一款同志交友a(bǔ)pp)定義的男性又是另外一個特殊群體,基于客戶想拓展新客,這里定義的特殊男性群體或許可以定義為“男性同志”標(biāo)簽,而實(shí)現(xiàn)該標(biāo)簽可以考慮通過安裝了類似同志交友的app人群或者以同志人群經(jīng)常出現(xiàn)的聚集地進(jìn)行計算處理。

所以說針對不同的行業(yè),不同的應(yīng)用場景,需要使用不同的數(shù)據(jù)源進(jìn)行不同的標(biāo)簽設(shè)計和計算。

說起標(biāo)簽,可能每個行業(yè)有每個行業(yè)的標(biāo)簽體系,各個公司基于自己的數(shù)據(jù)源和特征不同也設(shè)立了不同的標(biāo)簽體系。我認(rèn)為這些標(biāo)簽都可以歸納為以下幾個方面。

?

  • 人口屬性:包含性別、年齡等人的基本特征
  • 資產(chǎn)情況:車輛、房產(chǎn)、收入等資產(chǎn)特征
  • 興趣特征:閱讀資訊、運(yùn)動健康等興趣偏好
  • 消費(fèi)特征:網(wǎng)上/線下消費(fèi)類別品牌等特征
  • 位置特征:常駐城市、職住距離等
  • 設(shè)備屬性:所使用終端的特性等
  • 要支持以上這些標(biāo)簽的設(shè)計和計算,需要多種維度的數(shù)據(jù)源,從產(chǎn)生維度來看:可以包含PC端的數(shù)據(jù)、移動終端的數(shù)據(jù)、線下的數(shù)據(jù);從數(shù)據(jù)擁有者來看:可以包含一方客戶自己的數(shù)據(jù)、外部官方渠道的數(shù)據(jù)、市場采集的數(shù)據(jù);從數(shù)據(jù)類型來看:有社交數(shù)據(jù)、交易數(shù)據(jù)、位置數(shù)據(jù)、運(yùn)營商數(shù)據(jù)等。

    使用這些不同源的數(shù)據(jù),我們?nèi)绾斡嬎闾幚順I(yè)務(wù)需要的標(biāo)簽?zāi)?#xff1f;一般都會經(jīng)過如下幾步:

    ?

  • 數(shù)據(jù)抽取:從不同數(shù)據(jù)源抽取要計算標(biāo)簽的數(shù)據(jù)原材料。
  • 數(shù)據(jù)標(biāo)準(zhǔn)化:針對抽取的數(shù)據(jù)將其清洗為標(biāo)準(zhǔn)格式,將其中的錯誤數(shù)據(jù)和無效數(shù)據(jù)剔除。
  • 數(shù)據(jù)打通:不同來源的數(shù)據(jù)有不同的主鍵和屬性,如何將這些數(shù)據(jù)關(guān)聯(lián)起來是數(shù)據(jù)打通的關(guān)鍵,比如有設(shè)備的wifi信息,又有設(shè)備的poi信息,就可以通過wifi將設(shè)備終端和POI建立起關(guān)聯(lián)。
  • 模型設(shè)計:針對不同的數(shù)據(jù)內(nèi)容和業(yè)務(wù)目標(biāo)設(shè)計不同的規(guī)則和算法進(jìn)行模型的構(gòu)建,并使用小樣本數(shù)據(jù)來驗證模型的可靠性。
  • 標(biāo)簽計算:在模型可靠性驗證的基礎(chǔ)上,部署生產(chǎn)運(yùn)營環(huán)境來進(jìn)行標(biāo)簽計算。
  • 一般標(biāo)簽計算無外乎以上過程,以“大學(xué)生”標(biāo)簽為例,假如我們需要針對移動終端人群設(shè)計一個大學(xué)生標(biāo)簽,而我們并沒有每個大學(xué)生的入學(xué)信息和證件信息,我們該如何操作呢。首先進(jìn)行業(yè)務(wù)分析,發(fā)現(xiàn)大學(xué)生的行為特征,一般大學(xué)生都會在大學(xué)校園內(nèi)活動比較多,我們可以將全國2000多所高校的位置找到,根據(jù)移動終端設(shè)備的位置信息來篩選“大學(xué)生”人群;另外大學(xué)生可能還會使用一些特殊的app比如考研類、四六級、超級課程表等這些特殊app,我們可以通過app進(jìn)行“大學(xué)生”人群的篩選。

    如果不用算法,就只用規(guī)則,我們想找精確的“大學(xué)生”人群,可以將位置和app行為兩個特征疊加使用;如果我們想要擴(kuò)展樣本進(jìn)行大規(guī)模廣告投放,可以考慮含有位置、app行為任意一個特征的人群,同時還可以通過算法進(jìn)行l(wèi)ookalike的擴(kuò)展樣本學(xué)習(xí)。

    注:以上表達(dá)的都是數(shù)據(jù)和標(biāo)簽處理的邏輯過程,實(shí)際業(yè)務(wù)中的數(shù)據(jù)處理要視具體情況而定。

    最后說一說用戶畫像和標(biāo)簽設(shè)計/計算中的一些難點(diǎn)。

    1. 如何定義畫像主體?也可以理解為如何唯一標(biāo)識一個實(shí)體?

    可以理解真實(shí)世界每個人都是一個實(shí)體,但是虛擬世界他可能就變身為多個,比如人可能有一個身份ID,但是可能有多個手機(jī),就對應(yīng)了多個手機(jī)號,多個設(shè)備終端ID,那就對應(yīng)多個移動終端的使用行為;這多個終端ID分別代表了這個實(shí)體的不同特征,只有將這個實(shí)體拼接起來才能代表完整的畫像。一個人可能有多個qq號,如果從qq行為的角度分析,同樣的邏輯。這是終端實(shí)體多對一的體現(xiàn)。

    反過來也會有一對多的情況,比如就一個家庭用的ipad,孩子用ipad來玩游戲,父親用ipad來查收郵件,母親用ipad來購物,這一個ipad代表了多個實(shí)體的行為特征,并且無法分拆。所以要想唯一完整的定義一個實(shí)體其實(shí)很難。所以在業(yè)務(wù)領(lǐng)域中追求標(biāo)簽的完整性有時候是一個很難達(dá)到的目標(biāo),反過來應(yīng)該更多的關(guān)注標(biāo)簽的代表性,無論是一對多還是多對一,只要能通過標(biāo)簽篩選出來想尋找的受眾群體就可以,即便是家庭公用的ipad,有游戲標(biāo)簽也表明了家庭中有成員有該方面的興趣偏好。

    2. 如何打通不同源的數(shù)據(jù)?

    pc端的行為信息、移動終端的行為信息和TV端的行為信息,如何將這些信息關(guān)聯(lián)起來?核心問題在于如何將這些終端的唯一標(biāo)識ID打通。TalkingData的數(shù)據(jù)體系已經(jīng)建立了以TDID為核心ID的關(guān)聯(lián)圖譜,TalkingData的IDmapping能力已經(jīng)實(shí)現(xiàn)了跨設(shè)備ID的關(guān)聯(lián)映射。所以要解決不同源ID的打通只要接入一家類似TalkingData的數(shù)據(jù)即可。

    感謝大家能如此長時間的聽我嘮叨,希望這些信息對您的工作能有所幫助。

    大家都剛剛跨入大數(shù)據(jù)的門檻,大數(shù)據(jù)在各個領(lǐng)域的應(yīng)用任重而道遠(yuǎn),希望同行多多切磋學(xué)習(xí),一起前行。

    答疑部分

    Q1:畫像的時候常用的算法有哪些,比如什么類型的標(biāo)簽適合什么類型的算法?怎么評估畫像畫的好壞?

    王鵬:我們除了用常規(guī)的算法以外,還有自研的開源算法系統(tǒng)fregata,基于spark,支持10億樣本1億維度的超大規(guī)模運(yùn)算,無需調(diào)參,超高速度。

    (點(diǎn)擊放大圖像)

    評估畫像的好壞:1、小樣本的真實(shí)驗證;2,在實(shí)際的case中迭代驗證

    Q2:畫像的標(biāo)簽體系一般怎么設(shè)計,還有你們的標(biāo)簽體系如何存儲?更便于不同畫像標(biāo)簽之間的追溯?

    王鵬:畫像的體系一般參考你們公司的業(yè)務(wù)體系來設(shè)計。標(biāo)簽的存儲也取決于你的服務(wù)應(yīng)用場景:我們的存儲有多種:hdfs、vertica、hbase。標(biāo)簽的追溯屬于另外一個問題,取決于你的標(biāo)簽的生命周期,有的標(biāo)簽就是最新的,有的標(biāo)簽就是每周每月加工的,有的標(biāo)簽是有時間衰減迭代的。

    Q3:標(biāo)簽的確定一般是怎樣的?是人工打標(biāo)簽,想業(yè)務(wù)場景,還是通過自動的算法跑出來?TalkingData目前又是如何實(shí)現(xiàn)的呢?

    王鵬:標(biāo)簽的確定,一般是先人工篩選小樣本規(guī)則,進(jìn)行驗證,規(guī)則合理后,在通過算法擴(kuò)展。

    人工和自動是結(jié)合的,取決于該標(biāo)簽的具體場景、字典數(shù)據(jù)的使用、主數(shù)據(jù)的量等各種因素。

    TD的標(biāo)簽也是結(jié)合這二者一起完成的。

    Q4:計算標(biāo)簽的具體流程是怎樣的 效果如何評估 謝謝 ?

    王鵬:計算標(biāo)簽的具體流程我在剛才講的過程中已經(jīng)說過了,這里可以再貼一下:

  • 數(shù)據(jù)抽取:從不同數(shù)據(jù)源抽取要計算標(biāo)簽的數(shù)據(jù)原材料。
  • 數(shù)據(jù)標(biāo)準(zhǔn)化:針對抽取的數(shù)據(jù)將其清洗為標(biāo)準(zhǔn)格式,將其中的錯誤數(shù)據(jù)和無效數(shù)據(jù)剔除。
  • 數(shù)據(jù)打通:不同來源的數(shù)據(jù)有不同的主鍵和屬性,如何將這些數(shù)據(jù)關(guān)聯(lián)起來是數(shù)據(jù)打通的關(guān)鍵,比如有設(shè)備的wifi信息,又有設(shè)備的poi信息,就可以通過wifi將設(shè)備終端和POI建立起關(guān)聯(lián)。
  • 模型設(shè)計:針對不同的數(shù)據(jù)內(nèi)容和業(yè)務(wù)目標(biāo)設(shè)計不同的規(guī)則和算法進(jìn)行模型的構(gòu)建,并使用小樣本數(shù)據(jù)來驗證模型的可靠性。
  • 標(biāo)簽計算:在模型可靠性驗證的基礎(chǔ)上,部署生產(chǎn)運(yùn)營環(huán)境來進(jìn)行標(biāo)簽計算
  • 效果評估除了剛才說的真實(shí)case驗證以外,還可以考慮外部標(biāo)簽的交叉驗證,自有標(biāo)簽的交叉驗證,比如:有“已婚”標(biāo)簽的,不可能是“18歲以下”人群;“已婚”標(biāo)簽的“大學(xué)生”人群也應(yīng)該極少;“大學(xué)生”標(biāo)簽的人群“有車”標(biāo)簽的也應(yīng)該很少。

    Q5:在做用戶畫像時如何解決數(shù)據(jù)準(zhǔn)確性不足的問題,畢竟非BAT公司太多,很多數(shù)據(jù)都不完善,或者說沒有準(zhǔn)確數(shù)據(jù)。

    王鵬:說到這個問題,談?wù)勎覍Υ髷?shù)據(jù)的看法:我理解大數(shù)據(jù)本身不存在所謂的正確性,大數(shù)據(jù)是用來驗證人的先驗知識/經(jīng)驗的一種工具,這個里邊應(yīng)該考慮的不止是準(zhǔn)確性的問題,而是如何能更好的提高你認(rèn)為的準(zhǔn)確率的問題,大數(shù)據(jù)由于體量大,需要的是數(shù)量、時間等多維的迭代,維度的擴(kuò)展。

    轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/9815733.html

    總結(jié)

    以上是生活随笔為你收集整理的40亿移动设备的用户画像和标签架构实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。