日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

40亿移动设备的用户画像和标签架构实践

發(fā)布時間:2025/4/5 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 40亿移动设备的用户画像和标签架构实践 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

http://www.infoq.com/cn/articles/4-billion-mobile-device-user-portrait-and-tag-architecture

大家好,我是來自TalkingData的王鵬,很高興在這里和大家一起探討大數(shù)據(jù)的應(yīng)用。

說起大數(shù)據(jù)的應(yīng)用可能很多朋友們腦子里邊第一映像就是畫像,我想從以下幾個方面跟大家聊聊畫像相關(guān)的事情:1、什么是畫像;2、畫像的用處;3、如何進行用戶畫像;4畫像應(yīng)用中的難點。

什么是畫像呢?可能大家看到過一些外文資料或者演講中出現(xiàn)過profile一詞,其實和畫像是一個概念,都是從不同的維度來表達一個人,這些維度可以是事實的,可以是抽象的;可以是自然屬性,比如性別、年齡;可以是社會屬性,比如職業(yè)、社交特征;可以是財富狀況,比如是否高收入人群,是否有固定資產(chǎn);可以是家庭情況,比如是否已經(jīng)結(jié)婚,是否有孩子;可以是購物習(xí)慣,比如喜歡網(wǎng)購還是喜歡逛商場;可以是位置特征,比如在哪個城市生活;可以是其他行為習(xí)慣??傊?#xff0c;所有大家能想到的描述一個人的特征的都可以算作是畫像的范疇,畫像其實就是想方設(shè)法用數(shù)據(jù)來描述人的特征。

畫像有什么用處呢?大家之所以要進行用戶畫像,就是為了解決業(yè)務(wù)問題,或者為了拓展一個新用戶,或者為了獲得一個新訂單。想要獲得新用戶,首先必須知道自己產(chǎn)品定位的用戶畫像(也就是用戶長什么樣子,有什么行為特征),而很多產(chǎn)品設(shè)計的時候可能由于定位不清晰,對用戶的了解不夠,導(dǎo)致最后產(chǎn)品上線后效果與預(yù)期大相徑庭。

這里舉一個例子,A銀行的電子支付團隊計劃與Uber公司合作,在春節(jié)后以短信推送優(yōu)惠劵的方式進行營銷,選擇了多類人群進行投放,其中有“有打車需求且有車”和“有打車需求且無車”兩類人群,本以為“有需求且無車”人群的廣告觸達的營銷效果會更好,結(jié)果卻完全相反,“有需求且有車”人群的廣告觸達的比例反而最高。這可能映射出無論是開車還是打車,習(xí)慣了車反而離不開車。用數(shù)據(jù)來畫像正是幫助企業(yè)了解用戶和定位產(chǎn)品的最直接的方法。?

綜上我們可以看到要向更好的解決業(yè)務(wù)問題,首先必須明確業(yè)務(wù)目標,而用戶畫像是幫助企業(yè)明確目標客群的重要手段之一。當(dāng)企業(yè)了解了自己的用戶都長什么樣子以后,接下來的任務(wù)就是如何將有類似畫像特征人群的潛在用戶變成自己的用戶,也就是在營銷上獲新客的過程。所以,從大的框架來看,用戶畫像承載了兩個業(yè)務(wù)目標:一是如何準確的了解現(xiàn)有用戶;二是如何在茫茫人海中通過廣告營銷獲取類似畫像特征的新用戶。

如果仔細琢磨這兩個目標,其實在根源上邏輯是有些相悖的。了解現(xiàn)有用戶的畫像,需要的是少量、畫像特征覆蓋度全面的無傾斜的精準樣本,這樣能更精確的定位產(chǎn)品的用戶。而通過畫像結(jié)果做廣告營銷獲取新用戶,在一定程度上需要的是大量的相似樣本。量的大小和精準度的不同決定了后續(xù)畫像模型在應(yīng)用設(shè)計中的不同。

提到用戶畫像就不得不提到一個詞“標簽”。標簽是表達人的基本屬性、行為傾向、興趣偏好等某一個維度的數(shù)據(jù)標識,它是一種相關(guān)性很強的關(guān)鍵字,可以簡潔的描述和分類人群。標簽的定義來源于業(yè)務(wù)目標,基于不同的行業(yè),不同的應(yīng)用場景,同樣的標簽名稱可能代表了不同的含義,也決定了不同的模型設(shè)計和數(shù)據(jù)處理方式。

舉個例子,如果一款賣男裝的app想在近期做營銷,只篩選“男性”和“網(wǎng)絡(luò)購物”這兩個標簽進行投放,可能效果并不一定理想。因為“性別(男/女)”可能有多種維度,真實性別男女是一種維度,網(wǎng)絡(luò)購物特征男女是一種維度,性取向男女可能又是另外一種維度。因為網(wǎng)絡(luò)的發(fā)展,你甚至都不知道網(wǎng)絡(luò)的另一端是不是一個人,更何況是男女呢。想要正確的設(shè)計標簽?zāi)P秃陀嬎闾幚頂?shù)據(jù),必須了解畫像標簽應(yīng)用的場景和目標。

接下來如何進行用戶畫像呢?這完全取決于業(yè)務(wù)目標(需要什么樣的畫像標簽)和有什么樣的原材料(有什么類型的數(shù)據(jù)源),基于這兩樣才能確定使用什么樣的模型設(shè)計和數(shù)據(jù)計算處理方式。就像做菜一樣,要做一頓美味的晚餐,必須知道客戶是想吃中餐還是西餐,配菜都有哪些魚蛋肉和蔬菜,然后才能確定牛肉是紅燒還是煎炸。

仍然以性別(男/女)為例,嘗試演繹一下剛才的三個場景。

如果業(yè)務(wù)是征信場景,想知道的是這個人的真實性別(男/女),在沒有全量真實數(shù)據(jù)的前提下可以采取如下的方法來處理,可以選取少量真實樣本,使用這些真實樣本追加一些特征因子,使用lookalike算法進行樣本擴展,將該少數(shù)樣本特征擴展到大量或者全量數(shù)據(jù)。當(dāng)然,這些數(shù)據(jù)的準確度取決于樣本的均衡程度和算法的質(zhì)量。

如果業(yè)務(wù)是網(wǎng)絡(luò)購物的電商場景,我們先不嘗試判斷真實購買男裝的是否是男性(很多已婚人士是妻子負責(zé)網(wǎng)購丈夫的裝備),僅僅考慮將來該網(wǎng)絡(luò)賬戶實體是否會購買男裝的角度考慮,需要的是“男裝購買傾向”的標簽,可以直接基于所有賬戶實體以往購買記錄來計算處理該標簽。

如果是業(yè)務(wù)場景是blued(一款同志交友app)定義的男性又是另外一個特殊群體,基于客戶想拓展新客,這里定義的特殊男性群體或許可以定義為“男性同志”標簽,而實現(xiàn)該標簽可以考慮通過安裝了類似同志交友的app人群或者以同志人群經(jīng)常出現(xiàn)的聚集地進行計算處理。

所以說針對不同的行業(yè),不同的應(yīng)用場景,需要使用不同的數(shù)據(jù)源進行不同的標簽設(shè)計和計算。

說起標簽,可能每個行業(yè)有每個行業(yè)的標簽體系,各個公司基于自己的數(shù)據(jù)源和特征不同也設(shè)立了不同的標簽體系。我認為這些標簽都可以歸納為以下幾個方面。

?

  • 人口屬性:包含性別、年齡等人的基本特征
  • 資產(chǎn)情況:車輛、房產(chǎn)、收入等資產(chǎn)特征
  • 興趣特征:閱讀資訊、運動健康等興趣偏好
  • 消費特征:網(wǎng)上/線下消費類別品牌等特征
  • 位置特征:常駐城市、職住距離等
  • 設(shè)備屬性:所使用終端的特性等
  • 要支持以上這些標簽的設(shè)計和計算,需要多種維度的數(shù)據(jù)源,從產(chǎn)生維度來看:可以包含PC端的數(shù)據(jù)、移動終端的數(shù)據(jù)、線下的數(shù)據(jù);從數(shù)據(jù)擁有者來看:可以包含一方客戶自己的數(shù)據(jù)、外部官方渠道的數(shù)據(jù)、市場采集的數(shù)據(jù);從數(shù)據(jù)類型來看:有社交數(shù)據(jù)、交易數(shù)據(jù)、位置數(shù)據(jù)、運營商數(shù)據(jù)等。

    使用這些不同源的數(shù)據(jù),我們?nèi)绾斡嬎闾幚順I(yè)務(wù)需要的標簽?zāi)?#xff1f;一般都會經(jīng)過如下幾步:

    ?

  • 數(shù)據(jù)抽取:從不同數(shù)據(jù)源抽取要計算標簽的數(shù)據(jù)原材料。
  • 數(shù)據(jù)標準化:針對抽取的數(shù)據(jù)將其清洗為標準格式,將其中的錯誤數(shù)據(jù)和無效數(shù)據(jù)剔除。
  • 數(shù)據(jù)打通:不同來源的數(shù)據(jù)有不同的主鍵和屬性,如何將這些數(shù)據(jù)關(guān)聯(lián)起來是數(shù)據(jù)打通的關(guān)鍵,比如有設(shè)備的wifi信息,又有設(shè)備的poi信息,就可以通過wifi將設(shè)備終端和POI建立起關(guān)聯(lián)。
  • 模型設(shè)計:針對不同的數(shù)據(jù)內(nèi)容和業(yè)務(wù)目標設(shè)計不同的規(guī)則和算法進行模型的構(gòu)建,并使用小樣本數(shù)據(jù)來驗證模型的可靠性。
  • 標簽計算:在模型可靠性驗證的基礎(chǔ)上,部署生產(chǎn)運營環(huán)境來進行標簽計算。
  • 一般標簽計算無外乎以上過程,以“大學(xué)生”標簽為例,假如我們需要針對移動終端人群設(shè)計一個大學(xué)生標簽,而我們并沒有每個大學(xué)生的入學(xué)信息和證件信息,我們該如何操作呢。首先進行業(yè)務(wù)分析,發(fā)現(xiàn)大學(xué)生的行為特征,一般大學(xué)生都會在大學(xué)校園內(nèi)活動比較多,我們可以將全國2000多所高校的位置找到,根據(jù)移動終端設(shè)備的位置信息來篩選“大學(xué)生”人群;另外大學(xué)生可能還會使用一些特殊的app比如考研類、四六級、超級課程表等這些特殊app,我們可以通過app進行“大學(xué)生”人群的篩選。

    如果不用算法,就只用規(guī)則,我們想找精確的“大學(xué)生”人群,可以將位置和app行為兩個特征疊加使用;如果我們想要擴展樣本進行大規(guī)模廣告投放,可以考慮含有位置、app行為任意一個特征的人群,同時還可以通過算法進行l(wèi)ookalike的擴展樣本學(xué)習(xí)。

    注:以上表達的都是數(shù)據(jù)和標簽處理的邏輯過程,實際業(yè)務(wù)中的數(shù)據(jù)處理要視具體情況而定。

    最后說一說用戶畫像和標簽設(shè)計/計算中的一些難點。

    1. 如何定義畫像主體?也可以理解為如何唯一標識一個實體?

    可以理解真實世界每個人都是一個實體,但是虛擬世界他可能就變身為多個,比如人可能有一個身份ID,但是可能有多個手機,就對應(yīng)了多個手機號,多個設(shè)備終端ID,那就對應(yīng)多個移動終端的使用行為;這多個終端ID分別代表了這個實體的不同特征,只有將這個實體拼接起來才能代表完整的畫像。一個人可能有多個qq號,如果從qq行為的角度分析,同樣的邏輯。這是終端實體多對一的體現(xiàn)。

    反過來也會有一對多的情況,比如就一個家庭用的ipad,孩子用ipad來玩游戲,父親用ipad來查收郵件,母親用ipad來購物,這一個ipad代表了多個實體的行為特征,并且無法分拆。所以要想唯一完整的定義一個實體其實很難。所以在業(yè)務(wù)領(lǐng)域中追求標簽的完整性有時候是一個很難達到的目標,反過來應(yīng)該更多的關(guān)注標簽的代表性,無論是一對多還是多對一,只要能通過標簽篩選出來想尋找的受眾群體就可以,即便是家庭公用的ipad,有游戲標簽也表明了家庭中有成員有該方面的興趣偏好。

    2. 如何打通不同源的數(shù)據(jù)?

    pc端的行為信息、移動終端的行為信息和TV端的行為信息,如何將這些信息關(guān)聯(lián)起來?核心問題在于如何將這些終端的唯一標識ID打通。TalkingData的數(shù)據(jù)體系已經(jīng)建立了以TDID為核心ID的關(guān)聯(lián)圖譜,TalkingData的IDmapping能力已經(jīng)實現(xiàn)了跨設(shè)備ID的關(guān)聯(lián)映射。所以要解決不同源ID的打通只要接入一家類似TalkingData的數(shù)據(jù)即可。

    感謝大家能如此長時間的聽我嘮叨,希望這些信息對您的工作能有所幫助。

    大家都剛剛跨入大數(shù)據(jù)的門檻,大數(shù)據(jù)在各個領(lǐng)域的應(yīng)用任重而道遠,希望同行多多切磋學(xué)習(xí),一起前行。

    答疑部分

    Q1:畫像的時候常用的算法有哪些,比如什么類型的標簽適合什么類型的算法?怎么評估畫像畫的好壞?

    王鵬:我們除了用常規(guī)的算法以外,還有自研的開源算法系統(tǒng)fregata,基于spark,支持10億樣本1億維度的超大規(guī)模運算,無需調(diào)參,超高速度。

    (點擊放大圖像)

    評估畫像的好壞:1、小樣本的真實驗證;2,在實際的case中迭代驗證

    Q2:畫像的標簽體系一般怎么設(shè)計,還有你們的標簽體系如何存儲?更便于不同畫像標簽之間的追溯?

    王鵬:畫像的體系一般參考你們公司的業(yè)務(wù)體系來設(shè)計。標簽的存儲也取決于你的服務(wù)應(yīng)用場景:我們的存儲有多種:hdfs、vertica、hbase。標簽的追溯屬于另外一個問題,取決于你的標簽的生命周期,有的標簽就是最新的,有的標簽就是每周每月加工的,有的標簽是有時間衰減迭代的。

    Q3:標簽的確定一般是怎樣的?是人工打標簽,想業(yè)務(wù)場景,還是通過自動的算法跑出來?TalkingData目前又是如何實現(xiàn)的呢?

    王鵬:標簽的確定,一般是先人工篩選小樣本規(guī)則,進行驗證,規(guī)則合理后,在通過算法擴展。

    人工和自動是結(jié)合的,取決于該標簽的具體場景、字典數(shù)據(jù)的使用、主數(shù)據(jù)的量等各種因素。

    TD的標簽也是結(jié)合這二者一起完成的。

    Q4:計算標簽的具體流程是怎樣的 效果如何評估 謝謝 ?

    王鵬:計算標簽的具體流程我在剛才講的過程中已經(jīng)說過了,這里可以再貼一下:

  • 數(shù)據(jù)抽取:從不同數(shù)據(jù)源抽取要計算標簽的數(shù)據(jù)原材料。
  • 數(shù)據(jù)標準化:針對抽取的數(shù)據(jù)將其清洗為標準格式,將其中的錯誤數(shù)據(jù)和無效數(shù)據(jù)剔除。
  • 數(shù)據(jù)打通:不同來源的數(shù)據(jù)有不同的主鍵和屬性,如何將這些數(shù)據(jù)關(guān)聯(lián)起來是數(shù)據(jù)打通的關(guān)鍵,比如有設(shè)備的wifi信息,又有設(shè)備的poi信息,就可以通過wifi將設(shè)備終端和POI建立起關(guān)聯(lián)。
  • 模型設(shè)計:針對不同的數(shù)據(jù)內(nèi)容和業(yè)務(wù)目標設(shè)計不同的規(guī)則和算法進行模型的構(gòu)建,并使用小樣本數(shù)據(jù)來驗證模型的可靠性。
  • 標簽計算:在模型可靠性驗證的基礎(chǔ)上,部署生產(chǎn)運營環(huán)境來進行標簽計算
  • 效果評估除了剛才說的真實case驗證以外,還可以考慮外部標簽的交叉驗證,自有標簽的交叉驗證,比如:有“已婚”標簽的,不可能是“18歲以下”人群;“已婚”標簽的“大學(xué)生”人群也應(yīng)該極少;“大學(xué)生”標簽的人群“有車”標簽的也應(yīng)該很少。

    Q5:在做用戶畫像時如何解決數(shù)據(jù)準確性不足的問題,畢竟非BAT公司太多,很多數(shù)據(jù)都不完善,或者說沒有準確數(shù)據(jù)。

    王鵬:說到這個問題,談?wù)勎覍Υ髷?shù)據(jù)的看法:我理解大數(shù)據(jù)本身不存在所謂的正確性,大數(shù)據(jù)是用來驗證人的先驗知識/經(jīng)驗的一種工具,這個里邊應(yīng)該考慮的不止是準確性的問題,而是如何能更好的提高你認為的準確率的問題,大數(shù)據(jù)由于體量大,需要的是數(shù)量、時間等多維的迭代,維度的擴展。

    轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/9815733.html

    總結(jié)

    以上是生活随笔為你收集整理的40亿移动设备的用户画像和标签架构实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: av老司机福利 | 欧美jizzhd欧美18 | 91大神久久 | 国产成人一区二区三区电影 | 国产欧美日韩一区 | 黄色一级大片 | 国精品人妻无码一区二区三区喝尿 | 香蕉国产在线视频 | 欧美少妇xx | 国产小视频免费在线观看 | 国产高清二区 | 日本一级大片 | 国产麻豆一精品一男同 | av天天射 | 日韩黄色网页 | 操操操综合网 | 人妻互换一区二区三区四区五区 | 免费视频毛片 | 涩涩视频在线观看免费 | 国产又粗又黄又爽的视频 | 亚洲综合一区二区三区 | 禁断介护av一区二区 | 91九色视频在线观看 | 婷婷开心激情 | 欧美黑人精品一区二区不卡 | 嫩草影院在线视频 | 国产黄色一区二区三区 | 99国产免费 | av每日更新 | jizz视频| 在线你懂得 | 已满十八岁免费观看全集动漫 | 使劲插视频 | 欧美福利视频导航 | 乱淫的女高中暑假调教h | 亚洲成人播放 | 日本香蕉网 | 日韩在线激情视频 | 黄色在线观看www | 久精品免费视频 | 亚洲欧美一区二区三区在线观看 | 欧美老熟妇一区二区三区 | 亚洲精品国产精品乱码不卡√香蕉 | 久草高清 | gav久久| 国产精品日韩在线观看 | aaa大片十八岁禁止 中文字幕亚洲在线观看 | 丁香婷婷久久久综合精品国产 | a天堂亚洲 | 美女扒开腿男人爽桶 | 欧美一级免费在线观看 | 挪威xxxx性hd极品 | 日韩欧美小视频 | 日韩中文字幕国产 | 91国偷自产中文字幕久久 | 爱爱视频在线播放 | 亚a在线 | 一区二区免费在线播放 | 精品视频在线免费看 | 亚洲综合一区二区 | 国产精品高潮呻吟视频 | 精品一区二区免费看 | 亚洲欧美国产一区二区三区 | 色综合久久久久久 | 一级日韩片 | 中文字幕高清在线免费播放 | 免费观看一级黄色片 | 精品久久久久久无码人妻 | 国产在线播放一区二区 | 中文字幕在线视频日韩 | 日韩欧美在线中文字幕 | 天堂在线资源网 | 日本另类视频 | 无码人妻一区二区三区在线视频 | 九九热视频在线免费观看 | 久久123 | 国产一区二区免费在线观看 | 色七七桃花影院 | 日韩 欧美 亚洲 | av不卡在线看 | 窝窝午夜精品一区二区 | 69堂在线观看 | 免费黄色网页 | 色悠久久综合 | 亚洲精品综合在线 | 午夜激情网站 | 初高中福利视频网站 | 你懂的网站在线 | www.18av| 色欧美88888久久久久久影院 | 成人激情视频在线播放 | 女人天堂av| 亚洲一区二区三区乱码 | www.国产一区二区三区 | 久久思| 国产精品嫩草影院精东 | 久久成人在线观看 | 日本一区二区免费高清视频 | 天天碰视频 |