日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

数据采集与分析的那些事——从数据埋点到AB测试

發(fā)布時間:2025/3/21 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据采集与分析的那些事——从数据埋点到AB测试 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者:網(wǎng)易有數(shù)鄭棟。


一、為什么企業(yè)需要一套完善的用戶行為埋點和分析平臺


產(chǎn)品初創(chuàng)期間,需要分析天使用戶的行為來改進產(chǎn)品,甚至從用戶行為中得到新的思路或發(fā)現(xiàn)來調(diào)整產(chǎn)品方向;產(chǎn)品成長過程,通過對用戶行為的多角度(多維)分析、對用戶群體的劃分以及相應(yīng)行為特征的分析和比較,來指導(dǎo)產(chǎn)品設(shè)計、運營活動,并對市場渠道效果進行評估。

配合上A/B試驗平臺,可以加速產(chǎn)品的迭代,更快得到用戶的真實反饋。同時,這些數(shù)據(jù)沉淀下來,對業(yè)務(wù)的數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)智能應(yīng)用等方面也能起到促進作用,比如做實時推薦,需要能更快獲得用戶盡可能多且明細的行為數(shù)據(jù);做用戶分類、意愿預(yù)測等機器學(xué)習(xí)業(yè)務(wù),需要清洗過的規(guī)范化、結(jié)構(gòu)化的數(shù)據(jù)做 訓(xùn)練。

要想做用戶行為的分析,就需要有一套用戶行為數(shù)據(jù)采集、傳輸、處理、分析的基礎(chǔ)設(shè)施,而埋點和分析平臺就是在做這件事。業(yè)界大多產(chǎn)品都是通過嵌入到多個終端的 SDK 來采集用戶行為數(shù)據(jù),而后續(xù)的傳輸、處理等過程對需求方是透明的,這樣可以以很低的成本,完成數(shù)據(jù)的采集、清洗、沉淀工作,為企業(yè)節(jié)省成本,提升數(shù)據(jù)驅(qū)動的效率。

在分析平臺上,用戶的行為定義會通過特定事件來標(biāo)識,比如 “buttonClick”,“playMusic” 等。通常這些事件是開發(fā)人員通過調(diào)用 SDK 提供的API來設(shè)置的,除了確定事件的名稱外,還可以加入分析需要的自定義參數(shù)和取值,這個過程就是“埋點”工作。當(dāng)然,還有一些工具/產(chǎn)品支持可視化埋點,這種方式不需要開發(fā)介入埋點,SDK會自動采集用戶在各個終端上的行為。

?

二、代碼埋點、可視化埋點和無埋點有哪些區(qū)別,在使用過程中該如何選擇?


可視化埋點是指開發(fā)人員除集成采集SDK外,不需要額外去寫埋點代碼,而是由業(yè)務(wù)人員通過訪問分析平臺的圈選功能來“圈”出需要對用戶行為進行捕捉的控件,并給出事件命名。圈選完畢后,這些配置會同步到各個用戶的終端上,由采集SDK按照圈選的配置自動進行用戶行為數(shù)據(jù)的采集和發(fā)送。

無埋點是指開發(fā)人員集成采集SDK后,SDK便直接開始捕捉和監(jiān)測用戶在應(yīng)用里的所有行為,并全部發(fā)送到分析平臺,不需要開發(fā)人員添加額外代碼。在分析時,業(yè)務(wù)人員通過分析平臺的圈選功能來選出自己關(guān)注的用戶行為,并給出事件命名。之后便可以對特定用戶行為(事件)進行多維分析了。

可視化埋點和無埋點比較像,都不需要開發(fā)人員手工加代碼,也都需要業(yè)務(wù)人員進行所關(guān)注的用戶行為的圈選。兩者最大的不同是在用戶終端的表現(xiàn)上,可視化埋點只采集業(yè)務(wù)人員關(guān)注的用戶行為數(shù)據(jù),而無埋點是會采集所有用戶的行為數(shù)據(jù),通常情況下數(shù)據(jù)量后者比前者大很多。

也正是由于無埋點默認采集所有用戶行為數(shù)據(jù),它能夠做到事件的回溯分析,即在業(yè)務(wù)人員新定義(圈選)事件后,就能去分析這個事件在前面一兩個月的數(shù)據(jù)情況,這也是可視化、代碼埋點支持不了的。但帶來的問題就是采集所有數(shù)據(jù)對應(yīng)用的侵入會比較大,也會增大用戶端采集的數(shù)據(jù)量。當(dāng)然,這可以通過一些策略,比如Wi-Fi下才發(fā)來緩解這些問題。

無埋點和可視化埋點都存在一個較大的缺陷,它們都是通過采集SDK去監(jiān)測應(yīng)用上控件的觸發(fā)事件(用戶對控件的操作),當(dāng)產(chǎn)品UI在版本升級過程中發(fā)生變動,或者產(chǎn)品做了大的改版,一些行為的“埋點”會發(fā)生丟失。如控件ID發(fā)生變化,而圈選的配置沒變,導(dǎo)致數(shù)據(jù)采集不到;或者和業(yè)務(wù)的實際需要發(fā)生不一致的變動,比如圈選控件的作用發(fā)生了變化,但圈選配置沒改;這些問題會導(dǎo)致對產(chǎn)品某些方面的分析出現(xiàn)差錯,往往查起來還比較麻煩,在技術(shù)上完全解決也比較困難。

另外,可視化埋點和無埋點都針對的是客戶端數(shù)據(jù)采集,一些用戶行為數(shù)據(jù)在客戶端是采集不到的,或者客戶端采集的精準(zhǔn)度不夠,比如支付,因為支付成功的判斷絕大多數(shù)場景都是在服務(wù)端做的,所以在客戶端做支付行為的埋點,誤差很大,這個時候就需要在服務(wù)端進行埋點。

在業(yè)務(wù)選擇時,建議在產(chǎn)品初期,產(chǎn)品形態(tài)還不太穩(wěn)定、分析的復(fù)雜度還比較低的階段,采用無埋點或者可視化埋點,更快去做埋點,否則頻繁的產(chǎn)品改動,會讓開發(fā)人員大量時間花在瑣碎的埋點代碼維護上面。產(chǎn)品進入穩(wěn)定期后,盡量采用代碼埋點方式,可以保證事件模型是穩(wěn)定的,便于長期的數(shù)據(jù)監(jiān)控、分析和數(shù)據(jù)沉淀。

?

三、實踐中做了些工作,來促進埋點工作的落地以便更好的維護和管理?


產(chǎn)品業(yè)務(wù)數(shù)據(jù)驅(qū)動的 workflow 往往是這樣的:

1、定義產(chǎn)品的階段性目標(biāo);

2、規(guī)劃和定義指標(biāo),包括產(chǎn)品、運營、市場的各項目標(biāo);

3、產(chǎn)品、運營等業(yè)務(wù)人員確定數(shù)據(jù)埋點需求;

4、開發(fā)人員進行埋點以及數(shù)據(jù)的上報等開發(fā)工作;

5、數(shù)據(jù)開發(fā)人員進行數(shù)據(jù)的清洗、寬表建設(shè)、指標(biāo)計算等工作;

6、業(yè)務(wù)人員分析數(shù)據(jù)、發(fā)現(xiàn)產(chǎn)品問題或潛在機會;

7、繼續(xù)下一階段的產(chǎn)品、運營、市場等的改進工作。


用戶行為分析平臺的目標(biāo)就是將其中4-6階段的工作變得簡單和自動化,把開發(fā)人員解放出來去做更多對業(yè)務(wù)有價值的工作。而1-3部分的工作,看起來不復(fù)雜,基于業(yè)務(wù)現(xiàn)狀去定義指標(biāo),排出埋點需求,和開發(fā)人員進行確認后就完成了。但這塊從實踐上來看,很多企業(yè)或者業(yè)務(wù)都做的不夠好。


埋點事件數(shù)量迅速膨脹,團隊可能大部分人都不知道某些埋點是做什么的;或者業(yè)務(wù)人員定義了埋點需求,但開發(fā)人員埋點做錯了,好久都沒發(fā)現(xiàn),導(dǎo)致分析過程出現(xiàn)錯誤解讀,影響決策。


這塊有幾件事情可以做:

l? 指標(biāo)管理系統(tǒng),用來維護指標(biāo)依賴的數(shù)據(jù)表、字段以及計算方式,來統(tǒng)一開發(fā)、分析和解讀過程的口徑。

l? 埋點管理系統(tǒng),用來管理埋點的元數(shù)據(jù),包括事件 Event 的命名、自定義字段含義和特定取值等規(guī)范定義,埋點在產(chǎn)品端的位置或觸發(fā)場景,埋點工作流等,作為業(yè)務(wù)人員、開發(fā)者、分析師溝通的橋梁和基準(zhǔn)。

l? 埋點測試和校驗系統(tǒng),提供 debug 工具方便開發(fā)人員快速進行埋點調(diào)試,以及使用事件定義的規(guī)范要求,在線上對埋點數(shù)據(jù)進行校驗,盡早發(fā)現(xiàn)不符合規(guī)范的數(shù)據(jù),提高埋點工作的效率和準(zhǔn)確性。

匯總就是:元數(shù)據(jù)管理系統(tǒng) + 測試和校驗工具。

?

四、如何做好埋點工作和研發(fā)的協(xié)調(diào)和落地 ?


實踐中,很多開發(fā)人員不太愿意做“埋點”的工作,覺得很瑣碎,而且隨著產(chǎn)品的發(fā)展,包袱有時候會越來越大,維護的工作量不小。

要讓埋點工作在研發(fā)比較好的落地,最能提升的地方還是在于如何簡化開發(fā)人員的工作,包括開發(fā)成本和溝通成本。

有完善的埋點管理系統(tǒng),這樣研發(fā)端可以依據(jù)進行開發(fā),減少“口口相傳”帶來的低效和返工,也能統(tǒng)一口徑和進度流程。有高效易用的埋點測試、校驗系統(tǒng),開發(fā)人員可以快速進行埋點debug,提高開發(fā)效率,也能讓業(yè)務(wù)方盡早介入需求校驗,而不是等應(yīng)用真正發(fā)布后才去校驗,去發(fā)現(xiàn)問題。

當(dāng)然,最好能和開發(fā)人員持續(xù)分享數(shù)據(jù)是如何促進業(yè)務(wù)的發(fā)展,讓大家明白這些工作的價值,才能更重視,更認真對待這部份工作。

?

五、埋點數(shù)據(jù)采集與企業(yè)數(shù)據(jù)資產(chǎn)建設(shè)怎樣更好的合作?


用戶行為分析平臺在建設(shè)時,數(shù)據(jù)端會包含如下能力:

l? 數(shù)據(jù)接入,要支持客戶端、Web、服務(wù)端等多終端的數(shù)據(jù)采集,如iOS、Android、微信小程序等,以及各種數(shù)據(jù)源甚至三方服務(wù)的數(shù)據(jù)適配。

l? 數(shù)據(jù)傳輸,在用戶規(guī)模和數(shù)據(jù)規(guī)模增長過程中,要能保證數(shù)據(jù)傳輸服務(wù)的高可用,以及采集數(shù)據(jù)在傳輸過程的及時性。

l? 數(shù)據(jù)建模/存儲,要能實時的進行數(shù)據(jù)清洗、建模和存儲落地。

?

這些能力,在互聯(lián)網(wǎng)業(yè)務(wù)的數(shù)據(jù)資產(chǎn)建設(shè)過程中,尤其是用戶、流量、產(chǎn)品相關(guān)領(lǐng)域,能起到基礎(chǔ)設(shè)施的作用。規(guī)范的數(shù)據(jù)采集,加上高效的傳輸、建模能力,是企業(yè)業(yè)務(wù)數(shù)據(jù)資產(chǎn)有效建設(shè)的前提。

建模后的數(shù)據(jù),可以作為數(shù)據(jù)倉庫底層(ODS層)的寬表,和企業(yè)的其他業(yè)務(wù)數(shù)據(jù)整合,共同完善企業(yè)的數(shù)據(jù)資產(chǎn)建設(shè)。

另一方面,這些用戶端的結(jié)構(gòu)化數(shù)據(jù),加上實時建模和開放的能力,和機器學(xué)習(xí)算法結(jié)合起來,無論是個性化推薦,還是精準(zhǔn)營銷,又或是銀行、電商的風(fēng)控,都可以發(fā)揮很大威力,為企業(yè)的智能驅(qū)動業(yè)務(wù)做好數(shù)據(jù)積累,掃清障礙。


拿DMP(用戶畫像)建設(shè)舉個例子:

企業(yè)在建設(shè)自己的DMP庫的過程中,常常會從常規(guī)的人口屬性等準(zhǔn)靜態(tài)類標(biāo)簽,以及像消費能力等從自身業(yè)務(wù)積累或三方合作得到的通用類標(biāo)簽入手。這些標(biāo)簽往往是泛業(yè)務(wù)的,針對具體業(yè)務(wù)而言,很多時候會需要用戶畫像標(biāo)簽更貼近業(yè)務(wù),比如電商業(yè)務(wù)場景下的母嬰用戶、電子產(chǎn)品發(fā)燒友、化妝品品牌喜好用戶等。這些標(biāo)簽和用戶的發(fā)掘,需要對用戶的行為進行深度分析來獲取,這個工作便可以借助用戶行為分析平臺的能力,如基于用戶行為模式和用戶業(yè)務(wù)屬性對用戶進行分群分析和比較,來發(fā)現(xiàn)和挖掘有價值的用戶標(biāo)簽。

另一方面,用戶畫像的數(shù)據(jù),也可以和分析平臺進行整合和集成,提升平臺各分析模型對不同用戶群的洞見能力,讓分析和指標(biāo)的比較更有針對性,提升數(shù)據(jù)對業(yè)務(wù)的促進能力。

?

六、埋點及分析平臺和 A/B 試驗平臺如何更好的互相促進?


A/B測試產(chǎn)品是通過提供專業(yè)高效的試驗平臺,幫助產(chǎn)品進行產(chǎn)品決策的驗證和分析。常規(guī)使用流程如下:

接入 SDK -> 創(chuàng)建試驗版本 -> 設(shè)置變量、以及優(yōu)化指標(biāo) -> 調(diào)節(jié)試驗流量 -> 運行試驗 -> 實時監(jiān)控數(shù)據(jù)進行效果評估 -> 正式發(fā)布

試驗平臺和分析平臺的SDK在很多功能上是重合的,在SDK實現(xiàn)上可以整合,減少業(yè)務(wù)應(yīng)用接入太多SDK的負擔(dān)。

在數(shù)據(jù)采集、建模、分析層面,分析平臺可以作為 A/B 試驗平臺后端數(shù)據(jù)的承載,優(yōu)化指標(biāo)的效果評估就能覆蓋用戶的全量行為,無需業(yè)務(wù)及開發(fā)人員維護多個工具帶來的重復(fù)埋點定義和開發(fā)工作。另外,在分析平臺積累的很多分析模型和指標(biāo),在A/B試驗平臺直接可以選取使用,無需在試驗平臺再進行設(shè)置,除減少業(yè)務(wù)人員工作外,還能保證統(tǒng)計口徑的一致。

反過來,A/B試驗平臺的一些對比試驗,以及特定灰度發(fā)布的用戶群,也能整合到分析平臺,通過分群分析能力,將這些群體應(yīng)用到各個分析模型進行針對性的分析,甚至試驗結(jié)束后,也能持續(xù)對這些用戶進行追蹤和分析,更好的洞察用戶。

?

七、如何打通產(chǎn)品多端的埋點數(shù)據(jù)?


這是個歸因的問題,一般提到賬號打通,就會有歸因的討論。

現(xiàn)在的分析產(chǎn)品在一般情況下,移動端會通過SDK生成唯一ID來標(biāo)識用戶/設(shè)備。移動化發(fā)展早期,很多采集工具用過 mac address、IDFA、android_id、IMEI等從移動操作系統(tǒng)可以獲取的設(shè)備軟硬件信息來標(biāo)識設(shè)備,但隨著操作系統(tǒng)的發(fā)展,很多信息獲取接口要么被封禁,要么已經(jīng)失去了精準(zhǔn)性。反倒是一開始就通過自己生成的ID來標(biāo)識用戶的工具,受到的影響不大,基本保持了用戶/設(shè)備標(biāo)識的穩(wěn)定。

但這種方式存在一個問題,當(dāng)用戶卸載、重裝或者刷機后,ID信息會丟失,導(dǎo)致生成新的用戶/設(shè)備ID。


我們采用過ID Mapping的技術(shù)來做過ID的打通:對每個用戶生成一個虛擬ID,對同一個用戶的多個設(shè)備和帳號進行映射,并綁定起來。

l? 可以通過操作系統(tǒng)提供的一些穩(wěn)定性稍差,但短時間還比較穩(wěn)定的指標(biāo),如iOS的IDFA,來做mapping。

l? 借助分析產(chǎn)品的應(yīng)用覆蓋率,如用戶是應(yīng)用A和B的用戶,卸載并重新安裝B應(yīng)用后,可以通過應(yīng)用A的ID修復(fù)應(yīng)用B的。

l? 通過引入產(chǎn)品用戶賬號體系來做綁定,這種方式穩(wěn)定性最強,但非登錄匿名用戶的問題不好解決。

l? 通過IP、Wi-Fi信息、機器型號、甚至地理位置進行mapping,這種方式需要用戶授權(quán)更多數(shù)據(jù)獲取權(quán)限,雖然是近似匹配,但當(dāng)信息足夠多且發(fā)散(信息熵足夠大)時,也可以起到統(tǒng)一標(biāo)識的作用。


通過這個虛擬ID實質(zhì)上就打通了產(chǎn)品的多端數(shù)據(jù)。ID Mapping體系的建設(shè)工作量不小,Mapping后用戶標(biāo)識如果需要發(fā)生調(diào)整,在基于事件的分析產(chǎn)品上需要對老數(shù)據(jù)進行重寫,比較復(fù)雜。所以對于一些強賬號體系的產(chǎn)品,可以退化到只用用戶賬號來做關(guān)聯(lián),只有非登錄匿名用戶才用設(shè)備ID來標(biāo)識,這往往是性價比比較高的方案。

推廣渠道歸因就方便了。

支持營銷效果評估的分析平臺會要求產(chǎn)品在平臺上生成推廣鏈接進行投放。用戶在點擊鏈接時,會從分析平臺的域下做跳轉(zhuǎn)再到目標(biāo)頁,這樣就可以借助瀏覽器的cookie機制進行匹配,對用戶來源進行歸因,但這種方式在移動端上面的表現(xiàn)不太好(iOS已經(jīng)取消了SFSafariViewController多應(yīng)用共享cookie的支持)。除此之外,也可以采用ID Mapping提到的近似匹配技術(shù),很多廠商聲稱的設(shè)備指紋技術(shù)大多也是這種,不太精準(zhǔn),但是做定性分析是可以的。


歸因這塊,一些推廣渠道做了些工作,解決移動端溯源困難的問題:支持設(shè)備ID的回傳功能來方便產(chǎn)品歸因問題的解決。

產(chǎn)品方在投放鏈接的時候,遵照特定格式即可,比如

?https://xxx.com/aaaafD?idfa=__IDFA__&imei=__IMEI__

渠道在用戶點擊廣告鏈接后,會把設(shè)備ID如IDFA或IMEI加到鏈接的內(nèi)容里面,用戶激活后便可以通過相應(yīng)ID匹配來歸因。

?

網(wǎng)易有數(shù)是網(wǎng)易旗下的企業(yè)級大數(shù)據(jù)可視化分析平臺,可點擊免費試用。


網(wǎng)易云免費體驗館,0成本體驗20+款云產(chǎn)品!


更多網(wǎng)易研發(fā)、產(chǎn)品、運營經(jīng)驗分享請訪問網(wǎng)易云社區(qū)。


相關(guān)文章:
【推薦】?4月第4周業(yè)務(wù)風(fēng)控關(guān)注 | 網(wǎng)絡(luò)犯罪經(jīng)濟每年1.5萬億美元 GDP居全球第12位
【推薦】?ThreeJs 基礎(chǔ)入門
【推薦】?“代碼變更覆蓋率”在后端測試中的實踐

轉(zhuǎn)載于:https://www.cnblogs.com/zyfd/p/9761760.html

總結(jié)

以上是生活随笔為你收集整理的数据采集与分析的那些事——从数据埋点到AB测试的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。