當(dāng)前位置：首頁 >

数据采集与分析的那些事——从数据埋点到AB测试

發(fā)布時間：2025/3/21 50 豆豆

生活随笔收集整理的這篇文章主要介紹了数据采集与分析的那些事——从数据埋点到AB测试小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者：網(wǎng)易有數(shù)鄭棟。

一、為什么企業(yè)需要一套完善的用戶行為埋點和分析平臺

產(chǎn)品初創(chuàng)期間，需要分析天使用戶的行為來改進產(chǎn)品，甚至從用戶行為中得到新的思路或發(fā)現(xiàn)來調(diào)整產(chǎn)品方向；產(chǎn)品成長過程，通過對用戶行為的多角度（多維）分析、對用戶群體的劃分以及相應(yīng)行為特征的分析和比較，來指導(dǎo)產(chǎn)品設(shè)計、運營活動，并對市場渠道效果進行評估。

配合上A/B試驗平臺，可以加速產(chǎn)品的迭代，更快得到用戶的真實反饋。同時，這些數(shù)據(jù)沉淀下來，對業(yè)務(wù)的數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)智能應(yīng)用等方面也能起到促進作用，比如做實時推薦，需要能更快獲得用戶盡可能多且明細的行為數(shù)據(jù)；做用戶分類、意愿預(yù)測等機器學(xué)習(xí)業(yè)務(wù)，需要清洗過的規(guī)范化、結(jié)構(gòu)化的數(shù)據(jù)做訓(xùn)練。

要想做用戶行為的分析，就需要有一套用戶行為數(shù)據(jù)采集、傳輸、處理、分析的基礎(chǔ)設(shè)施，而埋點和分析平臺就是在做這件事。業(yè)界大多產(chǎn)品都是通過嵌入到多個終端的 SDK 來采集用戶行為數(shù)據(jù)，而后續(xù)的傳輸、處理等過程對需求方是透明的，這樣可以以很低的成本，完成數(shù)據(jù)的采集、清洗、沉淀工作，為企業(yè)節(jié)省成本，提升數(shù)據(jù)驅(qū)動的效率。

在分析平臺上，用戶的行為定義會通過特定事件來標(biāo)識，比如 “buttonClick”，“playMusic” 等。通常這些事件是開發(fā)人員通過調(diào)用 SDK 提供的API來設(shè)置的，除了確定事件的名稱外，還可以加入分析需要的自定義參數(shù)和取值，這個過程就是“埋點”工作。當(dāng)然，還有一些工具/產(chǎn)品支持可視化埋點，這種方式不需要開發(fā)介入埋點，SDK會自動采集用戶在各個終端上的行為。

二、代碼埋點、可視化埋點和無埋點有哪些區(qū)別，在使用過程中該如何選擇？

可視化埋點是指開發(fā)人員除集成采集SDK外，不需要額外去寫埋點代碼，而是由業(yè)務(wù)人員通過訪問分析平臺的圈選功能來“圈”出需要對用戶行為進行捕捉的控件，并給出事件命名。圈選完畢后，這些配置會同步到各個用戶的終端上，由采集SDK按照圈選的配置自動進行用戶行為數(shù)據(jù)的采集和發(fā)送。

無埋點是指開發(fā)人員集成采集SDK后，SDK便直接開始捕捉和監(jiān)測用戶在應(yīng)用里的所有行為，并全部發(fā)送到分析平臺，不需要開發(fā)人員添加額外代碼。在分析時，業(yè)務(wù)人員通過分析平臺的圈選功能來選出自己關(guān)注的用戶行為，并給出事件命名。之后便可以對特定用戶行為（事件）進行多維分析了。

可視化埋點和無埋點比較像，都不需要開發(fā)人員手工加代碼，也都需要業(yè)務(wù)人員進行所關(guān)注的用戶行為的圈選。兩者最大的不同是在用戶終端的表現(xiàn)上，可視化埋點只采集業(yè)務(wù)人員關(guān)注的用戶行為數(shù)據(jù)，而無埋點是會采集所有用戶的行為數(shù)據(jù)，通常情況下數(shù)據(jù)量后者比前者大很多。

也正是由于無埋點默認采集所有用戶行為數(shù)據(jù)，它能夠做到事件的回溯分析，即在業(yè)務(wù)人員新定義（圈選）事件后，就能去分析這個事件在前面一兩個月的數(shù)據(jù)情況，這也是可視化、代碼埋點支持不了的。但帶來的問題就是采集所有數(shù)據(jù)對應(yīng)用的侵入會比較大，也會增大用戶端采集的數(shù)據(jù)量。當(dāng)然，這可以通過一些策略，比如Wi-Fi下才發(fā)來緩解這些問題。

無埋點和可視化埋點都存在一個較大的缺陷，它們都是通過采集SDK去監(jiān)測應(yīng)用上控件的觸發(fā)事件（用戶對控件的操作），當(dāng)產(chǎn)品UI在版本升級過程中發(fā)生變動，或者產(chǎn)品做了大的改版，一些行為的“埋點”會發(fā)生丟失。如控件ID發(fā)生變化，而圈選的配置沒變，導(dǎo)致數(shù)據(jù)采集不到；或者和業(yè)務(wù)的實際需要發(fā)生不一致的變動，比如圈選控件的作用發(fā)生了變化，但圈選配置沒改；這些問題會導(dǎo)致對產(chǎn)品某些方面的分析出現(xiàn)差錯，往往查起來還比較麻煩，在技術(shù)上完全解決也比較困難。

另外，可視化埋點和無埋點都針對的是客戶端數(shù)據(jù)采集，一些用戶行為數(shù)據(jù)在客戶端是采集不到的，或者客戶端采集的精準(zhǔn)度不夠，比如支付，因為支付成功的判斷絕大多數(shù)場景都是在服務(wù)端做的，所以在客戶端做支付行為的埋點，誤差很大，這個時候就需要在服務(wù)端進行埋點。

在業(yè)務(wù)選擇時，建議在產(chǎn)品初期，產(chǎn)品形態(tài)還不太穩(wěn)定、分析的復(fù)雜度還比較低的階段，采用無埋點或者可視化埋點，更快去做埋點，否則頻繁的產(chǎn)品改動，會讓開發(fā)人員大量時間花在瑣碎的埋點代碼維護上面。產(chǎn)品進入穩(wěn)定期后，盡量采用代碼埋點方式，可以保證事件模型是穩(wěn)定的，便于長期的數(shù)據(jù)監(jiān)控、分析和數(shù)據(jù)沉淀。

三、實踐中做了些工作，來促進埋點工作的落地以便更好的維護和管理？

產(chǎn)品業(yè)務(wù)數(shù)據(jù)驅(qū)動的 workflow 往往是這樣的：

1、定義產(chǎn)品的階段性目標(biāo)；

2、規(guī)劃和定義指標(biāo)，包括產(chǎn)品、運營、市場的各項目標(biāo)；

3、產(chǎn)品、運營等業(yè)務(wù)人員確定數(shù)據(jù)埋點需求；

4、開發(fā)人員進行埋點以及數(shù)據(jù)的上報等開發(fā)工作；

5、數(shù)據(jù)開發(fā)人員進行數(shù)據(jù)的清洗、寬表建設(shè)、指標(biāo)計算等工作；

6、業(yè)務(wù)人員分析數(shù)據(jù)、發(fā)現(xiàn)產(chǎn)品問題或潛在機會；

7、繼續(xù)下一階段的產(chǎn)品、運營、市場等的改進工作。

用戶行為分析平臺的目標(biāo)就是將其中4-6階段的工作變得簡單和自動化，把開發(fā)人員解放出來去做更多對業(yè)務(wù)有價值的工作。而1-3部分的工作，看起來不復(fù)雜，基于業(yè)務(wù)現(xiàn)狀去定義指標(biāo)，排出埋點需求，和開發(fā)人員進行確認后就完成了。但這塊從實踐上來看，很多企業(yè)或者業(yè)務(wù)都做的不夠好。

埋點事件數(shù)量迅速膨脹，團隊可能大部分人都不知道某些埋點是做什么的；或者業(yè)務(wù)人員定義了埋點需求，但開發(fā)人員埋點做錯了，好久都沒發(fā)現(xiàn)，導(dǎo)致分析過程出現(xiàn)錯誤解讀，影響決策。

這塊有幾件事情可以做：

l? 指標(biāo)管理系統(tǒng)，用來維護指標(biāo)依賴的數(shù)據(jù)表、字段以及計算方式，來統(tǒng)一開發(fā)、分析和解讀過程的口徑。

l? 埋點管理系統(tǒng)，用來管理埋點的元數(shù)據(jù)，包括事件 Event 的命名、自定義字段含義和特定取值等規(guī)范定義，埋點在產(chǎn)品端的位置或觸發(fā)場景，埋點工作流等，作為業(yè)務(wù)人員、開發(fā)者、分析師溝通的橋梁和基準(zhǔn)。

l? 埋點測試和校驗系統(tǒng)，提供 debug 工具方便開發(fā)人員快速進行埋點調(diào)試，以及使用事件定義的規(guī)范要求，在線上對埋點數(shù)據(jù)進行校驗，盡早發(fā)現(xiàn)不符合規(guī)范的數(shù)據(jù)，提高埋點工作的效率和準(zhǔn)確性。

匯總就是：元數(shù)據(jù)管理系統(tǒng) + 測試和校驗工具。

四、如何做好埋點工作和研發(fā)的協(xié)調(diào)和落地？

實踐中，很多開發(fā)人員不太愿意做“埋點”的工作，覺得很瑣碎，而且隨著產(chǎn)品的發(fā)展，包袱有時候會越來越大，維護的工作量不小。

要讓埋點工作在研發(fā)比較好的落地，最能提升的地方還是在于如何簡化開發(fā)人員的工作，包括開發(fā)成本和溝通成本。

有完善的埋點管理系統(tǒng)，這樣研發(fā)端可以依據(jù)進行開發(fā)，減少“口口相傳”帶來的低效和返工，也能統(tǒng)一口徑和進度流程。有高效易用的埋點測試、校驗系統(tǒng)，開發(fā)人員可以快速進行埋點debug，提高開發(fā)效率，也能讓業(yè)務(wù)方盡早介入需求校驗，而不是等應(yīng)用真正發(fā)布后才去校驗，去發(fā)現(xiàn)問題。

當(dāng)然，最好能和開發(fā)人員持續(xù)分享數(shù)據(jù)是如何促進業(yè)務(wù)的發(fā)展，讓大家明白這些工作的價值，才能更重視，更認真對待這部份工作。

五、埋點數(shù)據(jù)采集與企業(yè)數(shù)據(jù)資產(chǎn)建設(shè)怎樣更好的合作？

用戶行為分析平臺在建設(shè)時，數(shù)據(jù)端會包含如下能力：

l? 數(shù)據(jù)接入，要支持客戶端、Web、服務(wù)端等多終端的數(shù)據(jù)采集，如iOS、Android、微信小程序等，以及各種數(shù)據(jù)源甚至三方服務(wù)的數(shù)據(jù)適配。

l? 數(shù)據(jù)傳輸，在用戶規(guī)模和數(shù)據(jù)規(guī)模增長過程中，要能保證數(shù)據(jù)傳輸服務(wù)的高可用，以及采集數(shù)據(jù)在傳輸過程的及時性。

l? 數(shù)據(jù)建模/存儲，要能實時的進行數(shù)據(jù)清洗、建模和存儲落地。

這些能力，在互聯(lián)網(wǎng)業(yè)務(wù)的數(shù)據(jù)資產(chǎn)建設(shè)過程中，尤其是用戶、流量、產(chǎn)品相關(guān)領(lǐng)域，能起到基礎(chǔ)設(shè)施的作用。規(guī)范的數(shù)據(jù)采集，加上高效的傳輸、建模能力，是企業(yè)業(yè)務(wù)數(shù)據(jù)資產(chǎn)有效建設(shè)的前提。

建模后的數(shù)據(jù)，可以作為數(shù)據(jù)倉庫底層（ODS層）的寬表，和企業(yè)的其他業(yè)務(wù)數(shù)據(jù)整合，共同完善企業(yè)的數(shù)據(jù)資產(chǎn)建設(shè)。

另一方面，這些用戶端的結(jié)構(gòu)化數(shù)據(jù)，加上實時建模和開放的能力，和機器學(xué)習(xí)算法結(jié)合起來，無論是個性化推薦，還是精準(zhǔn)營銷，又或是銀行、電商的風(fēng)控，都可以發(fā)揮很大威力，為企業(yè)的智能驅(qū)動業(yè)務(wù)做好數(shù)據(jù)積累，掃清障礙。

拿DMP（用戶畫像）建設(shè)舉個例子：

企業(yè)在建設(shè)自己的DMP庫的過程中，常常會從常規(guī)的人口屬性等準(zhǔn)靜態(tài)類標(biāo)簽，以及像消費能力等從自身業(yè)務(wù)積累或三方合作得到的通用類標(biāo)簽入手。這些標(biāo)簽往往是泛業(yè)務(wù)的，針對具體業(yè)務(wù)而言，很多時候會需要用戶畫像標(biāo)簽更貼近業(yè)務(wù)，比如電商業(yè)務(wù)場景下的母嬰用戶、電子產(chǎn)品發(fā)燒友、化妝品品牌喜好用戶等。這些標(biāo)簽和用戶的發(fā)掘，需要對用戶的行為進行深度分析來獲取，這個工作便可以借助用戶行為分析平臺的能力，如基于用戶行為模式和用戶業(yè)務(wù)屬性對用戶進行分群分析和比較，來發(fā)現(xiàn)和挖掘有價值的用戶標(biāo)簽。

另一方面，用戶畫像的數(shù)據(jù)，也可以和分析平臺進行整合和集成，提升平臺各分析模型對不同用戶群的洞見能力，讓分析和指標(biāo)的比較更有針對性，提升數(shù)據(jù)對業(yè)務(wù)的促進能力。

六、埋點及分析平臺和 A/B 試驗平臺如何更好的互相促進？

A/B測試產(chǎn)品是通過提供專業(yè)高效的試驗平臺，幫助產(chǎn)品進行產(chǎn)品決策的驗證和分析。常規(guī)使用流程如下：

接入 SDK -> 創(chuàng)建試驗版本 -> 設(shè)置變量、以及優(yōu)化指標(biāo) -> 調(diào)節(jié)試驗流量 -> 運行試驗 -> 實時監(jiān)控數(shù)據(jù)進行效果評估 -> 正式發(fā)布

試驗平臺和分析平臺的SDK在很多功能上是重合的，在SDK實現(xiàn)上可以整合，減少業(yè)務(wù)應(yīng)用接入太多SDK的負擔(dān)。

在數(shù)據(jù)采集、建模、分析層面，分析平臺可以作為 A/B 試驗平臺后端數(shù)據(jù)的承載，優(yōu)化指標(biāo)的效果評估就能覆蓋用戶的全量行為，無需業(yè)務(wù)及開發(fā)人員維護多個工具帶來的重復(fù)埋點定義和開發(fā)工作。另外，在分析平臺積累的很多分析模型和指標(biāo)，在A/B試驗平臺直接可以選取使用，無需在試驗平臺再進行設(shè)置，除減少業(yè)務(wù)人員工作外，還能保證統(tǒng)計口徑的一致。

反過來，A/B試驗平臺的一些對比試驗，以及特定灰度發(fā)布的用戶群，也能整合到分析平臺，通過分群分析能力，將這些群體應(yīng)用到各個分析模型進行針對性的分析，甚至試驗結(jié)束后，也能持續(xù)對這些用戶進行追蹤和分析，更好的洞察用戶。

七、如何打通產(chǎn)品多端的埋點數(shù)據(jù)？

這是個歸因的問題，一般提到賬號打通，就會有歸因的討論。

現(xiàn)在的分析產(chǎn)品在一般情況下，移動端會通過SDK生成唯一ID來標(biāo)識用戶/設(shè)備。移動化發(fā)展早期，很多采集工具用過 mac address、IDFA、android_id、IMEI等從移動操作系統(tǒng)可以獲取的設(shè)備軟硬件信息來標(biāo)識設(shè)備，但隨著操作系統(tǒng)的發(fā)展，很多信息獲取接口要么被封禁，要么已經(jīng)失去了精準(zhǔn)性。反倒是一開始就通過自己生成的ID來標(biāo)識用戶的工具，受到的影響不大，基本保持了用戶/設(shè)備標(biāo)識的穩(wěn)定。

但這種方式存在一個問題，當(dāng)用戶卸載、重裝或者刷機后，ID信息會丟失，導(dǎo)致生成新的用戶/設(shè)備ID。

我們采用過ID Mapping的技術(shù)來做過ID的打通：對每個用戶生成一個虛擬ID，對同一個用戶的多個設(shè)備和帳號進行映射，并綁定起來。

l? 可以通過操作系統(tǒng)提供的一些穩(wěn)定性稍差，但短時間還比較穩(wěn)定的指標(biāo)，如iOS的IDFA，來做mapping。

l? 借助分析產(chǎn)品的應(yīng)用覆蓋率，如用戶是應(yīng)用A和B的用戶，卸載并重新安裝B應(yīng)用后，可以通過應(yīng)用A的ID修復(fù)應(yīng)用B的。

l? 通過引入產(chǎn)品用戶賬號體系來做綁定，這種方式穩(wěn)定性最強，但非登錄匿名用戶的問題不好解決。

l? 通過IP、Wi-Fi信息、機器型號、甚至地理位置進行mapping，這種方式需要用戶授權(quán)更多數(shù)據(jù)獲取權(quán)限，雖然是近似匹配，但當(dāng)信息足夠多且發(fā)散（信息熵足夠大）時，也可以起到統(tǒng)一標(biāo)識的作用。

通過這個虛擬ID實質(zhì)上就打通了產(chǎn)品的多端數(shù)據(jù)。ID Mapping體系的建設(shè)工作量不小，Mapping后用戶標(biāo)識如果需要發(fā)生調(diào)整，在基于事件的分析產(chǎn)品上需要對老數(shù)據(jù)進行重寫，比較復(fù)雜。所以對于一些強賬號體系的產(chǎn)品，可以退化到只用用戶賬號來做關(guān)聯(lián)，只有非登錄匿名用戶才用設(shè)備ID來標(biāo)識，這往往是性價比比較高的方案。

推廣渠道歸因就方便了。

支持營銷效果評估的分析平臺會要求產(chǎn)品在平臺上生成推廣鏈接進行投放。用戶在點擊鏈接時，會從分析平臺的域下做跳轉(zhuǎn)再到目標(biāo)頁，這樣就可以借助瀏覽器的cookie機制進行匹配，對用戶來源進行歸因，但這種方式在移動端上面的表現(xiàn)不太好（iOS已經(jīng)取消了SFSafariViewController多應(yīng)用共享cookie的支持）。除此之外，也可以采用ID Mapping提到的近似匹配技術(shù)，很多廠商聲稱的設(shè)備指紋技術(shù)大多也是這種，不太精準(zhǔn)，但是做定性分析是可以的。

歸因這塊，一些推廣渠道做了些工作，解決移動端溯源困難的問題：支持設(shè)備ID的回傳功能來方便產(chǎn)品歸因問題的解決。

產(chǎn)品方在投放鏈接的時候，遵照特定格式即可，比如

?https://xxx.com/aaaafD?idfa=__IDFA__&imei=__IMEI__

渠道在用戶點擊廣告鏈接后，會把設(shè)備ID如IDFA或IMEI加到鏈接的內(nèi)容里面，用戶激活后便可以通過相應(yīng)ID匹配來歸因。

網(wǎng)易有數(shù)是網(wǎng)易旗下的企業(yè)級大數(shù)據(jù)可視化分析平臺，可點擊免費試用。

網(wǎng)易云免費體驗館，0成本體驗20+款云產(chǎn)品！

更多網(wǎng)易研發(fā)、產(chǎn)品、運營經(jīng)驗分享請訪問網(wǎng)易云社區(qū)。

相關(guān)文章：
【推薦】?4月第4周業(yè)務(wù)風(fēng)控關(guān)注 | 網(wǎng)絡(luò)犯罪經(jīng)濟每年1.5萬億美元 GDP居全球第12位
【推薦】?ThreeJs 基礎(chǔ)入門
【推薦】?“代碼變更覆蓋率”在后端測試中的實踐

轉(zhuǎn)載于:https://www.cnblogs.com/zyfd/p/9761760.html

總結(jié)

以上是生活随笔為你收集整理的数据采集与分析的那些事——从数据埋点到AB测试的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： BZOJ2648: SJY摆棋子
下一篇：软工作业3—词频统计

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

数据采集与分析的那些事——从数据埋点到AB测试

總結(jié)