【阿里妈妈数据科学系列】第五篇:实验指标设定方法与指标体系构建
??前言
在【阿里媽媽數據科學系列】前四期內容中,我們介紹了 AB TEST 的基礎知識與框架及每個部分的方法論與技術,本期我們主要介紹實驗指標設定方法與指標體系構建。
指標體系構建在 AB Test 中是不可或缺的重要環節,量化的指標體系是衡量一個 AB Test 實驗成功與否、能否擴量以及是否達到預期必不可少的條件,同時,一套科學的指標體系可以在抽樣環節和同質性角度對實驗組的可信度起到巨大的幫助。
??實驗評價指標設計
針對一個實驗,如何設計評價指標來評估監控?一個關鍵點是從實驗的目的去自頂向下設計指標,例如高層次的指標可以是用戶活躍率和采納率,在這個頂點上,需要向下定義什么算用戶活躍?什么又算完成采納?依照這個邏輯給到每一個關注指標一個明確的定義。同時,可以將一系列的指標進行聚合,通過構造一個目標函數或者簡單的加權指標,組成一個單一指標,例如總體評價指標(OEC)。最后在指標設計中,還需要考慮指標的普適性有多少,如果你在運用 AB Test 測試,那么最好能有一個指標能夠貫穿整個體系。
指標特性
敏感性:敏感性是指指標對所關系的事物是否足夠敏感。
魯棒性:魯棒性性是指對不關心的事物是否足夠不敏感。
指標分布:通過對指標的歷史數據的分析得到指標分布,反映指標的分布特征和結構狀況,有助于進一步研究指標的構成、平均水平及其變動規律。
敏感性和魯棒性都可以通過預先小規模實驗,來驗證指標是否符合直覺。另一個方法是使用 A/A 測試,也就是什么都不改變,以此來排除一些偽關系。
? 指標分類及選取
指標分類
AB Test 測試的指標通常可以分為核心指標、質量指標以及觀測指標。1. 核心指標通常是指比較敏感的,有很強的可操作性,同時能夠受實驗干預措施帶來較為直接的影響,主要用來決定實驗是否成功的指標。例如人均消耗、點擊率、轉化率、人均使用時長等,其特性包括可歸因性,可測量性,在實驗干預前,通常采用A/A測試來測量魯棒性,用回溯性分析來測量敏感性;2. 質量指標在AB Test中起到的是兜底作用,通常是作為一個約束底線而存在,幫助我們戒備核心指標給予錯誤信號的情況,能夠幫助實驗更好的確定是否需要繼續進行或擴量;3. 觀測指標在實驗中起到輔助作用,可以更好的觀測實驗帶來的一些其余方向的影響。這三類指標共同構建了AB Test的指標體系。
如何選取核心指標
首先要清楚業務或產品所處的階段,根據這個階段的目標來確定核心指標。例如,在業務或產品的起步階段,目標更多的側重于增加用戶使用,其核心指標更應該集中在使用率、點擊率、轉化率等指標;而在業務產品的成熟及穩定期,此時業務目標逐漸轉向的是產品收益、用戶的使用留存情況,核心指標則應該重點關注在ROI、留存率、使用頻次、停留時長等。同時,核心指標的個數不宜太多,一般不超過三個。通過觀察成功指標的差別,我們可以決定是否接受產品的改動 核心指標的是否成功必須是能在短時間內被驗證,并能夠指示長期影響的指標。例如,如果業務的期望是為了提升平臺用戶粘性,日活率是一個好的核心指標,通過數據可以快速的知道平臺有多少登錄用戶,其中又有多少有活躍動作,但是30天留存率就不是一個很好的核心指標,因為必須等待至少30天才能知道用戶是否還在該產品上繼續活躍,雖然日活率和長期留存率都衡量了長期商業的影響,但由于滯后性,長期留存率并不能拿來作為核心指標。但核心指標的成功度量并不需要直接測量長期商業影響,間接指示也可以,例如:Netflix 就利用用戶觀看時長作為用戶增長的成功指標,他們的收入與訂閱用戶數量直接相關,由于 Netflix 提供包月業務,大部分取消業務的用戶都會選在續費前取消,這就造成了訂閱用戶數量會存在一個月的間隔,剛開始的 AB Test 測試需要至少一個月才能知道成效。而且,Netflix 也不希望用戶退訂,他們希望知道用戶是否已經開始不滿意產品的變動,并及時做出決策,所以通過相關性分析,Netflix 發現用戶每周觀看時間和留存率有很大的相關性,因此,每周觀看時間也能作為核心指標,因為它間接并且快速的指示長期的商業影響。
如何選取質量指標
質量指標可以是產品的性能指標。例如測試新的搜索引擎,一般也會對搜索引擎的性能進行衡量,如:多少搜索成功完成,平均耗時多少?雖然這些度量并不完全決定是否發布新的搜索引擎,但是如果我們發現它的表現非常差,即使核心指標(搜索相關性)有些許的提高,往往也不會發布新的產品。它也可以是產品不直接影響的商業價值指標,例如在做用戶增長實驗時,也可以將用戶體驗作為質量指標,雖然大部分的新產品和新功能都不應該影響用戶體驗,但是將它們加入質量指標可以對實驗結果更有信心。
如何選取觀測指標
觀測指標可以從兩個角度來挖掘,一方面是用來幫助我們理解核心指標為什么改變的指標,舉例而言,如果想測試廣告是否有效,一個很直接的核心指標就是廣告的點擊率,但通過對于點擊率的分析,我們能夠更深刻的了解到廣告利潤是如何來的,以及如何設計新的廣告形式或者廣告內容,這是觀測指標可以包括廣告的曝光和點擊,這些指標可以更好的幫助我們理解點擊率的變化發生在了哪一塊。另一方面觀測指標用來幫助我們監測一些其余視角的得失,同樣以廣告為例,除了核心的點擊率,用戶的15日留存這個指標可以從側面反映廣告機制的優化是否會對用戶造成反感等。
? 綜合評價指標(OEC)指標構建
根據上述內容我們得出,一個好的 AB Test 囊括的合理的核心指標、質量指標及觀測指標,在這個背景下,可以發現一個實驗可能同時需要監測大量的指標,一個很容易的矛盾點便產生了,我們如何衡量這個實驗是否成功?如果核心指標提升但質量指標下降,我們又如何權衡這兩者之間的得失、判斷是否需要推全?觀測指標對于實驗的結論又有多大的幫助性?這些問題導致了我們在實驗之后有時難以做出下一步的決定,這時除了基于經驗以外,構建一個綜合評價指數(OEC)便是解決這個問題的一個方法,那么如何構建一個OEC指標呢。
良好的指標體系。我們知道不同的業務目的我們觀測的指標各不相同,例如對于廣告平臺來說,提升收益的項目更關注的是廣告主的消耗,提升留存的項目更加關注的是廣告主的留存率等。此時,便需要對業務進行劃分,針對不同類型的業務,定義一套標準的指標體系,包括該業務場景下的核心指標、質量指標和觀測指標。
對指標進行處理,包括正向化和無量綱化。a)正向化:指標一般分為正向指標(越大越好)、逆向指標(越小越好)、適度指標(不能太小也不能太大)。為了可以進行綜合匯總,需要解決同方向性,一般需要將逆向指標和適度指標正向化。逆向指標正向化的方法可選擇的方法包括倒數法,最小閾值法、最大閾值法。適度指標正向化包括絕對值倒數法和距離倒數法。具體方法不在此進行介紹。b)無量綱化:指標的無量綱化可以消除指標間量級不同的影響,可以使各個指標轉化成可以直接加減的的數值,常用的消除定量指標無量綱化的方式如下。常用的方法包括閾值比較法、中心化、規格化、標準化、比重法。具體方法不在此進行介紹。
設置各指標的權重,權重的設置是否合理對于構建 OEC 至關重要,但什么樣的權重算作合理?對此,通常來說需要將主觀賦權法與客觀賦權法相結合。a)主觀賦權法:又分為專家賦權法和層次分析法(AHP),這兩種方法都更多的依賴長期的經驗及主觀認知 b)客觀賦權法:基本思想是利用各指標間的相互關系或提供的信息量來確定權重,實際實現是通過對原始數據經過數學公式上的處理獲取權重,原始數據所包含的信息包括兩種,一種是指標變異程度上的信息差異,一般通過指標的標準差或變異系數來反映,一種是指標間的相互影響程度,這種信息一般隱含在指標見相關關系矩陣中。常見的客觀賦權的方法包括變異系數法、相關系數法、熵值法。
根據權重進行綜合打分:將賦權后的多指標進行綜合的方法主要有四大類:線性綜合法、幾何綜合法、混合綜合法和模型綜合法,前三種方法較為簡單,可以理解為加權求和、加權幾何平均、線性加權與幾何綜合結合,而模型綜合法較為復雜,通過各種復雜的函數和相關關系得到綜合評價數值,同時該關系必須為描述對象間的關系清晰,可以用合適的數學表達式表述。
OEC的優點
綜合了各方面的指標,可以把握 AB Test 總體的好壞。
可以避免多重檢驗問題。如果單獨比較多個指標會出現多重檢驗的問題。
對于不同的業務場景可以合理規范出通用的指標體系,能夠幫助同類型業務間進行橫向的對比。
對于單一項目,同時也可以做到時間上的縱向對比,方便進行實驗后的長期追蹤。
? 總結
當前的互聯網公司中,每天都有成百上千的 AB Test 正在進行,因此,指標的合理選擇及構建一方面能夠直接影響實驗的成功判斷,另一方面能夠清晰的幫助分析師從各個視角看清實驗,無論從產品的未來優化方向還是長期收益角度,良好的指標定義及構建都不容忽視。當然,科學的指標體系除了依賴數據上的輸入以外,長期的經驗積累也是一種手段,尤其是在 OEC 指標的構建上,從理論及實踐的角度都依然有著巨大的挖掘空間。
【阿里媽媽數據科學系列】持續更新,歡迎關注!
【阿里媽媽數據科學系列】第一篇:認識在線實驗
【阿里媽媽數據科學系列】第二篇:在線分流框架下的AB Test
【阿里媽媽數據科學系列】第三篇:離線抽樣框架下的AB Test
【阿里媽媽數據科學系列】第四篇:Bootstrap方法在AB TEST中的應用
END
瘋狂暗示↓↓↓↓↓↓↓
總結
以上是生活随笔為你收集整理的【阿里妈妈数据科学系列】第五篇:实验指标设定方法与指标体系构建的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里妈妈技术团队4篇论文入选WSDM 2
- 下一篇: EFLS开源 | 阿里妈妈联邦学习解决方