【阿里妈妈数据科学系列】第三篇:离线抽样框架下的AB Test
在 AB Test 的語境中,“離線抽樣”指在實驗開始之前就確定實驗組和對照的抽樣方式。很顯然,離線抽樣的對象不是實時產生的流量,相反,離線抽樣框架下的 AB Test 更接近于傳統自然科學和社會科學中的實驗, 比如農業學家在分析不同土地條件對農作物的影響時,會事先劃分好土地以進行不同的干預??傮w而言,離線抽樣框架下的 AB Test 與在線分流框架下的 AB Test 在分析邏輯上是高度一致的,但由于應用場景的特殊性,離線抽樣框架下的 AB Test 會面臨一些特別的挑戰,因此可能需要采用一些有別于流量實驗的實驗技術。
1. 為什么需要離線抽樣?
離線抽樣最常見的場景是一些能讓用戶明顯感知到差異的產品變化。為了防止用戶體驗出現不一致,研究者必須確保同一個用戶在整個實驗期間的分組情況不會發生改變,因此在這個場景下,隨機化的單位是用戶,而不是用戶的每次訪問,用戶的分組在實驗開始前就定下來了,并貫穿實驗始終。
除了產品變化,用戶運營活動一般也需要離線抽樣,比如:在測試發紅包對廣告客戶活躍度有促進作用的實驗中,一個客戶或者得到紅包,或者沒有得到紅包,這是由研究者事先決定的。
當然,離線抽樣的對象也有可能是其它的事物,比如廣告主所建立的廣告計劃、算法工程師創造出的用戶標簽等。
總結以上的業務場景可知,只要當某個干預手段的影響范圍超出了單次用戶訪問,研究者就很有可能需要通過離線抽樣的方式來保證干預對象(無論是用戶、廣告計劃還是標簽)所屬的分組身份在整個實驗過程中保持一致。
2. 離線抽樣的主要難點
相比起在線分流,離線抽樣面臨眾多挑戰,最主要的挑戰是抽樣對象數量不足、抽樣對象群體的差異性和干預的非隨機性。
2.1 抽樣對象數量不足問題
一般來說,離線抽樣的對象數量與在線分流的分流對象數量相差至少一個數量級。以針對用戶的抽樣為例,用戶對主流互聯網產品的訪問頻率在一天幾次到幾十次之間,因此在一到兩周的實驗周期中,用戶數量往往只是流量數量的的幾十分之一。
而在對B端用戶的產品變化或者運營活動中,會有更嚴重的數量不足問題。大多數主流互聯網經營的是多邊平臺 —— 平臺的C端用戶是大量的消費者,B端用戶如電商商家、廣告主等則在數量上少很多。
抽樣對象數量不足會直接導致 AB Test 的功效(power)不足。統計檢驗的功效(statistical power)的定義是:當備擇假設為真時,檢驗能正確拒絕原假設的概率。任何一個合理的檢驗都會滿足一個基本條件:檢驗的功效是樣本量的增函數,當樣本量趨向無窮時,檢驗的功效趨向于1。該條件被稱為一致性條件,也就是說,如果我們能獲得無窮多的數據點,那么一個合理的檢驗是能讓我們以無限接近于1的概率區分原假設和備擇假設的。很顯然,一致性條件是一個非常低的要求,我們之前介紹的各種檢驗,比如比較兩個樣本均值的 t - 檢驗,都符合一致性條件。之前文章介紹的最小樣本量計算公式正是基于固定第二類錯誤概率 t 統計量的分布所得到的。
2.2 抽樣對象的異質性問題
隨機化抽樣過程的目標是確保實驗組和對照組在除了外在干預這一項之外,在其它方面都是差不多的。然而,如果抽樣對象群體內部存在的巨大的異質性,那么實驗組和對照組的相似性就不一定能保證了。有時少量極端數據點會使得實驗組合對照組在主要指標上出現顯著差異,這是在離線抽樣中常常遇到的困難。
從統計學的角度來看,異質性問題的核心依然是抽樣對象的數量不足。假設研究者有能力抽取任意多的樣本,那么無論對象群體的異質性有多大,每一個細分群體都能被足夠多的樣本量所覆蓋,實驗組和對照組也就都能成為有代表性的樣本。然而,當可供抽樣的對象總數量不足時,研究者就無法通過增加樣本量來消除實驗組和對照組之間的差異了。
與此同時,離線抽樣對象群體內部存的巨大異質性也通常符合商業規律。顯然,商家與商家之間的差異,要遠大于消費者與消費者之間的差異,而后者間的差異又大于各消費者的每一次瀏覽之間的差異。商家在 GMV、廣告消耗額、活躍用戶數等主要指標上的分布與冪律分布高度吻合,一個樣本中的加總指標被少數頭部商家所驅動,它們被分在實驗組還是對照組就可能對實驗產生重大影響。而相比之下,流量實驗就的抽樣對象異質性問題就輕得多。
2.3 干預的非隨機性問題
干預的非隨機化分配是 AB Test 的基礎,而在一些業務場景中,卻不一定可以保證干預分配的隨機性。出現干預非隨機分配主要有兩種可能:
出于業務目的,實驗的參與有一定門檻。最常見的例子是針對客戶的運營活動,比如一些新權益的設置只針對廣告消耗達到一定閾值的客戶,但研究者依然希望計算新權益本身所產生的效應。這類場景中的“AB Test”其實只能算之前文章介紹過的“準實驗”,在計算干預所產生的效應時需要校正干預分配過程中的非隨機性。
實驗對象是否接受干預在一定程度上取決于他們自身的行為。比如實驗的內容是某個廣告產品的定向能力的提升,而客戶是否會受到該項改變的影響首先取決于客戶是否使用該廣告產品,但客戶是否使用該產品并非隨機選擇。理想狀態下,研究者既希望能分析定向能力的提升對廣告產品采用率的影響,又希望能分析定向能力提升對廣告效率本身的影響。難點在于,為了回答前一個問題而采取的客戶抽樣方式對回答后一個問題而言意味著干預的非隨機性,反之亦然。
3. 應對離線抽樣挑戰的實驗技術
3.1 方差縮減技術
方差縮減技術是針對抽樣對象數量不足問題的有效解決方案。為了說明這一方法的原理,我們假定某個關鍵指標的統計量,比如樣本均值的抽樣分布(sampling distribution)如下圖:
圖一:關鍵統計量的抽樣分布在圖一中,雖然我們可以看出這兩個抽樣分布的均值有所不同,但是兩個分布之間有很高的重疊,可以想象,當我們從數據中計算出兩個抽樣分布的一次實現值后,大概率上我們無法拒絕兩個分布均值相同的原假設,這其中的本質原因就是兩個樣本分布的方差太大了。
然而,如果統計量的抽樣分布如圖二的話,那么我們就可以以很高的概率拒絕原假設了,換言之,圖二意味著較高的檢驗功效:
圖二:關鍵統計量的抽樣分布為了實現從圖一到圖二的改進,最簡單的方法就是增加實驗的樣本量 —— 中心極限定理保證了樣本均值的樣本分布的方差隨著樣本量的增加而減小。但增加實驗的樣本量并非縮減樣本分布的方差的唯一方法,在 AB Test 領域,一個廣為使用的技術是CUPED(Controlled-experiment Using Pre-Experiment Data)。
CUPED的核心思想是利用在實驗之外的大量信息來盡量降低實驗效果估計量的抽樣方差。以下是一個高度簡化的例子:
假定某個政府機構隨機抽取了一部分企業員工作為實驗組,為他們提供職業技能培訓,另一部分企業員工被抽取為對照組,一段時間之后,該機構收集了這兩組員工在這段時間的工資增長數據,希望評估職業技能培訓是否促進了工資的增長。
標準的 AB Test 分析方法就是比較實驗組和對照組的平均工資增長率,由于分組本身的隨機性,這個方法是正確的,然而這個基本的方法有改進的空間,就是CUPED。我們知道,影響工資增長率的因素非常多,比如學歷、行業等,而這些因素也非常容易被收集到,因此我們就可以把這些因素利用起來,比如估計以下的工資增長率模型:
其中 代表我們感興趣的核心指標,這里是工資增長率, 代表是否參與實驗, 代表其它影響 的因素,下標 則代表員工。變量Z 前的系數 ?就反映了實驗的效果。由于 的分布和 的獨立的,上述模型中其實也可以去掉 ,線性回歸模型對實驗效果的估計與雙樣本 檢驗等同。然而在數學上可以證明, 的加入可以減少對 ?的估計量的樣本方差,也就是實現了從圖一到圖二的轉變,檢驗功效得以提高。
減少方差另一個常用方法是分層抽樣。當然,從直觀上講,分層抽樣最直接解決的問題是抽樣對象的異質性,然而正如上文提到的,從統計學的角度來看,抽樣對象的異質性問題的核心是樣本量不足,因此分層抽樣對減少方差同樣有幫助。分層抽樣的方法極為重要,下面將單獨介紹。
3.2 分層抽樣和IPW
針對抽樣對象的異質性問題,最直觀的解決方法是首先將抽樣對象群體進行劃分,讓每個細分群體接近于均質,然后再在每個細分群體中抽取實驗組和對照組。這個方法就是分層抽樣,在離線抽樣中廣為使用。
以針對廣告產品客戶的實驗為例,假定我們需要評估某項廣告產品升級對客戶廣告消耗的影響,正如前文所提到的,廣告消耗的分布在客戶中是極不均勻的,少數廣告主貢獻了大部分廣告消耗。為了保證實驗組和對照組的同質性,最常用的做法就是將客戶基于其過去一段時間的總消耗進行分層,在每個層次中抽取等同數量的實驗組客戶和對照組客戶。
另一個與分層抽樣思路非常接近的統計方法是“逆向概率加權”(inverse probability weighting, IPW)。使用IPW方法時,抽樣對象總體的異質性體現在統計量的計算過程中,而非抽樣過程中。還是以廣告主實驗為例,假定在頭部大廣告主的數量在總體中的占比是10%,簡單隨機抽樣抽出的實驗組中的大廣告主占比為20%,而對照組中大廣告主占比為5%,這里就出現了實驗組和對照組不可比的問題,但是按照 IPW方法,在計算各組的統計量時,把實驗組中的大廣告主的數據的權重減少一半,對照組中的大廣告主的數據的權重增加一倍(其它廣告主層次以此類推),最終得出的統計量依然是可靠的。
很顯然,IPW方法在操作上比分層抽樣簡單,然而風險更高 -- 當某個重要重要層次占比很低時,簡單隨機抽樣可能會使得該層次個體在實驗組或對照組中的一個為零,此時 IPW 就會失效。因此,分層抽樣的方法是不能被 IPW 所完全取代的,研究者在實驗前就必須做好對抽樣對象總體的分析,設計合理的分層方案。而對于那些在實驗之后才被發現的異質性,也需要利用 IPW方法進行補救。
在實際工作中,再怎樣細致的分層抽樣方案也不能保證實驗組和對照組完全相似,此前文章介紹的穩健校驗,比如在 AB Test 之前做 AA Test 依然是非常必要的。
3.3 匹配方法
把分層抽樣方法的思路推演到極致,就是匹配(matching)的思路。匹配方法同樣非常符合直覺,我們不是擔心實驗組和對照組不夠可比嗎?那么我們干脆對每一個實驗組中的個體,選取一個與它在各維度和指標上非常接近的個體放在對照組中,如此構造出來的對照組就與實驗組非常接近了。
上述過程被稱為直接匹配,如果能夠實現,不但能夠較好地解決抽樣對象的異質性問題,而且能夠實現方差縮減,更重要的是,能夠在很大程度上解決干預的非隨機性問題。
干預的非隨機性問題,從統計學的角度來看,就是混雜變量(counfounding factor)對因果推斷的干擾問題。
以客戶運營場景為例,研究者的目標是考察運營活動,比如發紅包是否提高了客戶的關鍵指標,比如廣告小號。非隨機性的問題在于,一個客戶是否成為運營對象,與客戶參與活動后的消耗,受到同一批混雜變量的影響,比如客戶在活動前的消耗額,客戶的營銷需求,客戶的總體經營狀況等等。這些混雜變量的存在,使研究者很難將運營活動對客戶消耗的因果效應分離出來。
通過匹配方法來應對混雜變量的核心思路就是,為接受干預的個體尋找在所有混雜變量上都很接近的對照個體,這就相當于“控制”了這些混雜變量。還是上面的運營活動為例,如果我們對一個參與活動的客戶,能夠找到一個在同樣細分行業,此前消耗水平接近、消費者構成類似、產品價格類似、營銷手段類似等各方各面都很相似的客戶,唯一的區別在于它沒有參與運營活動,那么我們大致可以認為者兩個客戶在此后一段時間內廣告消耗的差異就是由運營活動造成的。
直接匹配方法可以取得好的效果,但它的局限也很明顯。因為直接匹配幾乎是不可能做到的,尤其當混雜變量的數量很多時,研究者會陷入維度的詛咒(curse of dimensionality),即樣本量相對于需要控制的變量數量而言是完全不夠的。
應對維度的詛咒一個常用方法是傾向分匹配(propensity score matching)。傾向分是一個由眾多變量所合成的一個單一指標,基于單一指標來為每個受干預對象匹配對照對象就具有相當的可操作性了。所以,雖然傾向分匹配方法也需要一定的前提假設,有適用場合的限制,但依然是實際工作中應用非常廣泛的非隨機干預問題的解決方案。
總結
在互聯網業務中,流量之外的分析對象同樣需要大量的 AB Test 分析,這些 AB Test 的主要特征是需要在實驗開始之前就要完成對實驗組和對照組的抽取。離線抽樣的主要困難是抽樣對象數量的不足、抽樣對象的巨大差異性和干預非隨機。通過方差縮減、分層抽樣、IPW和匹配,我們在一定程度上可以應對這些困難。當然,離線抽樣的技術相比起在線分流技術依然成熟度較低,無論在理論上還是實用技術上還有很大的發展空間。
END
推薦閱讀:
【阿里媽媽數據科學系列】第一篇:認識在線實驗
【阿里媽媽數據科學系列】第二篇:在線分流框架下的AB Test
歡迎關注「阿里媽媽技術」,了解更多~
瘋狂暗示↓↓↓↓↓↓↓
總結
以上是生活随笔為你收集整理的【阿里妈妈数据科学系列】第三篇:离线抽样框架下的AB Test的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里妈妈流量反作弊算法实践
- 下一篇: 阿里妈妈技术团队 6 篇论文入选 CIK