AB实验的基本概念
統計檢驗
下面以產品改版為例,則:
- H0:改動有用
- H1:改動沒用
Significance level of a test (α):
- 原假設為真時, 卻拒絕原假設(Type I Error / 改動實際沒用,但錯誤地認為它有用 / 取真)的概率;
- 本質上是人為規定的閾值,為了明確p值到底要多小才可以傾向于認為原假設是錯誤的,從而接受備擇假設;即犯第一類錯誤的概率小于α這個閾值,就可以認為拒絕原假設
Power of a test?(1???β):
原假設為假時,卻接受原假設(Type II Error / 改動實際有用,但錯誤地認為它沒用 / 存偽)的概率
p-value:
當H0成立時,取得像樣本這樣或者比樣本還要極端的數據的概率
設計方式
分流方式:
- 隨即分流:單端 / 雙端 / session
- 時空分流:地區(適用于網絡效用大,無法按用戶分組) / 時間片(輪轉/隨機/隔日反轉)
時長設計:
- 不宜過長:干擾多
- 不宜過短:
- 滿足最小樣本量要求,增強可靠性
- 規避新奇效應:指標短期激增
- 提前透支消費:如某促銷活動會刺激短期集中消費,提前透支了后續消費需求
- 考慮工作日與節假日
因果分析:
- AA差異顯著情況下,考慮DID (DID前需對核心指標進行平行趨勢檢驗)
- 滲透率低情況下,考慮matching
- 地區實驗無法找到理想的對照組情況下,考慮synthetic control
Notes
樣本和總體:
- 描述總體的是參數值
- 描述樣本的是統計值
參數統計和非參數統計:
非參數統計問題是指統計總體分布形式未知或雖已知卻不能用有限個參數刻畫的統計問題
Reference
T檢驗
總結
- 上一篇: GnomeSort(侏儒排序)——C语言
- 下一篇: React H5 使用div自定义简单富