【无标题】A\Btest
雙樣本獨立檢驗
這是兩款鍵盤布局不一樣的手機(A版本,B版本),你作為公司的產品經理,想在正式發布產品之前知道,哪個鍵盤布局對用戶體驗更好呢?
首先,我們需要設置目標,用來衡量各個版本的優劣,如果是電商網站,目標可以是點擊率,注冊率,頁面停留時間等。
在這個鍵盤布局案例里,如果一個鍵盤布局對用戶打字時拼錯產生的影響較小,那么這個布局是符合用戶體驗習慣的。所以我們將目標定為用戶打字時拼錯字產生的影響。
有了目標以后,下一步就是采集數據。在這一部分,用戶會隨機分配到不同版本中,通過他們的交互行為會被直接檢測,并收集起來作為以后分析的重要數據。
我們隨機抽取實驗者,將實驗者分成2組,每組25人,A組使用鍵盤布局A,B組使用鍵盤布局B。讓他們在30秒內打出標準的20個單詞文字消息,然后記錄打錯字的數量。
我們將數據記錄在Excel中,A列是使用鍵盤布局A打錯字的數量,B列是使用鍵盤布局B打錯字的數量。
現在我們開始A/B測試
描述統計分析
我們開展調查研究并計算統計結果時,我們會在報告的第一部分進行描述統計分析,例如平均值和標準差。描述統計量是研究的核心。告訴我們研究中發生的情況,應該始終報告出來。
#文件路徑 fileNameStr='...\\test\\鍵盤AB測試.xlsx' #讀取Ecxcel數據,統一先按照字符串讀入,之后轉換 xls = pd.ExcelFile(fileNameStr, dtype='object') data = xls.parse('Sheet1',dtype='object')data.head()data.dtypes
data.describe()
data[‘A’] = data[‘A’].astype(‘int’)
data[‘B’] = data[‘B’].astype(‘int’)
print(‘轉換后的數據類型:\n’,data.dtypes)
推論統計分析
原假設:A版本和B版本沒有差別
選擇雙獨立樣本檢驗類型
在我們這個AB測試案例中,樣本大小是25(小于30),屬于小樣本。那小樣本的抽樣分布是否滿足t分布呢?因為t分布還要求總體分布近似正態分布,但是總體分布我們是不知道的,我們可以通過樣本數據集的分布來推斷總體分布。
通過觀察上面數據集分布圖,兩個樣本數據集都近似正態分布,滿足t分布的使用條件,所以抽樣分布是t分布
本次假設檢驗是雙獨立樣本t檢驗,雙尾檢驗
結果t= -4.05593853686 p_two= 0.000194574553072 df= 45.2781333114
#判斷標準(顯著水平)使用alpha=5% alpha=0.05 #做出結論 if(p_two< alpha): print('拒絕零假設,有統計顯著')print('備選假設:A版本和B版本有差異') else: print('接受零假設,沒有統計顯著')print('零假設:A版本和B版本沒有差異')由于t(45)=-4.05 , p=.00019>α=5%雙尾檢驗,拒絕原假設,認為A版本和B版本存在顯著差異
- 置信區間
置信區間:[樣本平均值 -t_ci ×標準誤差,樣本平均值 +t_ci ×標準誤差]
兩個平均值差異的置信區間,95置信水平 CI=[-2.762316,-2.677684]
置信區間是[-2.76,-2.68],平均下來,使用A鍵盤的錯誤數量要比B鍵盤的要少大約3到2個
效應量
在假設檢驗中,我們給出了是否具有統計顯著性,也要給出效應量,一起來判斷研究結果是否有意義
可采用差異指標Cohen’s d=樣本1均值-樣本2均值/std
d值 0.2 0.5 0.8 對應差異 小 中 大
或者相關度指標R平方等不同指標判斷
d= -1.32042983789
數據分析報告
- 描述統計分析
A版本打錯字數量 平均是5.08個,標準差是2.06個
B版本打錯字數量 平均是7.8個,標準差是2.65個 - 推論統計分析
- 假設檢驗
獨立雙樣本t(45)=-4.05 , p=.00019 (α=5%) , 雙尾檢驗,拒絕零假設,統計顯著 - 置信區間
兩個平均值差值的置信區間, 95%置信水平 CI=[-2.76,-2.68] - 效應量
d= - 1.32,效果顯著
- 假設檢驗
總結
以上是生活随笔為你收集整理的【无标题】A\Btest的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 停车场信息管理系统(SqlServer数
- 下一篇: axios跨域携带cookie_axio