當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【无标题】A\Btest

發布時間：2023/12/20 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了【无标题】A\Btest 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

雙樣本獨立檢驗

這是兩款鍵盤布局不一樣的手機(A版本，B版本)，你作為公司的產品經理，想在正式發布產品之前知道，哪個鍵盤布局對用戶體驗更好呢？

首先，我們需要設置目標，用來衡量各個版本的優劣，如果是電商網站，目標可以是點擊率，注冊率，頁面停留時間等。

在這個鍵盤布局案例里，如果一個鍵盤布局對用戶打字時拼錯產生的影響較小，那么這個布局是符合用戶體驗習慣的。所以我們將目標定為用戶打字時拼錯字產生的影響。

有了目標以后，下一步就是采集數據。在這一部分，用戶會隨機分配到不同版本中，通過他們的交互行為會被直接檢測，并收集起來作為以后分析的重要數據。

我們隨機抽取實驗者，將實驗者分成2組，每組25人，A組使用鍵盤布局A，B組使用鍵盤布局B。讓他們在30秒內打出標準的20個單詞文字消息，然后記錄打錯字的數量。

我們將數據記錄在Excel中，A列是使用鍵盤布局A打錯字的數量，B列是使用鍵盤布局B打錯字的數量。

現在我們開始A/B測試

描述統計分析

我們開展調查研究并計算統計結果時，我們會在報告的第一部分進行描述統計分析，例如平均值和標準差。描述統計量是研究的核心。告訴我們研究中發生的情況，應該始終報告出來。

#文件路徑 fileNameStr='...\\test\\鍵盤AB測試.xlsx' #讀取Ecxcel數據，統一先按照字符串讀入，之后轉換 xls = pd.ExcelFile(fileNameStr, dtype='object') data = xls.parse('Sheet1',dtype='object')data.head()

查看每一列的數據類型
data.dtypes

描述統計信息
data.describe()

字符串轉換為數值（浮點型）
data[‘A’] = data[‘A’].astype(‘int’)
data[‘B’] = data[‘B’].astype(‘int’)
print(‘轉換后的數據類型：\n’,data.dtypes)

樣本平均值、樣本標準差

a_mean=data['A'].mean() b_mean=data['B'].mean() print('A版本平均值=',a_mean,'單位：打錯字數量') print('B版本平均值=',b_mean,'單位：打錯字數量') a_std=data['A'].std() b_std=data['B'].std() print('A版本樣本大小25，樣本標準差=',a_std,'單位：打錯字數量') print('B版本樣本大小25，樣本標準差=',b_std,'單位：打錯字數量')

推論統計分析

假設檢驗
原假設：A版本和B版本沒有差別
選擇雙獨立樣本檢驗類型
在我們這個AB測試案例中，樣本大小是25（小于30），屬于小樣本。那小樣本的抽樣分布是否滿足t分布呢？因為t分布還要求總體分布近似正態分布，但是總體分布我們是不知道的，我們可以通過樣本數據集的分布來推斷總體分布。

import seaborn as sns #查看數據集分布 sns.distplot(data['A']) plt.title('A版本數據集分布') plt.show() sns.distplot(data['B']) plt.title('B版本數據集分布') plt.show()

通過觀察上面數據集分布圖，兩個樣本數據集都近似正態分布，滿足t分布的使用條件，所以抽樣分布是t分布
本次假設檢驗是雙獨立樣本t檢驗，雙尾檢驗

import statsmodels.stats.weightstats as st ''' ttest_ind：獨立雙樣本t檢驗，返回的第1個值t是假設檢驗計算出的（t值），第2個p_two是雙尾檢驗的p值第3個df是獨立雙樣本的自由度 ''' t,p_two,df=st.ttest_ind(data['A'],data['B'],usevar='unequal' #兩個總體方差不一樣) print('t=',t,'p_two=',p_two,',df=',df)

結果t= -4.05593853686 p_two= 0.000194574553072 df= 45.2781333114

#判斷標準（顯著水平）使用alpha=5% alpha=0.05 #做出結論 if(p_two< alpha): print('拒絕零假設，有統計顯著')print('備選假設：A版本和B版本有差異') else: print('接受零假設，沒有統計顯著')print('零假設：A版本和B版本沒有差異')

由于t(45)=-4.05 , p=.00019>α=5%雙尾檢驗，拒絕原假設，認為A版本和B版本存在顯著差異

置信區間
置信區間：[樣本平均值 -t_ci ×標準誤差，樣本平均值 +t_ci ×標準誤差]

t_ci=2.0141 #查t表格可以得到，95%的置信水平，自由度是n-1對應的t值 a_n = 25 #樣本大小n b_n = 25 se=np.sqrt( np.square(a_std)/a_n + np.square(b_std)/b_n ) #標準誤差開方平方 sample_mean=a_mean - b_mean #雙獨立樣本檢驗置信區間的樣本平均值=A版本平均值 - B版本平均值 a=sample_mean - t_ci * se #置信區間上限 b=sample_mean + t_ci * se #置信區間下限 print('兩個平均值差值的置信區間，95置信水平 CI=[%f,%f]' % (a,b))

兩個平均值差異的置信區間，95置信水平 CI=[-2.762316,-2.677684]
置信區間是[-2.76,-2.68],平均下來，使用A鍵盤的錯誤數量要比B鍵盤的要少大約3到2個

效應量

在假設檢驗中，我們給出了是否具有統計顯著性，也要給出效應量，一起來判斷研究結果是否有意義
可采用差異指標Cohen’s d=樣本1均值-樣本2均值/std
d值 0.2 0.5 0.8 對應差異小中大
或者相關度指標R平方等不同指標判斷

#合并標準差鑒于雙獨立樣本 sp=np.sqrt(((a_n-1)*np.square(a_std) + (b_n-1)* np.square(a_std) ) / (a_n+b_n-2)) d=(a_mean - b_mean) / sp #效應量Cohen's d print('d=',d)

d= -1.32042983789

數據分析報告

描述統計分析
A版本打錯字數量平均是5.08個，標準差是2.06個
B版本打錯字數量平均是7.8個，標準差是2.65個
推論統計分析
- 假設檢驗
  獨立雙樣本t(45)=-4.05 , p=.00019 (α=5%) , 雙尾檢驗，拒絕零假設，統計顯著
- 置信區間
  兩個平均值差值的置信區間， 95%置信水平 CI=[-2.76,-2.68]
- 效應量
  d= - 1.32，效果顯著

總結

以上是生活随笔為你收集整理的【无标题】A\Btest的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：停车场信息管理系统（SqlServer数
下一篇： axios跨域携带cookie_axio