【机器学习基础】非常详细!机器学习模型评估指标总结!
作者:太子長(zhǎng)琴,Datawhale優(yōu)秀學(xué)習(xí)者
本文對(duì)機(jī)器學(xué)習(xí)模型評(píng)估指標(biāo)進(jìn)行了完整總結(jié)。機(jī)器學(xué)習(xí)的數(shù)據(jù)集一般被劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于訓(xùn)練模型,測(cè)試集則用于評(píng)估模型。針對(duì)不同的機(jī)器學(xué)習(xí)問題(分類、排序、回歸、序列預(yù)測(cè)等),評(píng)估指標(biāo)決定了我們?nèi)绾魏饬磕P偷暮脡摹?/p>
一、Accuracy
準(zhǔn)確率是最簡(jiǎn)單的評(píng)價(jià)指標(biāo),公式如下:
但是存在明顯的缺陷:
當(dāng)樣本分布不均勻時(shí),指標(biāo)的結(jié)果由占比大的類別決定。比如正樣本占 99%,只要分類器將所有樣本都預(yù)測(cè)為正樣本就能獲得 99% 的準(zhǔn)確率。
結(jié)果太籠統(tǒng),實(shí)際應(yīng)用中,我們可能更加關(guān)注某一類別樣本的情況。比如搜索時(shí)會(huì)關(guān)心 “檢索出的信息有多少是用戶感興趣的”,“用戶感興趣的信息有多少被檢測(cè)出來了” 等等。
相應(yīng)地還有錯(cuò)誤率:分類錯(cuò)誤的樣本占總樣本的比例。
from sklearn.metrics import accuracy_scorey_pred = [0, 0, 1, 1] y_true = [1, 0, 1, 0] accuracy_score(y_true, y_pred) # 0.5二、Precision Recall 和 F1
精準(zhǔn)率(Precision)也叫查準(zhǔn)率,衡量的是所有預(yù)測(cè)為正例的結(jié)果中,預(yù)測(cè)正確的(為真正例)比例。
召回率(Recall)也叫查全率,衡量的是實(shí)際的正例有多少被模型預(yù)測(cè)為正例。
在排序問題中,一般以 TopN 的結(jié)果作為正例,然后計(jì)算前 N 個(gè)位置上的精準(zhǔn)率 Precision@N 和召回率 Recall@N。
精確率和召回率是一對(duì)相互矛盾的指標(biāo),一般來說高精準(zhǔn)往往低召回,相反亦然。其實(shí)這個(gè)是比較直觀的,比如我們想要一個(gè)模型準(zhǔn)確率達(dá)到 100%,那就意味著要保證每一個(gè)結(jié)果都是真正例,這就會(huì)導(dǎo)致有些正例被放棄;相反,要保證模型能將所有正例都預(yù)測(cè)為正例,意味著有些反例也會(huì)混進(jìn)來。這背后的根本原因就在于我們的數(shù)據(jù)往往是隨機(jī)、且充滿噪聲的,并不是非黑即白。
精準(zhǔn)率和召回率與混淆矩陣密切相關(guān),混淆矩陣是將分類(二分類)結(jié)果通過矩陣的形式直觀展現(xiàn)出來:
| 正例 | TP(真正例) | FN(假反例) |
| 反例 | FP(假正例) | TN(真反例) |
然后,很容易就得到精準(zhǔn)率(P)和召回率(R)的計(jì)算公式:
得到 P 和 R 后就可以畫出更加直觀的P-R 圖(P-R 曲線),橫坐標(biāo)為召回率,縱坐標(biāo)是精準(zhǔn)率。繪制方法如下:
對(duì)模型的學(xué)習(xí)結(jié)果進(jìn)行排序(一般都有一個(gè)概率值)
按照上面的順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè),每次都可以得到一個(gè) P R 值
將得到的 P R 值按照 R 為橫坐標(biāo),P 為縱坐標(biāo)繪制曲線圖。
如果有多個(gè)模型就可以繪制多條 P-R 曲線:
如果某個(gè)模型的曲線完全被另外一個(gè)模型 “包住”(即后者更加凹向原點(diǎn)),那么后者的性能一定優(yōu)于前者。
如果多個(gè)模型的曲線發(fā)生交叉,此時(shí)不好判斷哪個(gè)模型較優(yōu),一個(gè)較為合理的方法是計(jì)算曲線下面積,但這個(gè)值不太好估算。
為了獲得模型優(yōu)劣,需要綜合 P 和 R,平衡點(diǎn) BEP(Break-Even Point)就是這樣一個(gè)度量,它是 P=R 時(shí)的取值,BPE 越遠(yuǎn)離原點(diǎn),說明模型效果越好。由于 BPE 過于簡(jiǎn)單,實(shí)際中常用 F1 值衡量:
F1 有更一般的形式:
當(dāng) β > 1 時(shí),更偏好召回
當(dāng) β < 1 時(shí),更偏好精準(zhǔn)
當(dāng) β = 1 時(shí),平衡精準(zhǔn)和召回,即為 F1
F1 其實(shí)來自精準(zhǔn)和召回的加權(quán)調(diào)和平均:
當(dāng)有多個(gè)混淆矩陣(多次訓(xùn)練、多個(gè)數(shù)據(jù)集、多分類任務(wù))時(shí),有兩種方式估算 “全局” 性能:
macro 方法:先計(jì)算每個(gè) PR,取平均后,再計(jì)算 F1
micro 方法:先計(jì)算混淆矩陣元素的平均,再計(jì)算 PR 和 F1
三、RMSE
均方根誤差 RMSE(Root Mearn Square Error)主要用在回歸模型,也就是俗稱的 R 方。計(jì)算公式為:
但是如果有非常嚴(yán)重的離群點(diǎn)時(shí),那些點(diǎn)會(huì)影響 RMSE 的結(jié)果,針對(duì)這個(gè)問題:
如果離群點(diǎn)為噪聲,則去除這些點(diǎn)
如果離群點(diǎn)為正常樣本,可以重新建模
換一個(gè)評(píng)估指標(biāo),比如平均絕對(duì)百分比誤差 MAPE(Mean Absolute Percent Error),MAPE 對(duì)每個(gè)誤差進(jìn)行了歸一化,一定程度上降低了離群點(diǎn)的影響。
四、ROC 和 AUC
受試者工作特征 ROC(Receiver Operating Characteristic)曲線是另一個(gè)重要的二分類指標(biāo)。它的橫坐標(biāo)是 “假正例率” FPR(False Positive Rate),縱坐標(biāo)是 “真正例率” TPR(True Positive Rate),計(jì)算公式如下:
繪制方法和上面的 P-R 曲線類似,不再贅述。
def calc_fpr(fp: int, tn: int) -> float:return fp / (fp + tn) def calc_tpr(tp: int, fn: int) -> float:return tp / (tp + fn) def get_ftpr_pairs(y_pred_prob: List[float], y_true: List[int]) -> Tuple[List[int], List[int]]:fprs = [0]tprs = [0]for prob1 in y_pred_prob:y_pred_i = []for prob2 in y_pred_prob:if prob2 < prob1:y_pred_i.append(0)else:y_pred_i.append(1)tp, fp, tn, fn = get_confusion_matrix(y_pred_i, y_true)fpr = calc_fpr(fp, tn)tpr = calc_tpr(tp, fn)fprs.append(fpr)tprs.append(tpr)fprs.append(1)tprs.append(1)return fprs, tprs fprs, tprs = get_ftpr_pairs(y_pred_prob, y_true) fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(12, 5)) ax.plot(fprs, tprs);除此之外,還有一種繪制 ROC 曲線的方法:
假設(shè)有 m+ 個(gè)正例,m- 個(gè)負(fù)例,對(duì)模型輸出的預(yù)測(cè)概率按從高到低排序
然后依次將每個(gè)樣本的預(yù)測(cè)值作為閾值(即將該樣本作為正例),假設(shè)前一個(gè)坐標(biāo)為(x, y),若當(dāng)前為真正例,對(duì)應(yīng)標(biāo)記點(diǎn)為(x, y+1/m+),若當(dāng)前為假正例,則對(duì)應(yīng)標(biāo)記點(diǎn)為(x+1/m-, y)
將所有點(diǎn)相連即可得到 ROC 曲線
該方法和這種做法是一樣的:將縱坐標(biāo)的刻度間隔設(shè)為 1/m+,橫坐標(biāo)的刻度間隔設(shè)為 1/m-,從(0,0)開始,每遇到一個(gè)真正例就沿著縱軸繪制一個(gè)刻度間隔的曲線,假正例就沿著橫軸繪制一個(gè)刻度間隔的曲線,最終就可以得到 ROC 曲線。
def get_ftpr_pairs2(y_pred_prob: List[float], y_true: List[int]) -> Tuple[List[int], List[int]]:mplus = sum(y_true)msub = len(y_true) - mpluspairs = [(0, 0)]prev = (0, 0)length = len(y_pred_prob)assert length == len(y_true)for i in range(length):if y_true[i] == 1:pair = (prev[0], prev[1] + 1/mplus)else:pair = (prev[0] + 1/msub, prev[1])pairs.append(pair)prev = pairpairs.append((1, 1))fprs, tprs = [], []for pair in pairs:fprs.append(pair[0])tprs.append(pair[1])return fprs, tprs fprs, tprs = get_ftpr_pairs2(y_pred_prob, y_true) fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(12, 5)) ax.plot(fprs, tprs);該方法和上面第一種方法得到的曲線完全一致。
多個(gè)模型時(shí),與 P-R 曲線也是類似,如果某個(gè)模型的曲線完全 “包住” 另一個(gè),則前者性能好于后者。如果曲線相互交叉,則比較曲線下面積:AUC(Area Under ROC Curve)。
AUC 取值一般在 0.5-1 之間,處于 y=x 直線的上方(如果不是的話,把預(yù)測(cè)概率翻轉(zhuǎn)成 1-p 就能獲得更好的模型)。AUC 值越大,說明模型越可能把真正例排在前面,性能越好。此時(shí),假正例率很低同時(shí)真正例率很高,意味著召回高并且誤判率小。對(duì)角線對(duì)應(yīng)著隨機(jī)模型(各占 50%),(0,1)點(diǎn)對(duì)應(yīng)的是理想模型,即所有正例 100% 召回且沒有一個(gè)負(fù)例被判別為正例。
AUC 面積可以通過以下公式進(jìn)行估算:
AUC 考慮的是樣本預(yù)測(cè)的排序質(zhì)量,與排序誤差緊密相連,排序 “損失” loss 可定義為:
該式子的意思是,如果正例預(yù)測(cè)值小于負(fù)例,計(jì) 1 個(gè)罰分,如果相等則計(jì) 0.5 個(gè)罰分。顯然,該式對(duì)應(yīng)的就是 ROC 曲線上面的面積。因此有:
與 P-R 曲線相比,ROC 曲線有一個(gè)特點(diǎn):當(dāng)正負(fù)樣本的分布發(fā)生變化時(shí),ROC 曲線形狀能基本保持不變,而 P-R 曲線的形狀一般會(huì)發(fā)生比較劇烈的變化。因此,當(dāng)數(shù)據(jù)不均勻時(shí),ROC 曲線更能夠反映模型好壞。而這背后的原因是:
P-R 曲線關(guān)注的是真實(shí)的正例和預(yù)測(cè)的正例中(分別對(duì)應(yīng) Recall 和 Precision),實(shí)際是正例的比例
ROC 曲線關(guān)注的是真實(shí)的正例和負(fù)例中(分別對(duì)應(yīng) TPR 和 FPR),被預(yù)測(cè)為正例的比例
五、KS
作為一個(gè)工程師,看到 KS 我們的第一反應(yīng)應(yīng)該是:既然已經(jīng)有了 PR、ROC 等評(píng)價(jià)指標(biāo),為什么還需要 KS?它解決了前面指標(biāo)解決不了的什么問題?它究竟有什么特點(diǎn)?
KS Test(Kolmogorov-Smirnov)是由兩位蘇聯(lián)數(shù)學(xué)家 A.N. Kolmogorov 和 N.V. Smirnov 提出的,用于比較樣本與參考概率分布或比較兩個(gè)樣本的非參數(shù)檢驗(yàn)。
我們以兩樣本為例,假設(shè) m 個(gè) sample 來自分布 F(x),n 個(gè)來自 G(x),定義 KS 統(tǒng)計(jì)量(KS 距離)為:
其中 F(x) 和 G(x) 都是經(jīng)驗(yàn)累積分布函數(shù) ECDF(empirical distribution function),定義如下:
sup 表示上確界,也是最小上界。
原始假設(shè) H0:兩組 sample 來自統(tǒng)一分布,在大樣本上,在置信水平 α 下如果滿足下面的條件則拒絕零假設(shè)(認(rèn)為兩組樣本來自不同分布):
代入后得到:
常用的值如下:
from scipy import stats rvs1 = stats.norm.rvs(size=200, loc=0., scale=1) rvs2 = stats.norm.rvs(size=300, loc=0.5, scale=1.5) stats.ks_2samp(rvs1, rvs2) # 在置信度 0.05 水平下:1.358 * np.sqrt(500/60000) = 0.124 # Ks_2sampResult(statistic=0.265, pvalue=7.126401335710852e-08) # 0.265 > 0.124 所以拒絕原假設(shè),即認(rèn)為兩組樣本來自不同分布 # 事實(shí)上,即便是 0.005 的置信水平下依然要拒絕原假設(shè) fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(12, 5)) ax.hist(rvs1, density=False, histtype='stepfilled', alpha=0.2, color='red'); ax.hist(rvs2, density=False, histtype='stepfilled', alpha=0.2, color='blue');其中 statistic 就是 ks 統(tǒng)計(jì)量。
那這又和評(píng)價(jià)指標(biāo)有啥關(guān)聯(lián)呢?
我們考慮這么一種情況,假設(shè)數(shù)據(jù)集的 Label 并不是離散的(如二分類的 0-1),而是可能滿足一定分布,也就是說標(biāo)簽有很多灰色地帶。其實(shí)這在實(shí)際生活中倒是更加常見,以金融風(fēng)控為例,不少特征都是基于某個(gè)時(shí)間點(diǎn)做劃分的,比如逾期還款 x 天,這個(gè) x 是非常靈活的,而且也很難說 x-1 天的就一定比 x+1 天的信用好。這就意味著給定特征下,我們的標(biāo)簽最好能夠有一定 “彈性”。
那么,怎么去體現(xiàn)這個(gè) “彈性” 呢?因?yàn)?KS 正好是衡量?jī)蓚€(gè) “分布” 的 “距離”,我們可以構(gòu)造一個(gè)函數(shù):
然后我們可以畫出 KS 曲線,可以證明,KS 和 ROC 等價(jià),且滿足如下公式:
KS 的最大值就用來評(píng)估模型的區(qū)分度。而所謂的區(qū)分度正可以看作是正負(fù)例的差異,具體而言,如果正負(fù)例對(duì)于標(biāo)簽沒有區(qū)分度,說明兩個(gè)樣本重疊較大;區(qū)分度越大,說明兩個(gè)概率分布相隔越遠(yuǎn)。回到 KS 上:
如果 KS 的最大值很小,說明 TPR 和 FPR 接近同一分布,也就意味著真實(shí)的正例和負(fù)例被預(yù)測(cè)為正例的比例相似,說明模型很差。
如果 KS 的最大值很大,說明 TPR 和 FPR 區(qū)別很大,意味著真實(shí)的正例被預(yù)測(cè)為正例和真實(shí)的負(fù)例被預(yù)測(cè)為正例相差很大,說明模型效果較好(能夠區(qū)分真實(shí)正例和真實(shí)負(fù)例)。
事實(shí)上,KS 的確常用在金融風(fēng)控中,用來評(píng)估模型的區(qū)分度,區(qū)分度越大說明模型的風(fēng)險(xiǎn)排序能力越強(qiáng)。但值太大也有問題(可能過擬合),一般超過 0.75 就認(rèn)為過高,而低于 0.2 則過低。關(guān)于這個(gè)我們可以看圖說明:
我們假設(shè)曲線光滑,那么 AUC_KS ≈ 1/2 × max_KS,根據(jù)前面的公式:
由于上面提到的金融風(fēng)控中 Label 的彈性,當(dāng) KS 過高時(shí),ROC 的 AUC 就會(huì)很高,說明結(jié)果并沒有這種彈性(模糊性、連續(xù)性),此時(shí)模型有過擬合風(fēng)險(xiǎn)。
既然 KS 可以,那我們自然就要問了,t 檢驗(yàn)行不行?因?yàn)?t 檢驗(yàn)也是檢驗(yàn)兩組樣本是否來自同一個(gè)分布的統(tǒng)計(jì)量啊。答案是:不行。因?yàn)槲覀儗?shí)際上是使用了它的定義(距離),而 t-test 的定義并沒有體現(xiàn)出這一點(diǎn)。
獨(dú)立雙樣本 t 檢驗(yàn),方差不相等:
獨(dú)立雙樣本 t 檢驗(yàn),樣本數(shù)相同,方差相似:
這里的圖也可以說明這一點(diǎn):
其他距離其實(shí)也沒有太多意義,因?yàn)?FPR 和 TPR 的 x 是一樣的,不同的也就是 y 值。
六、評(píng)分卡
評(píng)分卡模型是一個(gè)線性回歸模型:
特征覆蓋率高,保持穩(wěn)定,特征變量有明顯的可解釋性。樣本為 0 時(shí)可以根據(jù)專家歷史經(jīng)驗(yàn)設(shè)定權(quán)重;樣本為幾百時(shí),可根據(jù)單特征區(qū)分能力如 KS/IV 值等進(jìn)行權(quán)重設(shè)定。
6.1 非線性處理
有兩種方式:WOE 處理和分桶。
證據(jù)權(quán)重 WOE(Weight of Evidence)是一種自變量編碼方案,定義為:
其中,Bi 表示第 i 個(gè)分組里 bad label 的數(shù)量,Bt 為總的 bad label 數(shù)量;G 表示 good label。WOE 越大,bad label 比例越高,此時(shí)的 WOE 值可以作為該分組的特征值。
分桶是指對(duì)有一定跳變的連續(xù)值特征進(jìn)行分桶,將弱線性特征轉(zhuǎn)化為強(qiáng)線性特征。
6.2 交叉特征處理
主要采取對(duì)客戶分群的方式,對(duì)細(xì)分群體進(jìn)行單獨(dú)建模(本質(zhì)上是一種交叉特征的體現(xiàn))。
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯總結(jié)
以上是生活随笔為你收集整理的【机器学习基础】非常详细!机器学习模型评估指标总结!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【论文解读】Graph Normaliz
- 下一篇: Github标星59.7k:用动画的形式