當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习基础】非常详细！机器学习模型评估指标总结！

發(fā)布時(shí)間：2025/3/8 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习基础】非常详细！机器学习模型评估指标总结！小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者：太子長(zhǎng)琴，Datawhale優(yōu)秀學(xué)習(xí)者

本文對(duì)機(jī)器學(xué)習(xí)模型評(píng)估指標(biāo)進(jìn)行了完整總結(jié)。機(jī)器學(xué)習(xí)的數(shù)據(jù)集一般被劃分為訓(xùn)練集和測(cè)試集，訓(xùn)練集用于訓(xùn)練模型，測(cè)試集則用于評(píng)估模型。針對(duì)不同的機(jī)器學(xué)習(xí)問題（分類、排序、回歸、序列預(yù)測(cè)等），評(píng)估指標(biāo)決定了我們?nèi)绾魏饬磕Ｐ偷暮脡摹?/p>

一、Accuracy

準(zhǔn)確率是最簡(jiǎn)單的評(píng)價(jià)指標(biāo)，公式如下：

但是存在明顯的缺陷：

當(dāng)樣本分布不均勻時(shí)，指標(biāo)的結(jié)果由占比大的類別決定。比如正樣本占 99%，只要分類器將所有樣本都預(yù)測(cè)為正樣本就能獲得 99% 的準(zhǔn)確率。
結(jié)果太籠統(tǒng)，實(shí)際應(yīng)用中，我們可能更加關(guān)注某一類別樣本的情況。比如搜索時(shí)會(huì)關(guān)心 “檢索出的信息有多少是用戶感興趣的”，“用戶感興趣的信息有多少被檢測(cè)出來了” 等等。

相應(yīng)地還有錯(cuò)誤率：分類錯(cuò)誤的樣本占總樣本的比例。

from sklearn.metrics import accuracy_scorey_pred = [0, 0, 1, 1] y_true = [1, 0, 1, 0] accuracy_score(y_true, y_pred) # 0.5

二、Precision Recall 和 F1

精準(zhǔn)率（Precision）也叫查準(zhǔn)率，衡量的是所有預(yù)測(cè)為正例的結(jié)果中，預(yù)測(cè)正確的（為真正例）比例。

召回率（Recall）也叫查全率，衡量的是實(shí)際的正例有多少被模型預(yù)測(cè)為正例。

在排序問題中，一般以 TopN 的結(jié)果作為正例，然后計(jì)算前 N 個(gè)位置上的精準(zhǔn)率 Precision@N 和召回率 Recall@N。

精確率和召回率是一對(duì)相互矛盾的指標(biāo)，一般來說高精準(zhǔn)往往低召回，相反亦然。其實(shí)這個(gè)是比較直觀的，比如我們想要一個(gè)模型準(zhǔn)確率達(dá)到 100%，那就意味著要保證每一個(gè)結(jié)果都是真正例，這就會(huì)導(dǎo)致有些正例被放棄；相反，要保證模型能將所有正例都預(yù)測(cè)為正例，意味著有些反例也會(huì)混進(jìn)來。這背后的根本原因就在于我們的數(shù)據(jù)往往是隨機(jī)、且充滿噪聲的，并不是非黑即白。

精準(zhǔn)率和召回率與混淆矩陣密切相關(guān)，混淆矩陣是將分類（二分類）結(jié)果通過矩陣的形式直觀展現(xiàn)出來：

真實(shí)情況預(yù)測(cè)結(jié)果正例預(yù)測(cè)結(jié)果反例

正例	TP(真正例)	FN(假反例)
反例	FP(假正例)	TN(真反例)

然后，很容易就得到精準(zhǔn)率（P）和召回率（R）的計(jì)算公式：

得到 P 和 R 后就可以畫出更加直觀的P-R 圖（P-R 曲線），橫坐標(biāo)為召回率，縱坐標(biāo)是精準(zhǔn)率。繪制方法如下：

對(duì)模型的學(xué)習(xí)結(jié)果進(jìn)行排序（一般都有一個(gè)概率值）
按照上面的順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè)，每次都可以得到一個(gè) P R 值
將得到的 P R 值按照 R 為橫坐標(biāo)，P 為縱坐標(biāo)繪制曲線圖。

from typing import List, Tuple import matplotlib.pyplot as pltdef get_confusion_matrix(y_pred: List[int], y_true: List[int]) -> Tuple[int, int, int, int]:length = len(y_pred)assert length == len(y_true)tp, fp, fn, tn = 0, 0, 0, 0for i in range(length):if y_pred[i] == y_true[i] and y_pred[i] == 1:tp += 1elif y_pred[i] == y_true[i] and y_pred[i] == 0:tn += 1elif y_pred[i] == 1 and y_true[i] == 0:fp += 1elif y_pred[i] == 0 and y_true[i] == 1:fn += 1return (tp, fp, tn, fn) def calc_p(tp: int, fp: int) -> float:return tp / (tp + fp) def calc_r(tp: int, fn: int) -> float:return tp / (tp + fn) def get_pr_pairs(y_pred_prob: List[float], y_true: List[int]) -> Tuple[List[int], List[int]]:ps = [1]rs = [0]for prob1 in y_pred_prob:y_pred_i = []for prob2 in y_pred_prob:if prob2 < prob1:y_pred_i.append(0)else:y_pred_i.append(1)tp, fp, tn, fn = get_confusion_matrix(y_pred_i, y_true)p = calc_p(tp, fp)r = calc_r(tp, fn)ps.append(p)rs.append(r)ps.append(0)rs.append(1)return ps, rsy_pred_prob = [0.9, 0.8, 0.7, 0.6, 0.55, 0.54, 0.53, 0.52, 0.51, 0.505,0.4, 0.39, 0.38, 0.37, 0.36, 0.35, 0.34, 0.33, 0.3, 0.1] y_true = [1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0] y_pred = [1] * 10 + [0] * 10 ps, rs = get_pr_pairs(y_pred_prob, y_true) fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(12, 5)) ax.plot(rs, ps);

如果有多個(gè)模型就可以繪制多條 P-R 曲線：

如果某個(gè)模型的曲線完全被另外一個(gè)模型 “包住”（即后者更加凹向原點(diǎn)），那么后者的性能一定優(yōu)于前者。
如果多個(gè)模型的曲線發(fā)生交叉，此時(shí)不好判斷哪個(gè)模型較優(yōu)，一個(gè)較為合理的方法是計(jì)算曲線下面積，但這個(gè)值不太好估算。

為了獲得模型優(yōu)劣，需要綜合 P 和 R，平衡點(diǎn) BEP（Break-Even Point）就是這樣一個(gè)度量，它是 P=R 時(shí)的取值，BPE 越遠(yuǎn)離原點(diǎn)，說明模型效果越好。由于 BPE 過于簡(jiǎn)單，實(shí)際中常用 F1 值衡量：

F1 有更一般的形式：

當(dāng) β > 1 時(shí)，更偏好召回
當(dāng) β < 1 時(shí)，更偏好精準(zhǔn)
當(dāng) β = 1 時(shí)，平衡精準(zhǔn)和召回，即為 F1

F1 其實(shí)來自精準(zhǔn)和召回的加權(quán)調(diào)和平均：

當(dāng)有多個(gè)混淆矩陣（多次訓(xùn)練、多個(gè)數(shù)據(jù)集、多分類任務(wù)）時(shí)，有兩種方式估算 “全局” 性能：

macro 方法：先計(jì)算每個(gè) PR，取平均后，再計(jì)算 F1
micro 方法：先計(jì)算混淆矩陣元素的平均，再計(jì)算 PR 和 F1

三、RMSE

均方根誤差 RMSE（Root Mearn Square Error）主要用在回歸模型，也就是俗稱的 R 方。計(jì)算公式為：

但是如果有非常嚴(yán)重的離群點(diǎn)時(shí)，那些點(diǎn)會(huì)影響 RMSE 的結(jié)果，針對(duì)這個(gè)問題：

如果離群點(diǎn)為噪聲，則去除這些點(diǎn)
如果離群點(diǎn)為正常樣本，可以重新建模
換一個(gè)評(píng)估指標(biāo)，比如平均絕對(duì)百分比誤差 MAPE（Mean Absolute Percent Error），MAPE 對(duì)每個(gè)誤差進(jìn)行了歸一化，一定程度上降低了離群點(diǎn)的影響。

四、ROC 和 AUC

受試者工作特征 ROC（Receiver Operating Characteristic）曲線是另一個(gè)重要的二分類指標(biāo)。它的橫坐標(biāo)是 “假正例率” FPR（False Positive Rate），縱坐標(biāo)是 “真正例率” TPR（True Positive Rate），計(jì)算公式如下：

繪制方法和上面的 P-R 曲線類似，不再贅述。

def calc_fpr(fp: int, tn: int) -> float:return fp / (fp + tn) def calc_tpr(tp: int, fn: int) -> float:return tp / (tp + fn) def get_ftpr_pairs(y_pred_prob: List[float], y_true: List[int]) -> Tuple[List[int], List[int]]:fprs = [0]tprs = [0]for prob1 in y_pred_prob:y_pred_i = []for prob2 in y_pred_prob:if prob2 < prob1:y_pred_i.append(0)else:y_pred_i.append(1)tp, fp, tn, fn = get_confusion_matrix(y_pred_i, y_true)fpr = calc_fpr(fp, tn)tpr = calc_tpr(tp, fn)fprs.append(fpr)tprs.append(tpr)fprs.append(1)tprs.append(1)return fprs, tprs fprs, tprs = get_ftpr_pairs(y_pred_prob, y_true) fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(12, 5)) ax.plot(fprs, tprs);

除此之外，還有一種繪制 ROC 曲線的方法：

假設(shè)有 m+ 個(gè)正例，m- 個(gè)負(fù)例，對(duì)模型輸出的預(yù)測(cè)概率按從高到低排序
然后依次將每個(gè)樣本的預(yù)測(cè)值作為閾值（即將該樣本作為正例），假設(shè)前一個(gè)坐標(biāo)為（x, y），若當(dāng)前為真正例，對(duì)應(yīng)標(biāo)記點(diǎn)為（x, y+1/m+），若當(dāng)前為假正例，則對(duì)應(yīng)標(biāo)記點(diǎn)為（x+1/m-, y）
將所有點(diǎn)相連即可得到 ROC 曲線

該方法和這種做法是一樣的：將縱坐標(biāo)的刻度間隔設(shè)為 1/m+，橫坐標(biāo)的刻度間隔設(shè)為 1/m-，從（0,0）開始，每遇到一個(gè)真正例就沿著縱軸繪制一個(gè)刻度間隔的曲線，假正例就沿著橫軸繪制一個(gè)刻度間隔的曲線，最終就可以得到 ROC 曲線。

def get_ftpr_pairs2(y_pred_prob: List[float], y_true: List[int]) -> Tuple[List[int], List[int]]:mplus = sum(y_true)msub = len(y_true) - mpluspairs = [(0, 0)]prev = (0, 0)length = len(y_pred_prob)assert length == len(y_true)for i in range(length):if y_true[i] == 1:pair = (prev[0], prev[1] + 1/mplus)else:pair = (prev[0] + 1/msub, prev[1])pairs.append(pair)prev = pairpairs.append((1, 1))fprs, tprs = [], []for pair in pairs:fprs.append(pair[0])tprs.append(pair[1])return fprs, tprs fprs, tprs = get_ftpr_pairs2(y_pred_prob, y_true) fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(12, 5)) ax.plot(fprs, tprs);

該方法和上面第一種方法得到的曲線完全一致。

多個(gè)模型時(shí)，與 P-R 曲線也是類似，如果某個(gè)模型的曲線完全 “包住” 另一個(gè)，則前者性能好于后者。如果曲線相互交叉，則比較曲線下面積：AUC（Area Under ROC Curve）。

AUC 取值一般在 0.5-1 之間，處于 y=x 直線的上方（如果不是的話，把預(yù)測(cè)概率翻轉(zhuǎn)成 1-p 就能獲得更好的模型）。AUC 值越大，說明模型越可能把真正例排在前面，性能越好。此時(shí)，假正例率很低同時(shí)真正例率很高，意味著召回高并且誤判率小。對(duì)角線對(duì)應(yīng)著隨機(jī)模型（各占 50%），（0，1）點(diǎn)對(duì)應(yīng)的是理想模型，即所有正例 100% 召回且沒有一個(gè)負(fù)例被判別為正例。

AUC 面積可以通過以下公式進(jìn)行估算：

AUC 考慮的是樣本預(yù)測(cè)的排序質(zhì)量，與排序誤差緊密相連，排序 “損失” loss 可定義為：

該式子的意思是，如果正例預(yù)測(cè)值小于負(fù)例，計(jì) 1 個(gè)罰分，如果相等則計(jì) 0.5 個(gè)罰分。顯然，該式對(duì)應(yīng)的就是 ROC 曲線上面的面積。因此有：

與 P-R 曲線相比，ROC 曲線有一個(gè)特點(diǎn)：當(dāng)正負(fù)樣本的分布發(fā)生變化時(shí)，ROC 曲線形狀能基本保持不變，而 P-R 曲線的形狀一般會(huì)發(fā)生比較劇烈的變化。因此，當(dāng)數(shù)據(jù)不均勻時(shí)，ROC 曲線更能夠反映模型好壞。而這背后的原因是：

P-R 曲線關(guān)注的是真實(shí)的正例和預(yù)測(cè)的正例中（分別對(duì)應(yīng) Recall 和 Precision），實(shí)際是正例的比例
ROC 曲線關(guān)注的是真實(shí)的正例和負(fù)例中（分別對(duì)應(yīng) TPR 和 FPR），被預(yù)測(cè)為正例的比例

五、KS

作為一個(gè)工程師，看到 KS 我們的第一反應(yīng)應(yīng)該是：既然已經(jīng)有了 PR、ROC 等評(píng)價(jià)指標(biāo)，為什么還需要 KS？它解決了前面指標(biāo)解決不了的什么問題？它究竟有什么特點(diǎn)？

KS Test（Kolmogorov-Smirnov）是由兩位蘇聯(lián)數(shù)學(xué)家 A.N. Kolmogorov 和 N.V. Smirnov 提出的，用于比較樣本與參考概率分布或比較兩個(gè)樣本的非參數(shù)檢驗(yàn)。

我們以兩樣本為例，假設(shè) m 個(gè) sample 來自分布 F(x)，n 個(gè)來自 G(x)，定義 KS 統(tǒng)計(jì)量（KS 距離）為：

其中 F(x) 和 G(x) 都是經(jīng)驗(yàn)累積分布函數(shù) ECDF（empirical distribution function），定義如下：

sup 表示上確界，也是最小上界。

原始假設(shè) H0：兩組 sample 來自統(tǒng)一分布，在大樣本上，在置信水平 α 下如果滿足下面的條件則拒絕零假設(shè)（認(rèn)為兩組樣本來自不同分布）：

代入后得到：

常用的值如下：

from scipy import stats rvs1 = stats.norm.rvs(size=200, loc=0., scale=1) rvs2 = stats.norm.rvs(size=300, loc=0.5, scale=1.5) stats.ks_2samp(rvs1, rvs2) # 在置信度 0.05 水平下：1.358 * np.sqrt(500/60000) = 0.124 # Ks_2sampResult(statistic=0.265, pvalue=7.126401335710852e-08) # 0.265 > 0.124 所以拒絕原假設(shè)，即認(rèn)為兩組樣本來自不同分布 # 事實(shí)上，即便是 0.005 的置信水平下依然要拒絕原假設(shè) fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(12, 5)) ax.hist(rvs1, density=False, histtype='stepfilled', alpha=0.2, color='red'); ax.hist(rvs2, density=False, histtype='stepfilled', alpha=0.2, color='blue');

其中 statistic 就是 ks 統(tǒng)計(jì)量。

那這又和評(píng)價(jià)指標(biāo)有啥關(guān)聯(lián)呢？

我們考慮這么一種情況，假設(shè)數(shù)據(jù)集的 Label 并不是離散的（如二分類的 0-1），而是可能滿足一定分布，也就是說標(biāo)簽有很多灰色地帶。其實(shí)這在實(shí)際生活中倒是更加常見，以金融風(fēng)控為例，不少特征都是基于某個(gè)時(shí)間點(diǎn)做劃分的，比如逾期還款 x 天，這個(gè) x 是非常靈活的，而且也很難說 x-1 天的就一定比 x+1 天的信用好。這就意味著給定特征下，我們的標(biāo)簽最好能夠有一定 “彈性”。

那么，怎么去體現(xiàn)這個(gè) “彈性” 呢？因?yàn)?KS 正好是衡量?jī)蓚€(gè) “分布” 的 “距離”，我們可以構(gòu)造一個(gè)函數(shù)：

然后我們可以畫出 KS 曲線，可以證明，KS 和 ROC 等價(jià)，且滿足如下公式：

KS 的最大值就用來評(píng)估模型的區(qū)分度。而所謂的區(qū)分度正可以看作是正負(fù)例的差異，具體而言，如果正負(fù)例對(duì)于標(biāo)簽沒有區(qū)分度，說明兩個(gè)樣本重疊較大；區(qū)分度越大，說明兩個(gè)概率分布相隔越遠(yuǎn)。回到 KS 上：

如果 KS 的最大值很小，說明 TPR 和 FPR 接近同一分布，也就意味著真實(shí)的正例和負(fù)例被預(yù)測(cè)為正例的比例相似，說明模型很差。
如果 KS 的最大值很大，說明 TPR 和 FPR 區(qū)別很大，意味著真實(shí)的正例被預(yù)測(cè)為正例和真實(shí)的負(fù)例被預(yù)測(cè)為正例相差很大，說明模型效果較好（能夠區(qū)分真實(shí)正例和真實(shí)負(fù)例）。

事實(shí)上，KS 的確常用在金融風(fēng)控中，用來評(píng)估模型的區(qū)分度，區(qū)分度越大說明模型的風(fēng)險(xiǎn)排序能力越強(qiáng)。但值太大也有問題（可能過擬合），一般超過 0.75 就認(rèn)為過高，而低于 0.2 則過低。關(guān)于這個(gè)我們可以看圖說明：

我們假設(shè)曲線光滑，那么 AUC_KS ≈ 1/2 × max_KS，根據(jù)前面的公式：

由于上面提到的金融風(fēng)控中 Label 的彈性，當(dāng) KS 過高時(shí)，ROC 的 AUC 就會(huì)很高，說明結(jié)果并沒有這種彈性（模糊性、連續(xù)性），此時(shí)模型有過擬合風(fēng)險(xiǎn)。

既然 KS 可以，那我們自然就要問了，t 檢驗(yàn)行不行？因?yàn)?t 檢驗(yàn)也是檢驗(yàn)兩組樣本是否來自同一個(gè)分布的統(tǒng)計(jì)量啊。答案是：不行。因?yàn)槲覀儗?shí)際上是使用了它的定義（距離），而 t-test 的定義并沒有體現(xiàn)出這一點(diǎn)。

獨(dú)立雙樣本 t 檢驗(yàn)，方差不相等：

獨(dú)立雙樣本 t 檢驗(yàn)，樣本數(shù)相同，方差相似：

這里的圖也可以說明這一點(diǎn)：

其他距離其實(shí)也沒有太多意義，因?yàn)?FPR 和 TPR 的 x 是一樣的，不同的也就是 y 值。

六、評(píng)分卡

評(píng)分卡模型是一個(gè)線性回歸模型：

特征覆蓋率高，保持穩(wěn)定，特征變量有明顯的可解釋性。樣本為 0 時(shí)可以根據(jù)專家歷史經(jīng)驗(yàn)設(shè)定權(quán)重；樣本為幾百時(shí)，可根據(jù)單特征區(qū)分能力如 KS/IV 值等進(jìn)行權(quán)重設(shè)定。

6.1 非線性處理

有兩種方式：WOE 處理和分桶。

證據(jù)權(quán)重 WOE（Weight of Evidence）是一種自變量編碼方案，定義為：

其中，Bi 表示第 i 個(gè)分組里 bad label 的數(shù)量，Bt 為總的 bad label 數(shù)量；G 表示 good label。WOE 越大，bad label 比例越高，此時(shí)的 WOE 值可以作為該分組的特征值。

分桶是指對(duì)有一定跳變的連續(xù)值特征進(jìn)行分桶，將弱線性特征轉(zhuǎn)化為強(qiáng)線性特征。

6.2 交叉特征處理

主要采取對(duì)客戶分群的方式，對(duì)細(xì)分群體進(jìn)行單獨(dú)建模（本質(zhì)上是一種交叉特征的體現(xiàn)）。

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯

總結(jié)

以上是生活随笔為你收集整理的【机器学习基础】非常详细！机器学习模型评估指标总结！的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【论文解读】Graph Normaliz
下一篇： Github标星59.7k：用动画的形式