當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

sklearn中的metrics

發布時間：2024/1/23 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 sklearn中的metrics 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

- MSE
- 交叉驗證
- 準確率、精度、召回率、F1、AUC
- - 準確率
  - 混淆矩陣
  - 精度、召回率、F1
  - ROC & AUC
- 閾值衡量、ROC曲線
- - 閾值選擇
  - ROC曲線

多分類的metrix問題，請見多分類問題。

MSE

我們先看一下回歸問題常用的均方根誤差MSE。

from sklearn.metrics import mean_squared_error housing_pred = lin_reg.predict(housing_feature) lin_mse = mean_squared_error(housing_label, housing_pred) print(np.sqrt(lin_mse)) 69658.1903557702

交叉驗證

使用sklearn提供的cross_val_score()，我們可以很方便的交叉驗證模型效果。比如，我們看一下上面5和非5的線性分類器的準確率：

from sklearn.model_selection import cross_val_score, cross_val_predict cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring='accuracy') array([0.9615, 0.9595, 0.9535])

上述代碼中，我們隨機劃分訓練數據和測試數據，訓練模型后計算準確率，并重復了3次。

準確率、精度、召回率、F1、AUC

下面我們主要看一下準確率、精度、召回率、F1、ROC/AUC等常用于二分類問題的metrics。

準確率

from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score, precision_recall_curve y_pred_5 = sgd_clf.predict(X_test)accuracy_score(y_test_5, y_pred_5) 0.96165625

混淆矩陣

confusion_matrix(y_test_5, y_pred_5) array([[57323, 878],[ 1576, 4223]])

精度、召回率、F1

precision_score(y_test_5, y_pred_5) 0.8278768868849246 recall_score(y_test_5, y_pred_5) 0.7282290050008622 f1_score(y_test_5, y_pred_5) 0.774862385321101

ROC & AUC

from sklearn.metrics import roc_auc_score roc_auc_score(y_test_5, y_pred_5) 0.856571676775787

閾值衡量、ROC曲線

sklearn不允許對分類模型直接設置閾值，但是可以訪問它用于預測的決策分數。不是調用分類器的predict()函數，而是調用decision_function()函數，這種方法返回每個實例的分數，然后就可以根據這些分數，使用任意閾值進行預測了。

我們先看個示例：

y_pred = sgd_clf.predict([X_test[11]]) print(y_pred)y_score = sgd_clf.decision_function([X_test[11]]) print(y_score) [ True] [58446.52780903]

我們隨機抽取了一個樣本，其score=41983，而默認的閾值為0，所以預測結果為True。如果我們現在想提高精度（降低其召回率），那可以提高其閾值：

threshold = 50000 y_predict_t = (y_score > threshold) print(y_predict_t)accuracy = accuracy_score(y_test, y_predict_t) precision = precision_score(y_test, y_predict_t) recall = recall_score(y_test, y_predict_t) f1 = f1_score(y_test, y_predict_t) auc = roc_auc_score(y_test, y_predict_t) print(accuracy, precision, recall, f1, auc) [ True]

閾值選擇

那怎么選取合適的閾值呢？

我們先使用cross_val_predict()獲取決策分數而非預測結果；然后使用precision_recall_curve()計算所有可能閾值的精度和召回率；最后使用matplotlib繪制精度和召回率相對于閾值的函數組：

y_score = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, method='decision_function') precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_score) def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):plt.plot(thresholds, precisions[:-1], 'b--', label='Precision')plt.plot(thresholds, recalls[:-1], 'g-', label='Recall')plot_precision_recall_vs_threshold(precisions, recalls, thresholds) plt.show()

根據上圖，可以選擇合適的閾值。

假設你決定將精度設置為90%：

threshold_90_precision = thresholds[np.argmax(precisions>=0.90)] print(threshold_90_precision) 261289.38745837728

取的合適的閾值后，我們可以這樣指定最終的預測結果：

y_pred_90 = (y_score >= threshold_90_precision) print(y_pred_90) [False False False ... False False False]

ROC曲線

畫ROC曲線和上述的精度、召回率曲線類似，但要先算出FPR和TPR：

from sklearn.metrics import roc_curve fpr, tpr, thresholds = roc_curve(y_train_5, y_score) def plt_roc_curve(fpr, tpr, label=None):plt.plot(fpr, tpr, linewidth=2, label=label)plt.plot([0,1], [0,1], 'k--')plt_roc_curve(fpr, tpr) plt.show()

畫出ROC曲線后，可用上述的方法計算得到AUC：

roc_auc_score(y_test_5, y_pred_5) 0.856571676775787

總結

以上是生活随笔為你收集整理的sklearn中的metrics的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： sklearn中的正则化
下一篇： sklearn综合示例2：决策树