sklearn中的metrics
文章目錄
- MSE
- 交叉驗證
- 準確率、精度、召回率、F1、AUC
- 準確率
- 混淆矩陣
- 精度、召回率、F1
- ROC & AUC
- 閾值衡量、ROC曲線
- 閾值選擇
- ROC曲線
多分類的metrix問題,請見多分類問題。
MSE
我們先看一下回歸問題常用的均方根誤差MSE。
from sklearn.metrics import mean_squared_error housing_pred = lin_reg.predict(housing_feature) lin_mse = mean_squared_error(housing_label, housing_pred) print(np.sqrt(lin_mse)) 69658.1903557702交叉驗證
使用sklearn提供的cross_val_score(),我們可以很方便的交叉驗證模型效果。比如,我們看一下上面5和非5的線性分類器的準確率:
from sklearn.model_selection import cross_val_score, cross_val_predict cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring='accuracy') array([0.9615, 0.9595, 0.9535])上述代碼中,我們隨機劃分訓練數據和測試數據,訓練模型后計算準確率,并重復了3次。
準確率、精度、召回率、F1、AUC
下面我們主要看一下準確率、精度、召回率、F1、ROC/AUC等常用于二分類問題的metrics。
準確率
from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score, precision_recall_curve y_pred_5 = sgd_clf.predict(X_test)accuracy_score(y_test_5, y_pred_5) 0.96165625混淆矩陣
confusion_matrix(y_test_5, y_pred_5) array([[57323, 878],[ 1576, 4223]])精度、召回率、F1
precision_score(y_test_5, y_pred_5) 0.8278768868849246 recall_score(y_test_5, y_pred_5) 0.7282290050008622 f1_score(y_test_5, y_pred_5) 0.774862385321101ROC & AUC
from sklearn.metrics import roc_auc_score roc_auc_score(y_test_5, y_pred_5) 0.856571676775787閾值衡量、ROC曲線
sklearn不允許對分類模型直接設置閾值,但是可以訪問它用于預測的決策分數。不是調用分類器的predict()函數,而是調用decision_function()函數,這種方法返回每個實例的分數,然后就可以根據這些分數,使用任意閾值進行預測了。
我們先看個示例:
y_pred = sgd_clf.predict([X_test[11]]) print(y_pred)y_score = sgd_clf.decision_function([X_test[11]]) print(y_score) [ True] [58446.52780903]我們隨機抽取了一個樣本,其score=41983,而默認的閾值為0,所以預測結果為True。如果我們現在想提高精度(降低其召回率),那可以提高其閾值:
threshold = 50000 y_predict_t = (y_score > threshold) print(y_predict_t)accuracy = accuracy_score(y_test, y_predict_t) precision = precision_score(y_test, y_predict_t) recall = recall_score(y_test, y_predict_t) f1 = f1_score(y_test, y_predict_t) auc = roc_auc_score(y_test, y_predict_t) print(accuracy, precision, recall, f1, auc) [ True]閾值選擇
那怎么選取合適的閾值呢?
我們先使用cross_val_predict()獲取決策分數而非預測結果;然后使用precision_recall_curve()計算所有可能閾值的精度和召回率;最后使用matplotlib繪制精度和召回率相對于閾值的函數組:
y_score = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, method='decision_function') precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_score) def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):plt.plot(thresholds, precisions[:-1], 'b--', label='Precision')plt.plot(thresholds, recalls[:-1], 'g-', label='Recall')plot_precision_recall_vs_threshold(precisions, recalls, thresholds) plt.show()根據上圖,可以選擇合適的閾值。
假設你決定將精度設置為90%:
threshold_90_precision = thresholds[np.argmax(precisions>=0.90)] print(threshold_90_precision) 261289.38745837728取的合適的閾值后,我們可以這樣指定最終的預測結果:
y_pred_90 = (y_score >= threshold_90_precision) print(y_pred_90) [False False False ... False False False]ROC曲線
畫ROC曲線和上述的精度、召回率曲線類似,但要先算出FPR和TPR:
from sklearn.metrics import roc_curve fpr, tpr, thresholds = roc_curve(y_train_5, y_score) def plt_roc_curve(fpr, tpr, label=None):plt.plot(fpr, tpr, linewidth=2, label=label)plt.plot([0,1], [0,1], 'k--')plt_roc_curve(fpr, tpr) plt.show()畫出ROC曲線后,可用上述的方法計算得到AUC:
roc_auc_score(y_test_5, y_pred_5) 0.856571676775787總結
以上是生活随笔為你收集整理的sklearn中的metrics的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sklearn中的正则化
- 下一篇: sklearn综合示例2:决策树