日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

sklearn中的metrics

發布時間:2024/1/23 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 sklearn中的metrics 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • MSE
    • 交叉驗證
    • 準確率、精度、召回率、F1、AUC
      • 準確率
      • 混淆矩陣
      • 精度、召回率、F1
      • ROC & AUC
    • 閾值衡量、ROC曲線
      • 閾值選擇
      • ROC曲線

多分類的metrix問題,請見多分類問題。

MSE

我們先看一下回歸問題常用的均方根誤差MSE。

from sklearn.metrics import mean_squared_error housing_pred = lin_reg.predict(housing_feature) lin_mse = mean_squared_error(housing_label, housing_pred) print(np.sqrt(lin_mse)) 69658.1903557702

交叉驗證

使用sklearn提供的cross_val_score(),我們可以很方便的交叉驗證模型效果。比如,我們看一下上面5和非5的線性分類器的準確率:

from sklearn.model_selection import cross_val_score, cross_val_predict cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring='accuracy') array([0.9615, 0.9595, 0.9535])

上述代碼中,我們隨機劃分訓練數據和測試數據,訓練模型后計算準確率,并重復了3次。

準確率、精度、召回率、F1、AUC

下面我們主要看一下準確率、精度、召回率、F1、ROC/AUC等常用于二分類問題的metrics。

準確率

from sklearn.metrics import accuracy_score, confusion_matrix, precision_score, recall_score, f1_score, precision_recall_curve y_pred_5 = sgd_clf.predict(X_test)accuracy_score(y_test_5, y_pred_5) 0.96165625

混淆矩陣

confusion_matrix(y_test_5, y_pred_5) array([[57323, 878],[ 1576, 4223]])

精度、召回率、F1

precision_score(y_test_5, y_pred_5) 0.8278768868849246 recall_score(y_test_5, y_pred_5) 0.7282290050008622 f1_score(y_test_5, y_pred_5) 0.774862385321101

ROC & AUC

from sklearn.metrics import roc_auc_score roc_auc_score(y_test_5, y_pred_5) 0.856571676775787

閾值衡量、ROC曲線

sklearn不允許對分類模型直接設置閾值,但是可以訪問它用于預測的決策分數。不是調用分類器的predict()函數,而是調用decision_function()函數,這種方法返回每個實例的分數,然后就可以根據這些分數,使用任意閾值進行預測了。

我們先看個示例:

y_pred = sgd_clf.predict([X_test[11]]) print(y_pred)y_score = sgd_clf.decision_function([X_test[11]]) print(y_score) [ True] [58446.52780903]

我們隨機抽取了一個樣本,其score=41983,而默認的閾值為0,所以預測結果為True。如果我們現在想提高精度(降低其召回率),那可以提高其閾值:

threshold = 50000 y_predict_t = (y_score > threshold) print(y_predict_t)accuracy = accuracy_score(y_test, y_predict_t) precision = precision_score(y_test, y_predict_t) recall = recall_score(y_test, y_predict_t) f1 = f1_score(y_test, y_predict_t) auc = roc_auc_score(y_test, y_predict_t) print(accuracy, precision, recall, f1, auc) [ True]

閾值選擇

那怎么選取合適的閾值呢?

我們先使用cross_val_predict()獲取決策分數而非預測結果;然后使用precision_recall_curve()計算所有可能閾值的精度和召回率;最后使用matplotlib繪制精度和召回率相對于閾值的函數組:

y_score = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, method='decision_function') precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_score) def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):plt.plot(thresholds, precisions[:-1], 'b--', label='Precision')plt.plot(thresholds, recalls[:-1], 'g-', label='Recall')plot_precision_recall_vs_threshold(precisions, recalls, thresholds) plt.show()

根據上圖,可以選擇合適的閾值。

假設你決定將精度設置為90%:

threshold_90_precision = thresholds[np.argmax(precisions>=0.90)] print(threshold_90_precision) 261289.38745837728

取的合適的閾值后,我們可以這樣指定最終的預測結果:

y_pred_90 = (y_score >= threshold_90_precision) print(y_pred_90) [False False False ... False False False]

ROC曲線

畫ROC曲線和上述的精度、召回率曲線類似,但要先算出FPR和TPR:

from sklearn.metrics import roc_curve fpr, tpr, thresholds = roc_curve(y_train_5, y_score) def plt_roc_curve(fpr, tpr, label=None):plt.plot(fpr, tpr, linewidth=2, label=label)plt.plot([0,1], [0,1], 'k--')plt_roc_curve(fpr, tpr) plt.show()

畫出ROC曲線后,可用上述的方法計算得到AUC:

roc_auc_score(y_test_5, y_pred_5) 0.856571676775787

總結

以上是生活随笔為你收集整理的sklearn中的metrics的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。