日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)

發(fā)布時間:2025/3/21 编程问答 23 豆豆

ML之二分類預測:以巖石水雷數據集(RockMine)為例從0到1深入理解科學預測之分類問題的思路框架(特征工程詳細步驟+分類模型設計)

?

?

?

目錄

一、總體思路框架

二、特征工程詳細步驟(特征分析與特征處理)

1、獲取數據集,并確定新數據集的規(guī)模

2、確定數據集每個屬性的類型

3、對數據集統(tǒng)計特征

4、利用python工具包輸出

5、對整個數據集各個特征(屬性)PCP(平行坐標圖)可視化分析

6、屬性之間關系的關系SP可視化

7、特殊屬性和標簽的關系SP可視化

8、利用皮爾遜相關系數計算任意兩個特征(屬性)之間相關程度

9、Heat Map熱圖:利用皮爾森相關系數矩陣,且使用HM可視化變量之間的相關性

三、測試該數據集上度量分類器性能

T1、OLS構建分類器

T2、RiR構建分類器+AUC度量分離器性能


?

?

一、總體思路框架

二、特征工程詳細步驟(特征分析與特征處理)

1、獲取數據集,并確定新數據集的規(guī)模

2、確定數據集每個屬性的類型

?

3、對數據集統(tǒng)計特征

Mean = 0.053892307692307684 Standard Deviation = 0.04641598322260027Boundaries for 4 Equal Percentiles [0.0058, 0.024375, 0.04405, 0.0645, 0.4264]Boundaries for 10 Equal Percentiles [0.0058, 0.0141, 0.022740000000000003, 0.027869999999999995, 0.03622, 0.04405, 0.05071999999999999, 0.059959999999999986, 0.07794000000000001, 0.10836, 0.4264]Unique Label Values {'M', 'R'}Counts for Each Value of Categorical Label ['M', 'R'] [111, 97]

4、利用python工具包輸出

(1)、分位圖查找異常點

(2)、輸出頭數據和尾數據

(3)、輸出統(tǒng)計信息

5、對整個數據集各個特征(屬性)PCP(平行坐標圖)可視化分析

6、屬性之間關系的關系SP可視化

7、特殊屬性和標簽的關系SP可視化

8、利用皮爾遜相關系數計算任意兩個特征(屬性)之間相關程度

(1)、如圖分別計算的是2&3、2&21兩個相關度數值

分別計算第2&3、2&21個屬性參數相關度,發(fā)現(xiàn)2&3之間相關度比2&21高!

9、Heat Map熱圖:利用皮爾森相關系數矩陣,且使用HM可視化變量之間的相關性

三、測試該數據集上度量分類器性能

T1、OLS構建分類器

1、輸出結果

2、ROC、AUC可視化分析

T2、RiR構建分類器+AUC度量分離器性能

?

?

?

總結

以上是生活随笔為你收集整理的ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。