日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )

發布時間:2025/6/17 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 ) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

        • I . 分類概念
        • II . 分類 ( 離散值 ) 和 預測 ( 連續值 )
        • III . 分類過程
        • IV . 分類過程中使用的數據集 ( 訓練集 | 測試集 | 新數據 )
        • V . 數據預處理
        • VI . 分類方法評價
        • VII . 分類算法舉例
        • VIII . 有監督學習 和 無監督學習



I . 分類概念



1 . 數據挖掘任務分類 : 數據挖掘任務分為 模型挖掘 和 模式挖掘 , 其中 模型挖掘 包含 描述建模 和 預測建模 ;


2 . 分類任務類型 : 分類 屬于 模型挖掘 任務 , 任務類型是 預測建模 類型 ;


3 . 預測建模 : 根據 已知的數據特征 , 預測未知的數據特征 ; 如 : 數據有 n 個變量 , 已知 n - 1 個變量的值 , 預測未知的那個變量的值 ;


4 . 預測建模 示例 : 根據顧客的 年齡 , 收入 , 是否是學生 , 信用等級 , 預測該顧客是否會購買電腦 ;



II . 分類 ( 離散值 ) 和 預測 ( 連續值 )



1 . 分類 ( 離散值 ) : 先構造出模型 , 然后使用該模型對未知樣本進行 類別判定 ; 類別是固定的幾個類 ;

分類使用場景 : 預測 離散數據 , 如 : 信用等級評估 , 疾病診斷 ;



2 . 預測 ( 回歸 | 連續值 ) : 先構造出模型 , 然后使用該模型對未知樣本的 某個值進行估計 ; 這個值是一個數值 ;

預測使用場景 : 預測 連續的數據 , 如電影票房 , 國家 GDP 等 ;



III . 分類過程



1 . 分類過程 : 分類分為 建立模型階段 使用模型階段 ;


2 . 建立模型 ( 學習 ) : 又叫學習階段 , 訓練階段 ;


① 訓練集 : 學習訓練階段使用的模型叫訓練集 ;

② 模型表示形式 : 分類規則 , 決策樹 , 數學公式 等 ;


3 . 使用模型 : 先測試模型 , 測試通過開始使用 ;


① 測試模型 : 測試模型的準確性 , 如果認可該準確性 , 就使用該模型對未知新數據進行分類 ;

② 測試集 : 使用 模型 對測試集數據進行分類 , 將分類結果與真實結果進行對比 ;

③ 準確率 : 使用模式分類的結果 , 與測試集真實數據 , 分類正確的比例是 準確率 ;

④ 測試集要求 : 測試集 與 訓練集 不相關 ;



IV . 分類過程中使用的數據集 ( 訓練集 | 測試集 | 新數據 )



1 . 分類過程中使用的數據集 :


① 訓練集 : 使用訓練集訓練 模型 ;

② 測試集 : 使用測試機驗證 模型 的準確性 , 如果準確就使用該模型 , 如果不準確繼續訓練 ;

③ 新數據 : 使用模型 預測 新數據的未知字段的分類 ;

④ 相同點 : 三種數據集的格式是一樣的 ;


2 . 有監督學習 : 分類屬于有監督的學習 , 有監督學習必須有 訓練模型階段 和 測試模型階段 , 最后才能使用模型 ;


3 . 已知數據 : 通常 訓練集 與 測試集集 是一體的 , 本質是完全相同的 , 將數據隨機分為 訓練集 和 測試集 ;



V . 數據預處理



1 . 數據清洗 : 預處理數據 ;


① 刪除 : 刪除數據的噪音 ;

② 修補 : 修補缺失數據 , 使用常用值 , 平均值 , 統計學中的最大概率出現的值替代缺失數據 ;


2 . 相關分析 : 分類 類型的數據挖掘任務中 , 該步驟叫做 特征選擇 ;

① 主要工作 : 篩選 模型 中使用的 屬性 ( 特征值 ) , 屏蔽 冗余 或 不相關 的 屬性 ( 特征值 ) ; 如 信用等級與人的星座無關 , 此類特征值就可以在模型中進行刪除 ;

② 分類工作 : 數據有 nnn 個 屬性 ( 特征 ) , 已知 n?1n-1n?1 個特征值 , 預測未知的那個特征值 ;

③ 模型復雜程度 : 選擇使用哪些 屬性 ( 特征 ) 值 進行預測 , 關系到模型的復雜程度 , 模型中使用的特征值個數越多 , 越復雜 ;

④ 特征工程 : 這里引入 特征工程 概念 , 特征處理的工作就是特征工程的核心 ;


3 . 數據轉換 :


① 概括數據 : 將連續值離散化 , 如 100 分滿分 , 低于 60 不及格 , 高于 60 及格 , 這樣就將 0 ~ 100 的數值分成 及格 與 不及格兩個特征 ;

② 數據規范 : 將數據規范化 , 規范單位 , 如身高有的使用 cm , 有的使用 m , 有的使用英尺 , 將數據單位都設置成統一單位 ;



VI . 分類方法評價



分類方法評價標準 :


① 準確性 : 保證性能的前提下 , 越準確越好 ;

② 速度 : 構造模型的速度 ( 訓練 和 測試 時間 ) , 使用模型的速度 ;

③ 容錯性 ( 魯棒性 ) : 能處理數據中的噪音 , 和數據缺失等情況 ;

④ 伸縮性 : 內存中數據可以使用 , 磁盤中的數據也可以使用 ;

⑤ 交互性 : 模型解釋性好 , 易于理解 ; 如深度學習中的神經元網絡不易理解 , 被人稱為煉金術 ;



VII . 分類算法舉例



分類算法示例 :

① 決策樹分類

② 貝葉斯分類

③ 支持向量機

④ 神經元網絡

⑤ K 近鄰分類



VIII . 有監督學習 和 無監督學習



1 . 有監督學習 : 明確地分為兩個階段 ; 訓練模型階段 , 使用訓練集數據 ; 使用模型階段 , 預測新數據某個特征 ;

有監督學習舉例 : 分類過程 是典型的有監督學習過程 ;


2 . 無監督學習 : 沒有訓練階段 和 預測階段 的明顯劃分 ;

無監督學習舉例 : 聚類分析 ;


3 . 半監督學習 : 介于 有監督學習 和 無監督學習之間 ;

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。