日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘笔记八】分类:基本概念

發布時間:2025/4/16 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘笔记八】分类:基本概念 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?

8.分類:基本概念

分類是一種重要的數據分析形式,它提取刻畫重要數據類的模型,這種模型稱為分類器,預測分類的(離散的、無序的)類標號。

8.1?基本概念

分類和回歸(數值預測)是預測問題的兩種主要類型。數據分類是一個兩階段過程,包括學習階段構建分類模型和分類階段使用模型預測給定數據的類標號。

學習階段由于提供了每個訓練元組的類標號,也稱為監督學習,不同于無監督學習,每個訓練元組的類標號是未知的,并且要學習的類的個數或集合實現也可能不知情。

分類階段首先要評估分類器的預測準確率,存在過擬合情況(即在學習期間,學習器可能包含了訓練數據中的某些特定的異常,但這些異常不在一般的數據集中出現),需要使用由檢驗元組和與它們相關聯的類標號組成的檢驗集,獨立于訓練集。分類器在給定檢驗集上的準確率是分類器正確分類的檢驗元組所占的百分比。

8.2?決策樹歸納

決策樹歸納是從有類標號的訓練元組中學習決策樹。在決策樹構造中,使用屬性選擇度量來選擇將元組最好地劃分成不同的類的屬性。決策樹建立時,許多分枝可能反應訓練數據中的噪聲或離群點,樹剪枝試圖識別并剪去這種分枝,以提高在未知數據上分類的準確率。ID3、C4.5和CART都采用貪心(非回溯的)方法,其中決策樹以自頂向下遞歸的分治方式構造。

屬性選擇度量是決策樹選擇分類的準則,把給定類標記的訓練元組的數據分區最好地劃分成單獨類的啟發式方法。屬性選擇度量為描述給定訓練元組的每個屬性提供了秩評定。具有最好度量得分的屬性被選為元組的分裂屬性。信息增益、增益率和基尼指數是三種常見的屬性選擇度量。信息增益偏向多值屬性,增益率調整了這種偏倚,但也傾向于產生不平衡的劃分,其中一個分區比其他分區小得多。基尼指數偏向于多值屬性,并且當類的數量很大時會有困難,還傾向于導致相等大小的分區和純度。

決策樹剪枝方法有先剪枝和后剪枝:

1)先剪枝方法中,通過提前停止樹的構建(如通過決定在給定的結點不再分裂或劃分訓練元組的子集)而對樹剪枝,一旦停止,結點就成為樹葉,該樹葉持有子集元組中最頻繁的類或這些原則的概率分布。在構造樹時,可以使用統計顯著性、信息增益、基尼指數等度量來評估劃分的優劣。

2)后剪枝方法,在完全生長的樹再剪去分枝,通過刪除結點的分枝并用樹葉替換它而剪掉給定結點上的子樹。CART使用的代價復雜度剪枝算法是后剪枝方法的一個實例。該方法把樹的復雜度看做樹中樹葉結點的個數和樹的錯誤率的函數。從樹的底部開始,對每個內部結點N,計算N的子樹的代價復雜度和該子樹剪枝后N的子樹的代價復雜度,比較這兩個值,如果剪去結點N的子樹導致較小的代價復雜度,則剪掉該子樹。

訓練集過大,在主存和高速緩存換進換出,計算成本大,要研究可以處理可伸縮的決策樹算法,如RainForest,能適應可用的內存量,并可用于任意決策樹歸納算法;如BOAT自助樂觀算法使用自助法的統計學技術。

基于感知的分類是一種基于多維可視化技術的交互式方法,允許用戶在構建決策樹時加上關于數據的背景知識。

8.3?貝葉斯分類方法

貝葉斯分類法是統計學分類方法,可以預測類隸屬關系的概率,如一個給定的元組屬于一個特定類的概率。貝葉斯分類基于貝葉斯定理。貝葉斯定義是后驗概率和先驗概率以及證據構成。

樸素貝葉斯分類法假定一個屬性值在給定類上的影響獨立于其他屬性的值,即類條件獨立性。

8.4?基于規則的分類

基于規則的分類器使用一組IF-THEN規則進行分類。IF是規則的前提,THEN是規則的結論。規則可以用覆蓋率和準確率來評估。IF-THEN規則可從決策樹中提取。使用順序覆蓋算法(sequential?covering?algorithm)可以直接從訓練數據中提取IT-THEN規則而不必產生決策樹。

8.5?模型評估與選擇

評估分類器性能的度量中混淆矩陣是一種有用的工具,相關指標有準確率、錯誤率、誤分類率、靈敏性、特效性、精度、召回率、ROC曲線。

除了基于準確率的度量外,還可以在其他方面比較分類器:

1)速度:產生和使用分類器的計算開銷;

2)魯棒性:假定數據有噪聲或有缺失值時分類器做出正確預測的能力,通常,魯棒性用噪聲和缺失值漸增的一系列合成數據集評估;

3)可伸縮性:涉及給定大量數據集,有效地構造分類器的能力,通常,可伸縮性用規模漸增的一系列數據集評估;

4)可解釋性:分類器或預測器提供的理解和洞察水平。

模型評估還對樣本抽樣采用一定技術,如交叉驗證、自助法(有放回的均勻采樣)、留一法。模型選擇上也采用統計檢驗方法。

8.6?提高分類準確率的技術

組合分類器(ensemble)是一個復合模型,由多個分類器組合而成。組合分類方法,包括裝袋、提升。組合分類器比它的基分類器更準確。

1)裝袋Bagging:有放回抽樣選擇N個訓練集,給N個基分類器訓練,分類結果采用投票機制確定,并行集成。

2)提升Boosting:權重賦予每個訓練元組,迭代地學習k個分類器,前一個學習后更新權重再開始后一個學習。

? 隨機森林是Bagging的案例,Adaboost是Boosting的案例。

提高準確率除了在模型上下功夫意外,對樣本也是有研究的,通過提高類不平衡數據可提高類別準確率。傳統的分類算法旨在最小化分類誤差。提高不平衡數據分類準確率的方法包括:過抽樣、欠抽樣、閾值移動、組合技術。

8.7?小結

1)分類是一種數據分析形式,它提取描述數據類的模型。分類器或分類模型預測類別標號。數值預測建立連續值函數模型。分類和數值預測是兩類主要的預測問題。

2)決策樹歸納是一種自頂向下遞歸樹歸納算法,它使用一種屬性選擇度量為樹的每個非樹葉結點選擇屬性測試。ID3、C4.5和CART是這個算法的例子,他們使用不同的屬性選擇度量。樹剪枝是算法試圖通過剪去反映數據中噪聲的分枝,提高準確率。早起的決策樹算法通常假定數據是駐留內存的,已經為可伸縮性的數歸納提出了一些可伸縮算法,如Rainforest。

3)樸素貝葉斯基于后驗概率的貝葉斯定力,它假定類條件獨立,即一個屬性值對給定類的影響獨立于其他屬性的值。

4)基于規則的分類器使用IT-THEN規則進行分類。規則可以從決策樹中提取,或者使用順序覆蓋算法直接由訓練數據產生。

5)混淆矩陣可以用來評估分類器的質量。對于兩類問題,它顯示真正例、真負例、假正例、假負例。評估分類器預測能力的度量包括準確率、靈敏度(召回率)、特效性、精度、F等。當感興趣的主類占少數時,過分依賴準確率度量可能受騙。

6)分類器的構造和評估需要把標記的數據集劃分為訓練集和驗證集。保持、隨機抽樣、交叉驗證和自助法都用于這種劃分的典型方法。

7)顯著性檢驗和ROC曲線對于模型選擇是有用的。顯著性檢驗可以用來評估兩個分類器準確率的差別是否出于偶然。ROC曲線繪制一個或多個分類器的真正例率(或靈敏性)與假正例率(或1-specificity)。

8)組合方法可以通過學習和組合一系列個體(基)分類器模型提高總體準確率。裝袋、提升和隨機森林是流行的組合方法。

9)當感興趣的主類只有少量元組代表時就會出現類不平衡問題。處理這一問題的策略包括過抽樣、欠抽樣、閾值移動和組合技術。

?

總結

以上是生活随笔為你收集整理的【数据挖掘笔记八】分类:基本概念的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。