當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘导论读书笔记3--分类

發(fā)布時(shí)間：2025/4/5 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘导论读书笔记3--分类小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.分類的基本概念

分類任務(wù)就是通過學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù)f，把每個(gè)屬性集x映射到一個(gè)預(yù)先定義的類標(biāo)號(hào)y

目標(biāo)函數(shù)也稱為分類模型。

2. 解決分類問題的一般方法：

決策樹分類法

基于規(guī)則的分類法

神經(jīng)網(wǎng)絡(luò)

支持向量機(jī)

樸素貝葉斯分類法

3.決策樹歸納

通常采用貪心策略，在選擇劃分?jǐn)?shù)據(jù)的屬性時(shí)，采用一系列局部最優(yōu)決策來構(gòu)造決策樹，hunt算法就是一種這樣的算法。

Hunt算法是許多決策樹算法的基礎(chǔ)，包括ID3,C4.5，CART等

決策樹歸納的設(shè)計(jì)問題

? ?如何分裂訓(xùn)練記錄？選擇最佳劃分的度量，增益是一種可以用來確定劃分效果的標(biāo)準(zhǔn)。信息增益--信息熵的差

? ?如何停止分裂過程

4.模型的過分?jǐn)M合

分類模型的誤差大致分為兩種：訓(xùn)練誤差和泛化誤差。

訓(xùn)練誤差也稱為再代入誤差或表現(xiàn)誤差，是在訓(xùn)練記錄上誤分類樣本比例

泛化誤差是模型在未知記錄上的期望誤差

模型擬合不足：當(dāng)決策樹很少時(shí)，訓(xùn)練和檢驗(yàn)誤差都很大。出現(xiàn)擬合不足的原因是模型尚未學(xué)習(xí)到數(shù)據(jù)的真實(shí)結(jié)構(gòu)，因此模型在訓(xùn)練集和檢驗(yàn)集上的性能都很差。

模型過分?jǐn)M合：隨著決策樹中節(jié)點(diǎn)數(shù)的增加，模型的訓(xùn)練誤差和檢驗(yàn)誤差都隨之降低，然而，一旦樹的規(guī)模變的很大，即使訓(xùn)練誤差還在繼續(xù)降低，但是檢驗(yàn)誤差開始增大。

造成模型過分?jǐn)M合的因素

? ?噪聲導(dǎo)致的過分?jǐn)M合

? ?缺乏代表性樣本導(dǎo)致的過分?jǐn)M合

泛化誤差估計(jì)

? ?使用再代入估計(jì)

? ?結(jié)合模型復(fù)雜度：歐卡姆剃刀

? ?估計(jì)統(tǒng)計(jì)上界

? ?使用確認(rèn)集

5.評估分類器的性能

? ? 保持方法

? ? 隨機(jī)二次抽樣

? ?交叉驗(yàn)證

? ?自助法bootstrap

6.比較分類器的方法

? ?估計(jì)準(zhǔn)確度的置信區(qū)間

? 比較兩個(gè)模型的性能

? 比較兩種分類法的性能

轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/9667573.html

以上是生活随笔為你收集整理的数据挖掘导论读书笔记3--分类的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。