数据挖掘导论读书笔记3--分类
1.分類的基本概念
分類任務(wù)就是通過學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù)f,把每個(gè)屬性集x映射到一個(gè)預(yù)先定義的類標(biāo)號(hào)y
目標(biāo)函數(shù)也稱為分類模型。
2. 解決分類問題的一般方法:
決策樹分類法
基于規(guī)則的分類法
神經(jīng)網(wǎng)絡(luò)
支持向量機(jī)
樸素貝葉斯分類法
3.決策樹歸納
通常采用貪心策略,在選擇劃分?jǐn)?shù)據(jù)的屬性時(shí),采用一系列局部最優(yōu)決策來構(gòu)造決策樹,hunt算法就是一種這樣的算法。
Hunt算法是許多決策樹算法的基礎(chǔ),包括ID3,C4.5,CART等
決策樹歸納的設(shè)計(jì)問題
? ?如何分裂訓(xùn)練記錄?選擇最佳劃分的度量,增益是一種可以用來確定劃分效果的標(biāo)準(zhǔn)。信息增益--信息熵的差
? ?如何停止分裂過程
4.模型的過分?jǐn)M合
分類模型的誤差大致分為兩種:訓(xùn)練誤差和泛化誤差。
訓(xùn)練誤差也稱為再代入誤差或表現(xiàn)誤差,是在訓(xùn)練記錄上誤分類樣本比例
泛化誤差是模型在未知記錄上的期望誤差
模型擬合不足:當(dāng)決策樹很少時(shí),訓(xùn)練和檢驗(yàn)誤差都很大。出現(xiàn)擬合不足的原因是模型尚未學(xué)習(xí)到數(shù)據(jù)的真實(shí)結(jié)構(gòu),因此模型在訓(xùn)練集和檢驗(yàn)集上的性能都很差。
模型過分?jǐn)M合:隨著決策樹中節(jié)點(diǎn)數(shù)的增加,模型的訓(xùn)練誤差和檢驗(yàn)誤差都隨之降低,然而,一旦樹的規(guī)模變的很大,即使訓(xùn)練誤差還在繼續(xù)降低,但是檢驗(yàn)誤差開始增大。
造成模型過分?jǐn)M合的因素
? ?噪聲導(dǎo)致的過分?jǐn)M合
? ?缺乏代表性樣本導(dǎo)致的過分?jǐn)M合
泛化誤差估計(jì)
? ?使用再代入估計(jì)
? ?結(jié)合模型復(fù)雜度 :歐卡姆剃刀
? ?估計(jì)統(tǒng)計(jì)上界
? ?使用確認(rèn)集
5.評估分類器的性能
? ? 保持方法
? ? 隨機(jī)二次抽樣
? ?交叉驗(yàn)證
? ?自助法bootstrap
6.比較分類器的方法
? ?估計(jì)準(zhǔn)確度的置信區(qū)間
? 比較兩個(gè)模型的性能
? 比較兩種分類法的性能
?
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/9667573.html
總結(jié)
以上是生活随笔為你收集整理的数据挖掘导论读书笔记3--分类的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一张图看懂新一代人工智能知识体系
- 下一篇: 数据挖掘导论读书笔记6关联分析的高级概念