日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘导论读书笔记3--分类

發(fā)布時(shí)間:2025/4/5 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘导论读书笔记3--分类 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.分類的基本概念

分類任務(wù)就是通過學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù)f,把每個(gè)屬性集x映射到一個(gè)預(yù)先定義的類標(biāo)號(hào)y

目標(biāo)函數(shù)也稱為分類模型。

2. 解決分類問題的一般方法:

決策樹分類法

基于規(guī)則的分類法

神經(jīng)網(wǎng)絡(luò)

支持向量機(jī)

樸素貝葉斯分類法

3.決策樹歸納

通常采用貪心策略,在選擇劃分?jǐn)?shù)據(jù)的屬性時(shí),采用一系列局部最優(yōu)決策來構(gòu)造決策樹,hunt算法就是一種這樣的算法。

Hunt算法是許多決策樹算法的基礎(chǔ),包括ID3,C4.5,CART等

決策樹歸納的設(shè)計(jì)問題

? ?如何分裂訓(xùn)練記錄?選擇最佳劃分的度量,增益是一種可以用來確定劃分效果的標(biāo)準(zhǔn)。信息增益--信息熵的差

? ?如何停止分裂過程

4.模型的過分?jǐn)M合

分類模型的誤差大致分為兩種:訓(xùn)練誤差和泛化誤差。

訓(xùn)練誤差也稱為再代入誤差或表現(xiàn)誤差,是在訓(xùn)練記錄上誤分類樣本比例

泛化誤差是模型在未知記錄上的期望誤差

模型擬合不足:當(dāng)決策樹很少時(shí),訓(xùn)練和檢驗(yàn)誤差都很大。出現(xiàn)擬合不足的原因是模型尚未學(xué)習(xí)到數(shù)據(jù)的真實(shí)結(jié)構(gòu),因此模型在訓(xùn)練集和檢驗(yàn)集上的性能都很差。

模型過分?jǐn)M合:隨著決策樹中節(jié)點(diǎn)數(shù)的增加,模型的訓(xùn)練誤差和檢驗(yàn)誤差都隨之降低,然而,一旦樹的規(guī)模變的很大,即使訓(xùn)練誤差還在繼續(xù)降低,但是檢驗(yàn)誤差開始增大。

造成模型過分?jǐn)M合的因素

? ?噪聲導(dǎo)致的過分?jǐn)M合

? ?缺乏代表性樣本導(dǎo)致的過分?jǐn)M合

泛化誤差估計(jì)

? ?使用再代入估計(jì)

? ?結(jié)合模型復(fù)雜度 :歐卡姆剃刀

? ?估計(jì)統(tǒng)計(jì)上界

? ?使用確認(rèn)集

5.評估分類器的性能

? ? 保持方法

? ? 隨機(jī)二次抽樣

? ?交叉驗(yàn)證

? ?自助法bootstrap

6.比較分類器的方法

? ?估計(jì)準(zhǔn)確度的置信區(qū)間

? 比較兩個(gè)模型的性能

? 比較兩種分類法的性能

?

轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/9667573.html

總結(jié)

以上是生活随笔為你收集整理的数据挖掘导论读书笔记3--分类的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。