當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

分类算法的比较准则

發(fā)布時(shí)間：2025/3/15 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了分类算法的比较准则小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

不同的分類方法有不同的特性，側(cè)重于不同的數(shù)據(jù)集，對(duì)于同一個(gè)數(shù)據(jù)集不同的分類方法也會(huì)產(chǎn)生不同的分類結(jié)果。那么對(duì)于同一問題，究竟應(yīng)該采用那種方法更好呢？這一問題一般有以下五種評(píng)價(jià)方法或者叫做比較準(zhǔn)則。

1.分類精度。這是用得最多也是最為有效得一種評(píng)價(jià)尺度。對(duì)于預(yù)測(cè)型得分類任務(wù)，分類精度是指元組被正確分配到其所在的類別中的個(gè)數(shù)占元組總個(gè)數(shù)的百分比。

2.分類速度。這是一個(gè)傳統(tǒng)的算法度量方法，但是計(jì)算速度是由多種因素共同決定的如所使用的機(jī)器的硬件環(huán)境，算法本身的時(shí)間復(fù)雜度，數(shù)據(jù)質(zhì)量的好壞等等。這個(gè)指標(biāo)也是一個(gè)非常非常重要的度量準(zhǔn)則，而且數(shù)據(jù)集越大該問題就越突出。

3.模型描述的簡(jiǎn)潔性和可解釋性。模型的簡(jiǎn)潔度標(biāo)準(zhǔn)也很重要,特別是對(duì)于描述型的分類任務(wù)，模型描述模型越復(fù)雜,其結(jié)果就越難以理解,應(yīng)用當(dāng)然也就越困難,模型描述愈簡(jiǎn)潔,愈容易理解,則愈受歡迎?？山忉屝跃褪撬诸惓鰜淼慕Y(jié)果要盡量讓人看得懂，其結(jié)果盡量以可視化的方式（如圖，表等）或規(guī)則來顯示給用戶。

4.分類模型對(duì)各種數(shù)據(jù)的適應(yīng)度。由于所分析的數(shù)據(jù)對(duì)象中經(jīng)常會(huì)存在不完整數(shù)據(jù),噪聲數(shù)據(jù)，不一致數(shù)據(jù)或者數(shù)據(jù)分布是稀疏的,因此一個(gè)好的分類器需要能夠?qū)Ω鞣N類型的數(shù)據(jù)集有較強(qiáng)的適應(yīng)能力。

5.可伸縮性。可伸縮性是指分類算法對(duì)海量數(shù)據(jù)具有有效構(gòu)建模型的能力。具有良好可伸縮性的算法也是現(xiàn)在的一個(gè)研究熱點(diǎn)，因?yàn)楝F(xiàn)存的許多方法在小數(shù)據(jù)集上的卻有非常好的表現(xiàn)，但是一用到大數(shù)據(jù)集上，其表現(xiàn)就不盡人意。所以可伸縮性也是很重要的一個(gè)方面。

影響一個(gè)分類器錯(cuò)誤率的因素

(1)訓(xùn)練集的記錄數(shù)量。生成器要利用訓(xùn)練集進(jìn)行學(xué)習(xí)，因而訓(xùn)練集越大，分類器也就越可靠。然而，訓(xùn)練集越大，生成器構(gòu)造分類器的時(shí)間也就越長(zhǎng)。錯(cuò)誤率改善情況隨訓(xùn)練集規(guī)模的增大而降低。

(2)屬性的數(shù)目。更多的屬性數(shù)目對(duì)于生成器而言意味著要計(jì)算更多的組合，使得生成器難度增大，需要的時(shí)間也更長(zhǎng)。有時(shí)隨機(jī)的關(guān)系會(huì)將生成器引入歧途，結(jié)果可能構(gòu)造出不夠準(zhǔn)確的分類器（這在技術(shù)上被稱為過分?jǐn)M合）。因此，如果我們通過常識(shí)可以確認(rèn)某個(gè)屬性與目標(biāo)無關(guān)，則將它從訓(xùn)練集中移走。

(3)屬性中的信息。有時(shí)生成器不能從屬性中獲取足夠的信息來正確、低錯(cuò)誤率地預(yù)測(cè)標(biāo)簽（如試圖根據(jù)某人眼睛的顏色來決定他的收入）。加入其他的屬性（如職業(yè)、每周工作小時(shí)數(shù)和年齡），可以降低錯(cuò)誤率。

(4)待預(yù)測(cè)記錄的分布。如果待預(yù)測(cè)記錄來自不同于訓(xùn)練集中記錄的分布，那么錯(cuò)誤率有可能很高。比如如果你從包含家用轎車數(shù)據(jù)的訓(xùn)練集中構(gòu)造出分類器，那么試圖用它來對(duì)包含許多運(yùn)動(dòng)用車輛的記錄進(jìn)行分類可能沒多大用途，因?yàn)閿?shù)據(jù)屬性值的分布可能是有很大差別的。

?參考：?

?http://www.360doc.com/content/080514/01/63626_1257836.html

總結(jié)

以上是生活随笔為你收集整理的分类算法的比较准则的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：总体参数估计概述
下一篇：研究动机(Motivation)-如何写

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

分类算法的比较准则

總結(jié)