分类算法的比较准则
不同的分類方法有不同的特性,側(cè)重于不同的數(shù)據(jù)集,對(duì)于同一個(gè)數(shù)據(jù)集不同的分類方法也會(huì)產(chǎn)生不同的分類結(jié)果。那么對(duì)于同一問題,究竟應(yīng)該采用那種方法更好呢?這一問題一般有以下五種評(píng)價(jià)方法或者叫做比較準(zhǔn)則。
1.分類精度。這是用得最多也是最為有效得一種評(píng)價(jià)尺度。對(duì)于預(yù)測(cè)型得分類任務(wù),分類精度是指元組被正確分配到其所在的類別中的個(gè)數(shù)占元組總個(gè)數(shù)的百分比。
2.分類速度。這是一個(gè)傳統(tǒng)的算法度量方法,但是計(jì)算速度是由多種因素共同決定的如所使用的機(jī)器的硬件環(huán)境,算法本身的時(shí)間復(fù)雜度,數(shù)據(jù)質(zhì)量的好壞等等。這個(gè)指標(biāo)也是一個(gè)非常非常重要的度量準(zhǔn)則,而且數(shù)據(jù)集越大該問題就越突出。
3.模型描述的簡(jiǎn)潔性和可解釋性。模型的簡(jiǎn)潔度標(biāo)準(zhǔn)也很重要,特別是對(duì)于描述型的分類任務(wù),模型描述模型越復(fù)雜,其結(jié)果就越難以理解,應(yīng)用當(dāng)然也就越困難,模型描述愈簡(jiǎn)潔,愈容易理解,則愈受歡迎??山忉屝跃褪撬诸惓鰜淼慕Y(jié)果要盡量讓人看得懂,其結(jié)果盡量以可視化的方式(如圖,表等)或規(guī)則來顯示給用戶。
4.分類模型對(duì)各種數(shù)據(jù)的適應(yīng)度。由于所分析的數(shù)據(jù)對(duì)象中經(jīng)常會(huì)存在不完整數(shù)據(jù),噪聲數(shù)據(jù),不一致數(shù)據(jù)或者數(shù)據(jù)分布是稀疏的,因此一個(gè)好的分類器需要能夠?qū)Ω鞣N類型的數(shù)據(jù)集有較強(qiáng)的適應(yīng)能力。
5.可伸縮性。可伸縮性是指分類算法對(duì)海量數(shù)據(jù)具有有效構(gòu)建模型的能力。具有良好可伸縮性的算法也是現(xiàn)在的一個(gè)研究熱點(diǎn),因?yàn)楝F(xiàn)存的許多方法在小數(shù)據(jù)集上的卻有非常好的表現(xiàn),但是一用到大數(shù)據(jù)集上,其表現(xiàn)就不盡人意。所以可伸縮性也是很重要的一個(gè)方面。
?
影響一個(gè)分類器錯(cuò)誤率的因素
(1)訓(xùn)練集的記錄數(shù)量。生成器要利用訓(xùn)練集進(jìn)行學(xué)習(xí),因而訓(xùn)練集越大,分類器也就越可靠。然而,訓(xùn)練集越大,生成器構(gòu)造分類器的時(shí)間也就越長(zhǎng)。錯(cuò)誤率改善情況隨訓(xùn)練集規(guī)模的增大而降低。
(2)屬性的數(shù)目。更多的屬性數(shù)目對(duì)于生成器而言意味著要計(jì)算更多的組合,使得生成器難度增大,需要的時(shí)間也更長(zhǎng)。有時(shí)隨機(jī)的關(guān)系會(huì)將生成器引入歧途,結(jié)果可能構(gòu)造出不夠準(zhǔn)確的分類器(這在技術(shù)上被稱為過分?jǐn)M合)。因此,如果我們通過常識(shí)可以確認(rèn)某個(gè)屬性與目標(biāo)無關(guān),則將它從訓(xùn)練集中移走。
(3)屬性中的信息。有時(shí)生成器不能從屬性中獲取足夠的信息來正確、低錯(cuò)誤率地預(yù)測(cè)標(biāo)簽(如試圖根據(jù)某人眼睛的顏色來決定他的收入)。加入其他的屬性(如職業(yè)、每周工作小時(shí)數(shù)和年齡),可以降低錯(cuò)誤率。
(4)待預(yù)測(cè)記錄的分布。如果待預(yù)測(cè)記錄來自不同于訓(xùn)練集中記錄的分布,那么錯(cuò)誤率有可能很高。比如如果你從包含家用轎車數(shù)據(jù)的訓(xùn)練集中構(gòu)造出分類器,那么試圖用它來對(duì)包含許多運(yùn)動(dòng)用車輛的記錄進(jìn)行分類可能沒多大用途,因?yàn)閿?shù)據(jù)屬性值的分布可能是有很大差別的。
?參考:?
?http://www.360doc.com/content/080514/01/63626_1257836.html
總結(jié)
- 上一篇: 总体参数估计概述
- 下一篇: 研究动机(Motivation)-如何写