论文笔记:Integrating Classification and Association Rule Mining (即,CBA算法介绍)
1998 KDD
0 摘要
????????分類規(guī)則挖掘旨在發(fā)現(xiàn)數(shù)據(jù)庫中的一小組規(guī)則,形成一個(gè)準(zhǔn)確的分類器。 關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)數(shù)據(jù)庫中存在的所有滿足最小支持度和最小置信度約束的規(guī)則。 對于關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)的目標(biāo)不是預(yù)先確定的,而對于分類規(guī)則挖掘,則只有一個(gè)預(yù)先確定的目標(biāo)。
????????在本文中,我們建議整合這兩種挖掘技術(shù)。 集成是通過專注于挖掘關(guān)聯(lián)規(guī)則的特殊子集來完成的,稱為類關(guān)聯(lián)規(guī)則 (CAR)。 還給出了一種基于發(fā)現(xiàn)的 CAR 集構(gòu)建分類器的有效算法。
???????? 實(shí)驗(yàn)結(jié)果表明,以這種方式構(gòu)建的分類器通常比最先進(jìn)的分類系統(tǒng) C4.5 產(chǎn)生的分類器更準(zhǔn)確。 此外,這種集成有助于解決當(dāng)前分類系統(tǒng)中存在的許多問題。
1 introduction
????????集成是通過關(guān)注一個(gè)特殊的關(guān)聯(lián)規(guī)則子集來完成的,該子集的右側(cè)僅限于分類類屬性。 我們將此規(guī)則子集稱為類關(guān)聯(lián)規(guī)則 (CAR)。
????????現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘算法(Agrawal 和 Srikant 1994)適用于挖掘滿足最小支持度和最小置信度約束的所有 CAR。
????????關(guān)聯(lián)規(guī)則(Association Rules)筆記_UQI-LIUWJ的博客-CSDN博客
????????這種適應(yīng)是必要的,主要有兩個(gè)原因:
? ? ? ? 1)在關(guān)聯(lián)規(guī)則(Apriori算法中),并沒有很多的關(guān)聯(lián)(associations)。但是在分類問題中,我們有很多的關(guān)聯(lián)數(shù)據(jù)。如果不使用CAR的話,挖掘所有的關(guān)聯(lián)規(guī)則,會導(dǎo)致計(jì)算量爆炸。
? ? ? ? 2)分類數(shù)據(jù)集通常包含許多連續(xù)(或數(shù)字)屬性。 挖掘具有連續(xù)屬性的關(guān)聯(lián)規(guī)則仍然是一個(gè)主要的研究問題。 我們的適應(yīng)涉及基于分類預(yù)定類目標(biāo)離散化連續(xù)屬性。 為此,有許多很好的離散化算法可以使用
我們提出的CAR數(shù)據(jù)挖掘包括了三步:
1)離散化連續(xù)的屬性(如果需要的話)
2)生成所有的類關(guān)聯(lián)規(guī)則
3)基于CAR,建立一個(gè)分類器
2 問題定義
????????我們提出的框架假設(shè)數(shù)據(jù)集是一個(gè)正常的關(guān)系表,它由 l 個(gè)不同的屬性描述的 N 個(gè)案例組成。 這 N 個(gè)案例已被分類為 q 個(gè)已知類別。 屬性可以是分類(或離散)或連續(xù)(或數(shù)字)屬性。
????????在這項(xiàng)工作中,我們統(tǒng)一對待所有屬性。 對于分類屬性,所有可能的值都映射到一組連續(xù)的正整數(shù)。 對于連續(xù)屬性,其取值范圍被離散化為區(qū)間,區(qū)間也映射為連續(xù)的正整數(shù)。
????????通過這些映射,我們可以將數(shù)據(jù)案例視為一組(屬性、整數(shù)-值)對和一個(gè)類標(biāo)簽。 我們稱每個(gè)(屬性,整數(shù)值)對為一個(gè)項(xiàng)目item。?
? ? ? ?
????????令D是數(shù)據(jù)集,I是數(shù)據(jù)集里面所有的條目,Y是類標(biāo)簽的集合。
? ? ? ? 當(dāng)時(shí),我們稱一個(gè)一個(gè)數(shù)據(jù)案例d∈D 包含 條目的一個(gè)子集
? ? ? ?
???????? 一個(gè)類關(guān)聯(lián)規(guī)則(CAR)是一個(gè)如下格式的關(guān)聯(lián)規(guī)則,其中
? ? ? ?如果在D中包含?X的數(shù)據(jù)案例中,c%的案例被標(biāo)記為類別y,那么我們稱 D中的規(guī)則X->y有著c的置信度(confidence)。
? ? ? ? 如果在D中,s%的案例包含X,同時(shí)被標(biāo)記為類別y,那么那么我們稱 D中的規(guī)則X->y有著s的支持度(support)。
? ? ? ? 我們的目標(biāo)是:
(1)生成CAR的完整集合,這個(gè)集合滿足最小支持度(minsup)以及最小置信度(minconf)
(2)建立一個(gè)基于CAR的分類器
????????
?3 模型整體框架
????????整體的算法被稱為CBA算法(Classification Based on Associations)。它包含了兩個(gè)部分:一個(gè)規(guī)則生成器(CBA-RG),這個(gè)基于Apriori 算法,來發(fā)掘關(guān)聯(lián)規(guī)則;一個(gè)分類器(CBA-CB)
3.1 CBA-RG的基本概念
? ? ? ? CBA-RG的基本操作是找到所有超過最小支持度的規(guī)則項(xiàng)(ruleitem)。
? ? ? ? 一個(gè)規(guī)則項(xiàng)是一個(gè)如下的結(jié)構(gòu)<condset,y>,其中condset是一個(gè)items集合,y∈Y是一個(gè)類別標(biāo)簽。
? ? ? ? condset的支持度計(jì)數(shù)(support count)是D中包含condset的數(shù)量?!居涀鱟ondsupCount】
? ? ? ? 規(guī)則項(xiàng)的支持度計(jì)數(shù)(是D中包含condset,同時(shí)是被標(biāo)記為y的數(shù)量?!居涀鱮ulesupCount】
? ? ? ? 規(guī)則項(xiàng)的支持度是
? ? ? ? 規(guī)則項(xiàng)的置信度是
滿足最小支持度的規(guī)則項(xiàng)被稱為頻繁規(guī)則項(xiàng)(frequent ruleitem);否則則是不平凡規(guī)則項(xiàng)。
?舉個(gè)例子,對于如下的規(guī)則項(xiàng):
(表示屬性A為1,屬性B為1的時(shí)候,類別是1)
????????如果condset的支持度計(jì)數(shù)是3,規(guī)則項(xiàng)的支持度計(jì)數(shù)是2,|D|=10.
? ? ? ? 那么規(guī)則項(xiàng)的支持度是20%,置信度是67%
????????對于有著相同condset的規(guī)則項(xiàng),有著最高置信度的規(guī)則項(xiàng)被選擇為可能規(guī)則(possible rule,PR),我們就用這個(gè)代表ruleitems
? ? ? ? ?如果不止一個(gè)ruleitem有著相同的最高置信度,那么我們隨機(jī)選擇一個(gè)ruleitem作為PR
? ? ? ? 滿足最小置信的規(guī)則,我們稱之為精準(zhǔn)
? ? ? ? 最終的CAR會包含所有又頻繁又精準(zhǔn)的PR(即同時(shí)滿足最小置信度+最小支持度)
3.2 CBA-RG算法
????????CBA-RG 算法通過對數(shù)據(jù)進(jìn)行多次傳遞來生成所有頻繁規(guī)則項(xiàng)。
????????在第一遍中,它計(jì)算單個(gè)規(guī)則項(xiàng)的支持度并確定它是否是頻繁的。
????????在隨后的每一次傳遞中,它都從在前一次傳遞中發(fā)現(xiàn)頻繁的規(guī)則項(xiàng)的種子集開始。
???????? 它使用這個(gè)種子集來生成新的可能頻繁出現(xiàn)的規(guī)則項(xiàng),稱為候選規(guī)則項(xiàng)。 這些候選規(guī)則項(xiàng)的實(shí)際支持度是在數(shù)據(jù)傳遞期間計(jì)算的。
????????在傳遞結(jié)束時(shí),它確定哪些候選規(guī)則項(xiàng)實(shí)際上是頻繁的。 從這組頻繁規(guī)則項(xiàng)中,它生成規(guī)則 (CAR)。
? ? ? ? 【有點(diǎn)類似于Aprori】
? ? ? ? 令k-ruleitem表示一個(gè)ruleitem,其中它的condset有k個(gè)條目
? ? ? ? 令Fk表示頻繁k-ruleitem的集合。其中的每個(gè)元素又是如下的格式:
? ? ? ? 令Ck是候選k-ruleitems的集合
? ? ? ? 于是CBA-RG的算法如下:
3.2.1 舉例說明(非論文內(nèi)容)
?源數(shù)據(jù)集:
第一步:選取所有的1-ruleitems,然后把支持度小于minsup的去掉
這里枚舉所有的屬性+l類別對,然后一一篩選
?表示 屬性A為e的一共有4個(gè),然后屬性A為e的情況下,類別C為y的一共有3個(gè)
上面的這些時(shí)已經(jīng)把支持度小的去掉了(比如<({(A,e)},4),((C,n),1)>
第二步
先找所有的候選集,(將兩個(gè)分到的類一樣的k-1 ruleitems 合并)
?然后對于這些候選集,計(jì)算他們的支持度,挑選出比最小支持度大的那些項(xiàng)集
最后
合并第一pass和第二pass得到的頻繁項(xiàng)集
?
3.3.2?剪枝CAR舉例:
去掉那些置信度比最小置信度還小的項(xiàng)集
?3.3 CBA-CB
????????本節(jié)介紹使用 CAR(或 prCAR)構(gòu)建分類器的 CBA-CB 算法。 要從整個(gè)規(guī)則集中生成最佳分類器,將涉及在訓(xùn)練數(shù)據(jù)上評估其所有可能的子集,并選擇具有正確規(guī)則序列的子集,該子集給出的錯(cuò)誤數(shù)最少。 有2^m這樣的子集,其中m是規(guī)則的數(shù)量,可以超過10,000,更不用說不同的規(guī)則序列了。
???????? 這顯然是不可行的。 我們提出的算法是一種啟發(fā)式算法。 但是,與 C4.5 構(gòu)建的分類器相比,它構(gòu)建的分類器性能非常好。 在介紹算法之前,讓我們定義生成規(guī)則的排序規(guī)則。 這用于為我們的分類器選擇規(guī)則。
? ? ? ? 給定兩個(gè)規(guī)則,的條件是:
? ? ? ? 1)ri的置信度大于rj的置信度
? ? ? ? 2)如果置信度一樣的話,ri的支持度大于rj的支持度
? ? ? ? 3)如果都一樣的話,ri比rj先生成出來
????????令R是一套生成的規(guī)則(剪枝過的或者沒有剪枝的),D是訓(xùn)練數(shù)據(jù)。算法的基本思想是在R中選擇一組高優(yōu)先級規(guī)則來覆蓋D。 分類器的格式如下:
?????????
????????
????????在對未見案例進(jìn)行分類時(shí),滿足該案例的第一個(gè)規(guī)則將對其進(jìn)行分類。 如果沒有適用于這種情況的規(guī)則,它將采用默認(rèn)類。 用于構(gòu)建此類分類器的算法(稱為 M1)的原始版本包含三個(gè)步驟:? 【M1適合小的數(shù)據(jù)集】
?
????????該算法滿足兩個(gè)主要條件:
????????條件 1. 每個(gè)訓(xùn)練案例都被覆蓋該案例的規(guī)則中具有最高優(yōu)先級的規(guī)則覆蓋。 這是因?yàn)樵诘?1 行中完成了排序。
????????條件 2. C 中的每條規(guī)則在選擇時(shí)都正確分類了至少一個(gè)剩余的訓(xùn)練案例。 這是由于第 5-7 行
?????????這種算法很簡單,但效率低下,尤其是當(dāng)數(shù)據(jù)庫不常駐主存時(shí),因?yàn)樗枰啻伪闅v數(shù)據(jù)庫。 ?
舉例說明: (源論文沒有)
?1 先排序 rule的順序是 5 1 3 6 2 4
?2 按照rule的順序,進(jìn)行CBA,維護(hù)一個(gè)這樣的表格
| 當(dāng)前考慮規(guī)則號 | 當(dāng)前規(guī)則涉及的rule_item (即 temp) | 這些rule_item里面分類正確的數(shù)量 | 這些rule_item里面分類錯(cuò)誤的數(shù)量 | 剩余item的默認(rèn)分類(取多的那個(gè)) | 在當(dāng)前分類方式下,總的錯(cuò)誤數(shù) | 剩余未考慮的rule_item |
| 5 | (7) (8) | 2 | 0 | y | 3【(6) (9)(10)錯(cuò)誤】 | (1)(2)(3)(4)(5)(6)(9)(10) |
| 1 | (1)(2)(3)(9) | 3 | 1 【(9)錯(cuò)誤】 | y | 3【(6)(9)(10)錯(cuò)誤】 | (4)(5)(6)(10) |
| n | 3 【(4)(5)(9)錯(cuò)誤】 | (4)(5)(6)(10) | ||||
| 上面無論默認(rèn)值是y還是n,總錯(cuò)誤數(shù)量都是一樣的,所以隨機(jī)選擇一個(gè),作為default_class | ||||||
| 3 | / | / | / | / | / | (4)(5)(6)(10) |
| 6 | (4)(5)(6) | 2 | 1 【(6)錯(cuò)誤】 | n | 2 【(6)(9)錯(cuò)誤】 | (10) |
| 2 | / | / | / | / | / | (10) |
| 4 | (10) | 0 | 1 【10錯(cuò)誤】 | / | 3 【(6)(9)(10)錯(cuò)誤】 | / |
?我們最小的錯(cuò)誤數(shù)是在考慮(6)的時(shí)候,所以最終的分類器由規(guī)則(5)(1)(6)組成
????????下面,我們展示了算法的改進(jìn)版本(稱為 M2),其中只對 D 進(jìn)行了略多于一次的傳遞。關(guān)鍵點(diǎn)是,不是對每個(gè)規(guī)則的剩余數(shù)據(jù)(在 M1 中)進(jìn)行一次傳遞,我們 現(xiàn)在在 R 中找到覆蓋每種情況的最佳規(guī)則。 M2由三個(gè)階段組成 【M2適合大的數(shù)據(jù)集】
階段1:? ? ??
? ?對于D中的每一個(gè)條目d,我們找到正確分類d的最高優(yōu)先級的規(guī)則cRule和錯(cuò)誤分類d的最高優(yōu)先級的規(guī)則wRule。
? ? ? ? 如果那么條目d將是由cRule覆蓋。
? ? ? ? 如果?那么可能就會更復(fù)雜一點(diǎn),因?yàn)槲覀儾恢纖Rule和cRule中間的那一個(gè)會最終覆蓋d?
? ? ? ? 為了決定這個(gè),對于每一個(gè)的d,我們維護(hù)一個(gè)數(shù)據(jù)結(jié)構(gòu):?<dID, y, cRule, wRule>? 。其中dID是d的id,y是d的類別。
? ? ? ? 令A(yù)表示<dID, y, cRule, wRule>? 的集合
? ? ? ? U是所有cRules的集合
? ? ? ? Q是所有滿足的cRules的集合
?舉例
還是這個(gè)例子
與M1不同的是,我們需要不需要按照rule遍歷,而是按照rule_item遍歷。
?1 先排序 rule的順序是 5 1 3 6 2 4
2 然后也維護(hù)一張表
| 當(dāng)前rule_item (A,B,C) | 可以分類當(dāng)前rule_item的規(guī)則(按照從大到小的順序) | 正確分類當(dāng)前rule_item的、擁有最高優(yōu)先級的規(guī)則cRule | 錯(cuò)誤分類當(dāng)前rule_item的、擁有最高優(yōu)先級的規(guī)則wRule | U,所有cRules的集合 | Q, 滿足的cRules的集合 | A,不滿足的部分組成的信息 |
| (e,p,y) 1 | 1,3 | 1 | / | 1?? | 1? | / |
| (e,p,y) 2 | 1,3 | 1 | / | 1?? | 1? | / |
| (e,q,y) 3 | 1,4 | 1 | / | 1 | 1 | / |
| (g,q,y) 4 | 6,2,4 | 6 | 2 | 1,6 | 1,6 | / |
| (g,q,y) 5 | 6,2,4 | 6 | 2 | 1,6 | 1,6 | / |
| (g,q,n) 6 | 6,2,4 | 2 | 6 | 1,6,2 | 1,6 | (6,n,2,6) |
| (g,w,n) 7 | 5,2 | 5 | / | 1,6,2,5 | 1,6,5 | (6,n,2,6) |
| (g,w,n) 8? | 5,2 | 5 | / | 1,6,2,5 | 1,6,5 | (6,n,2,6) |
| (e,p,n) 9? | 1,3 | / | 1 | 1,6,2,5 | 1,6,5 | (6,n,2,6), (9,n,null,1) |
| (f,q,n) 10 | 4 | / | 4 | 1,6,2,5 | 1,6,5 | (6,n,2,6), (9,n,null,1), (10,n,null,4) |
?步驟2
舉例(接著stage1)
A中有:(6,n,2,6),(9,n,null,1),(10,n,null,4)
U中有:1,6,2,5?
首先看(6,n,2,6):【(g,q,n)】
? ? ? ???wRule = 6 is marked?
????????????????A. 2.classCasesCovered[n] -- = 0 ????????????????B. 6.classCasesCovered[n] ++ = 1 ? ? ? ? (相當(dāng)于使用wRule代替cRule 分類rule_item(6))然后看(9,n,null,1):【(e,p,n)】
????????wRule = 1 is marked
????????????????A. 1.classCasesCovered[n] ++ = 1 ? ? ? ? ? ? ? ? (相當(dāng)于原本沒有規(guī)則可以覆蓋rule_item(9),現(xiàn)在用規(guī)則覆蓋之) 最后看(10,n,null,4):【(f,q,n)】 wRule = 4 is not marked ????????wSet = {1,6,2,5}? (所有錯(cuò)誤分類rule_item(10),且優(yōu)先級比NULL大的U中的規(guī)則)? 這幾個(gè)的.replace() 為<Null,10,n>? ? ? 返回的Q為1,6,5,4?舉例:(接著stage 2)
Classes: 5 Y + 5 N ruleErrors = 0 Q = 5,1,6,4 (排序) 首先看規(guī)則5: ? ? ? ? 不進(jìn)入循環(huán) ? ? ? ? ruleErrors=0 ? ? ? ? 此時(shí)的classDistr 為 5Y+3N (5已經(jīng)成功分類了兩個(gè)n【7,8】) ? ? ? ? defaultClass=Y ????????defaultError=3 ? ? ? ? totalErrors=3 ? ? ? ? C=<5,Y,3> 然后看規(guī)則1: 不進(jìn)入循環(huán) ????????ruleErrors = 1 ????????classDistr = 2 Y + 2?N (1成功分類三個(gè)Y 【1,2,3】,錯(cuò)誤一個(gè)【9】) ? ? ? ? defaultClass=N or Y ? ? ? ? defaultErrors=2 ? ? ? ? totalErrirs=4 ? ? ? ? C=<5,Y,3>,<1,N,3> 然后是規(guī)則6: 不進(jìn)入循環(huán) ruleErrors=2 (規(guī)則1的一個(gè)+規(guī)則6的一個(gè)) classDistr=N defaultClass=N defaultError=0 totalErrors=2 C=<5,Y,3>,<1,N,3>,<6,N,2> 最后是規(guī)則4: 不進(jìn)入循環(huán) ruleErrors=3(規(guī)則1的一個(gè),規(guī)則6的一個(gè),規(guī)則4的一個(gè)) / totalErrors=3 C=<5,Y,3>,<1,N,3>,<6,N,2>,<4,/,3> 所以最后的是<5,Y,3>,<1,N,3>,<6,N,2>,和M1的一樣?4 實(shí)驗(yàn)部分
?在實(shí)驗(yàn)中,最小置信度被設(shè)置為50%
而對于最小支持度,這是一個(gè)很復(fù)雜的設(shè)定,最小支持度對于分類器的質(zhì)量有著很強(qiáng)的作用。如果最小支持度被設(shè)置的很高,那么有些可取的揮著因?yàn)闆]有達(dá)到最小支持度的限制而被丟棄,這會導(dǎo)致CAR效果不佳。在我們的實(shí)驗(yàn)中,我們設(shè)置最小支持度為1%
與此同時(shí),我們也設(shè)定了總候選規(guī)則的數(shù)量上限,80000。但是,在后面我們進(jìn)行實(shí)驗(yàn)的26個(gè)數(shù)據(jù)集中,16個(gè)無法在80000的限制內(nèi)完成,這說明分類數(shù)據(jù)通常有著很大數(shù)量的關(guān)聯(lián)
?
?我們說一下表格某幾列的含義:
第二列:它顯示了使用原始數(shù)據(jù)集(即沒有離散化)進(jìn)行的十次完整的 10 倍交叉驗(yàn)證中 C4.5rules 的平均錯(cuò)誤率。 我們沒有展示 C4.5 樹的詳細(xì)結(jié)果,因?yàn)樗?26 個(gè)數(shù)據(jù)集上的平均錯(cuò)誤率更高
第三列:它顯示了離散化后 C4.5 規(guī)則的平均錯(cuò)誤率。 此處不使用 C4.5 樹的錯(cuò)誤率,因?yàn)槠淦骄e(cuò)誤率較高。
第四列:它給出了使用我們的算法構(gòu)建的分類器的平均錯(cuò)誤率,在十次交叉驗(yàn)證中 minsup = 1%,同時(shí)使用 CAR 和不頻繁規(guī)則(滿足 minconf 的,但是因?yàn)椴粷M足最小支持度而被丟棄的規(guī)則)。 我們使用不頻繁的規(guī)則是因?yàn)槲覀兿肟纯此鼈兪欠裼绊懛诸惥取?第一個(gè)值是使用規(guī)則生成時(shí)未剪枝的規(guī)則構(gòu)建的分類器的錯(cuò)誤率,第二個(gè)值是規(guī)則生成時(shí)使用未剪枝的規(guī)則構(gòu)建的分類器的錯(cuò)誤率。
?第五列:它顯示了在我們的分類器構(gòu)建中僅使用 CAR 的錯(cuò)誤率,在規(guī)則生成中沒有或有剪枝(即 prCAR)。
????????從這 26 個(gè)數(shù)據(jù)集中可以清楚地看出,CBA 產(chǎn)生了更準(zhǔn)確的分類器。 平均而言,錯(cuò)誤率從 C4.5 規(guī)則(無離散化)的 16.7% 降低到 CBA 的 15.6-15.8%。 此外,我們的系統(tǒng)在 26 個(gè)數(shù)據(jù)集中的 16 個(gè)數(shù)據(jù)集上優(yōu)于 C4.5 規(guī)則。 我們還觀察到,在沒有或有剪枝的情況下,最終分類器的準(zhǔn)確性幾乎相同。 因此,那些 prCAR(剪枝后)足以構(gòu)建準(zhǔn)確的分類器。 請注意,與離散化后的 C4.5 規(guī)則的錯(cuò)誤率 (17.1) 相比,CBA 更加優(yōu)越。
第六列:它給出了每次交叉驗(yàn)證中由算法 CBA-RG 生成的規(guī)則的平均數(shù)量。 第一個(gè)值是 CAR 的數(shù)量。 第二個(gè)值是 prCAR 的數(shù)量(修剪后)。 我們看到修剪后剩下的規(guī)則數(shù)量要少得多。
第七列:它給出了在每次交叉驗(yàn)證中生成規(guī)則所需的平均時(shí)間。 第一個(gè)值是不進(jìn)行修剪時(shí)所用的時(shí)間。 第二個(gè)值是使用修剪時(shí)所用的時(shí)間。 通過修剪,算法 CBA-RG 的運(yùn)行速度只會稍微慢一些。
第八列:它顯示了僅使用 prCAR 構(gòu)建每個(gè)分類器所需的平均時(shí)間。 第一個(gè)值是方法1(M1)的運(yùn)行時(shí)間,第二個(gè)值是方法2(M2)的運(yùn)行時(shí)間。 我們看到 M2 比 M1 更有效率。
第九列:它給出了 CBA-CB 使用 prCAR 構(gòu)建的分類器中規(guī)則的平均數(shù)量。 我們的分類器中的規(guī)則通常比 C4.5 生成的規(guī)則多(此處未顯示)。 但這不是問題,因?yàn)檫@些規(guī)則僅用于對未來案例進(jìn)行分類。 可以在 CAR(或 prCAR)中找到易于理解和有用的規(guī)則。 這些規(guī)則可能會或可能不會由 C4.5 生成,因?yàn)?C4.5 不會生成所有規(guī)則。
下面,我們總結(jié)了另外兩個(gè)重要的結(jié)果。 ·
????????雖然我們無法使用 80,000 的限制在 26 個(gè)數(shù)據(jù)集中的 16 個(gè)中找到所有規(guī)則,但使用發(fā)現(xiàn)的規(guī)則構(gòu)建的分類器已經(jīng)非常準(zhǔn)確。 事實(shí)上,當(dāng) 26 個(gè)數(shù)據(jù)集中的限制達(dá)到 60,000 時(shí)(我們已經(jīng)嘗試了許多不同的限制),生成的分類器的準(zhǔn)確性開始穩(wěn)定。 繼續(xù)進(jìn)行只會生成具有許多難以理解和難以使用的條件的規(guī)則。 ·
???????? 我們還使用磁盤而不是主內(nèi)存中的數(shù)據(jù)集運(yùn)行CBA算法,并將所有數(shù)據(jù)集的案例數(shù)增加了32倍(最大數(shù)據(jù)集達(dá)到160,000個(gè)案例)。
總結(jié)
以上是生活随笔為你收集整理的论文笔记:Integrating Classification and Association Rule Mining (即,CBA算法介绍)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习笔记:FLOPs
- 下一篇: 文巾解题455. 分发饼干