當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记：Integrating Classification and Association Rule Mining （即，CBA算法介绍）

發(fā)布時(shí)間：2025/4/5 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记：Integrating Classification and Association Rule Mining （即，CBA算法介绍）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1998 KDD

0 摘要

????????分類規(guī)則挖掘旨在發(fā)現(xiàn)數(shù)據(jù)庫中的一小組規(guī)則，形成一個(gè)準(zhǔn)確的分類器。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)數(shù)據(jù)庫中存在的所有滿足最小支持度和最小置信度約束的規(guī)則。對于關(guān)聯(lián)規(guī)則挖掘，發(fā)現(xiàn)的目標(biāo)不是預(yù)先確定的，而對于分類規(guī)則挖掘，則只有一個(gè)預(yù)先確定的目標(biāo)。

????????在本文中，我們建議整合這兩種挖掘技術(shù)。集成是通過專注于挖掘關(guān)聯(lián)規(guī)則的特殊子集來完成的，稱為類關(guān)聯(lián)規(guī)則 (CAR)。還給出了一種基于發(fā)現(xiàn)的 CAR 集構(gòu)建分類器的有效算法。

???????? 實(shí)驗(yàn)結(jié)果表明，以這種方式構(gòu)建的分類器通常比最先進(jìn)的分類系統(tǒng) C4.5 產(chǎn)生的分類器更準(zhǔn)確。此外，這種集成有助于解決當(dāng)前分類系統(tǒng)中存在的許多問題。

1 introduction

????????集成是通過關(guān)注一個(gè)特殊的關(guān)聯(lián)規(guī)則子集來完成的，該子集的右側(cè)僅限于分類類屬性。我們將此規(guī)則子集稱為類關(guān)聯(lián)規(guī)則 (CAR)。

????????現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘算法（Agrawal 和 Srikant 1994）適用于挖掘滿足最小支持度和最小置信度約束的所有 CAR。

????????關(guān)聯(lián)規(guī)則（Association Rules）筆記_UQI-LIUWJ的博客-CSDN博客

????????這種適應(yīng)是必要的，主要有兩個(gè)原因：

? ? ? ? 1）在關(guān)聯(lián)規(guī)則（Apriori算法中），并沒有很多的關(guān)聯(lián)（associations）。但是在分類問題中，我們有很多的關(guān)聯(lián)數(shù)據(jù)。如果不使用CAR的話，挖掘所有的關(guān)聯(lián)規(guī)則，會導(dǎo)致計(jì)算量爆炸。

? ? ? ? 2）分類數(shù)據(jù)集通常包含許多連續(xù)（或數(shù)字）屬性。挖掘具有連續(xù)屬性的關(guān)聯(lián)規(guī)則仍然是一個(gè)主要的研究問題。我們的適應(yīng)涉及基于分類預(yù)定類目標(biāo)離散化連續(xù)屬性。為此，有許多很好的離散化算法可以使用

我們提出的CAR數(shù)據(jù)挖掘包括了三步：

1）離散化連續(xù)的屬性（如果需要的話）

2）生成所有的類關(guān)聯(lián)規(guī)則

3）基于CAR，建立一個(gè)分類器

2 問題定義

????????我們提出的框架假設(shè)數(shù)據(jù)集是一個(gè)正常的關(guān)系表，它由 l 個(gè)不同的屬性描述的 N 個(gè)案例組成。這 N 個(gè)案例已被分類為 q 個(gè)已知類別。屬性可以是分類（或離散）或連續(xù)（或數(shù)字）屬性。

????????在這項(xiàng)工作中，我們統(tǒng)一對待所有屬性。對于分類屬性，所有可能的值都映射到一組連續(xù)的正整數(shù)。對于連續(xù)屬性，其取值范圍被離散化為區(qū)間，區(qū)間也映射為連續(xù)的正整數(shù)。

????????通過這些映射，我們可以將數(shù)據(jù)案例視為一組（屬性、整數(shù)-值）對和一個(gè)類標(biāo)簽。我們稱每個(gè)（屬性，整數(shù)值）對為一個(gè)項(xiàng)目item。?

? ? ? ?

????????令D是數(shù)據(jù)集，I是數(shù)據(jù)集里面所有的條目，Y是類標(biāo)簽的集合。

? ? ? ? 當(dāng)時(shí)，我們稱一個(gè)一個(gè)數(shù)據(jù)案例d∈D 包含條目的一個(gè)子集

? ? ? ?

???????? 一個(gè)類關(guān)聯(lián)規(guī)則（CAR）是一個(gè)如下格式的關(guān)聯(lián)規(guī)則，其中

? ? ? ?如果在D中包含?X的數(shù)據(jù)案例中，c%的案例被標(biāo)記為類別y，那么我們稱 D中的規(guī)則X->y有著c的置信度（confidence）。

? ? ? ? 如果在D中，s%的案例包含X，同時(shí)被標(biāo)記為類別y，那么那么我們稱 D中的規(guī)則X->y有著s的支持度（support）。

? ? ? ? 我們的目標(biāo)是：

（1）生成CAR的完整集合，這個(gè)集合滿足最小支持度（minsup）以及最小置信度（minconf）

（2）建立一個(gè)基于CAR的分類器

????????

?3 模型整體框架

????????整體的算法被稱為CBA算法(Classification Based on Associations)。它包含了兩個(gè)部分：一個(gè)規(guī)則生成器（CBA-RG），這個(gè)基于Apriori 算法，來發(fā)掘關(guān)聯(lián)規(guī)則；一個(gè)分類器（CBA-CB）

3.1 CBA-RG的基本概念

? ? ? ? CBA-RG的基本操作是找到所有超過最小支持度的規(guī)則項(xiàng)（ruleitem）。

? ? ? ? 一個(gè)規(guī)則項(xiàng)是一個(gè)如下的結(jié)構(gòu)<condset,y>，其中condset是一個(gè)items集合，y∈Y是一個(gè)類別標(biāo)簽。

? ? ? ? condset的支持度計(jì)數(shù)（support count）是D中包含condset的數(shù)量?！居涀鱟ondsupCount】

? ? ? ? 規(guī)則項(xiàng)的支持度計(jì)數(shù)（是D中包含condset，同時(shí)是被標(biāo)記為y的數(shù)量?！居涀鱮ulesupCount】

? ? ? ? 規(guī)則項(xiàng)的支持度是

? ? ? ? 規(guī)則項(xiàng)的置信度是

滿足最小支持度的規(guī)則項(xiàng)被稱為頻繁規(guī)則項(xiàng)（frequent ruleitem）；否則則是不平凡規(guī)則項(xiàng)。

?舉個(gè)例子，對于如下的規(guī)則項(xiàng)：

（表示屬性A為1，屬性B為1的時(shí)候，類別是1）

????????如果condset的支持度計(jì)數(shù)是3，規(guī)則項(xiàng)的支持度計(jì)數(shù)是2，|D|=10.

? ? ? ? 那么規(guī)則項(xiàng)的支持度是20%，置信度是67%

????????對于有著相同condset的規(guī)則項(xiàng)，有著最高置信度的規(guī)則項(xiàng)被選擇為可能規(guī)則（possible rule,PR)，我們就用這個(gè)代表ruleitems

? ? ? ? ?如果不止一個(gè)ruleitem有著相同的最高置信度，那么我們隨機(jī)選擇一個(gè)ruleitem作為PR

? ? ? ? 滿足最小置信的規(guī)則，我們稱之為精準(zhǔn)

? ? ? ? 最終的CAR會包含所有又頻繁又精準(zhǔn)的PR（即同時(shí)滿足最小置信度+最小支持度）

3.2 CBA-RG算法

????????CBA-RG 算法通過對數(shù)據(jù)進(jìn)行多次傳遞來生成所有頻繁規(guī)則項(xiàng)。

????????在第一遍中，它計(jì)算單個(gè)規(guī)則項(xiàng)的支持度并確定它是否是頻繁的。

????????在隨后的每一次傳遞中，它都從在前一次傳遞中發(fā)現(xiàn)頻繁的規(guī)則項(xiàng)的種子集開始。

???????? 它使用這個(gè)種子集來生成新的可能頻繁出現(xiàn)的規(guī)則項(xiàng)，稱為候選規(guī)則項(xiàng)。這些候選規(guī)則項(xiàng)的實(shí)際支持度是在數(shù)據(jù)傳遞期間計(jì)算的。

????????在傳遞結(jié)束時(shí)，它確定哪些候選規(guī)則項(xiàng)實(shí)際上是頻繁的。從這組頻繁規(guī)則項(xiàng)中，它生成規(guī)則 (CAR)。

? ? ? ? 【有點(diǎn)類似于Aprori】

? ? ? ? 令k-ruleitem表示一個(gè)ruleitem，其中它的condset有k個(gè)條目

? ? ? ? 令Fk表示頻繁k-ruleitem的集合。其中的每個(gè)元素又是如下的格式：

? ? ? ? 令Ck是候選k-ruleitems的集合

? ? ? ? 于是CBA-RG的算法如下：

3.2.1 舉例說明（非論文內(nèi)容）

?源數(shù)據(jù)集：

第一步：選取所有的1-ruleitems，然后把支持度小于minsup的去掉

這里枚舉所有的屬性+l類別對，然后一一篩選

?表示屬性A為e的一共有4個(gè)，然后屬性A為e的情況下，類別C為y的一共有3個(gè)

上面的這些時(shí)已經(jīng)把支持度小的去掉了（比如<({(A,e)},4),((C,n),1)>

第二步

先找所有的候選集，（將兩個(gè)分到的類一樣的k-1 ruleitems 合并）

?然后對于這些候選集，計(jì)算他們的支持度，挑選出比最小支持度大的那些項(xiàng)集

最后

合并第一pass和第二pass得到的頻繁項(xiàng)集

3.3.2?剪枝CAR舉例：

去掉那些置信度比最小置信度還小的項(xiàng)集

?3.3 CBA-CB

????????本節(jié)介紹使用 CAR（或 prCAR）構(gòu)建分類器的 CBA-CB 算法。要從整個(gè)規(guī)則集中生成最佳分類器，將涉及在訓(xùn)練數(shù)據(jù)上評估其所有可能的子集，并選擇具有正確規(guī)則序列的子集，該子集給出的錯(cuò)誤數(shù)最少。有2^m這樣的子集，其中m是規(guī)則的數(shù)量，可以超過10,000，更不用說不同的規(guī)則序列了。

???????? 這顯然是不可行的。我們提出的算法是一種啟發(fā)式算法。但是，與 C4.5 構(gòu)建的分類器相比，它構(gòu)建的分類器性能非常好。在介紹算法之前，讓我們定義生成規(guī)則的排序規(guī)則。這用于為我們的分類器選擇規(guī)則。

? ? ? ? 給定兩個(gè)規(guī)則，的條件是：

? ? ? ? 1）ri的置信度大于rj的置信度

? ? ? ? 2）如果置信度一樣的話，ri的支持度大于rj的支持度

? ? ? ? 3）如果都一樣的話，ri比rj先生成出來

????????令R是一套生成的規(guī)則（剪枝過的或者沒有剪枝的），D是訓(xùn)練數(shù)據(jù)。算法的基本思想是在R中選擇一組高優(yōu)先級規(guī)則來覆蓋D。分類器的格式如下：

?????????

????????

????????在對未見案例進(jìn)行分類時(shí)，滿足該案例的第一個(gè)規(guī)則將對其進(jìn)行分類。如果沒有適用于這種情況的規(guī)則，它將采用默認(rèn)類。用于構(gòu)建此類分類器的算法（稱為 M1）的原始版本包含三個(gè)步驟：? 【M1適合小的數(shù)據(jù)集】

????????該算法滿足兩個(gè)主要條件：

????????條件 1. 每個(gè)訓(xùn)練案例都被覆蓋該案例的規(guī)則中具有最高優(yōu)先級的規(guī)則覆蓋。這是因?yàn)樵诘?1 行中完成了排序。

????????條件 2. C 中的每條規(guī)則在選擇時(shí)都正確分類了至少一個(gè)剩余的訓(xùn)練案例。這是由于第 5-7 行

?????????這種算法很簡單，但效率低下，尤其是當(dāng)數(shù)據(jù)庫不常駐主存時(shí)，因?yàn)樗枰啻伪闅v數(shù)據(jù)庫。 ?

舉例說明：（源論文沒有）

?1 先排序 rule的順序是 5 1 3 6 2 4

?2 按照rule的順序，進(jìn)行CBA，維護(hù)一個(gè)這樣的表格

當(dāng)前考慮規(guī)則號	當(dāng)前規(guī)則涉及的rule_item （即 temp）	這些rule_item里面分類正確的數(shù)量	這些rule_item里面分類錯(cuò)誤的數(shù)量	剩余item的默認(rèn)分類（取多的那個(gè)）	在當(dāng)前分類方式下，總的錯(cuò)誤數(shù)	剩余未考慮的rule_item
5	(7) (8)	2	0	y	3【(6) (9)(10)錯(cuò)誤】	(1)(2)(3)(4)(5)(6)(9)(10)
1	(1)(2)(3)(9)	3	1 【(9)錯(cuò)誤】	y	3【(6)(9)(10)錯(cuò)誤】	(4)(5)(6)(10)
				n	3 【(4)(5)(9)錯(cuò)誤】	(4)(5)(6)(10)
				上面無論默認(rèn)值是y還是n，總錯(cuò)誤數(shù)量都是一樣的，所以隨機(jī)選擇一個(gè)，作為default_class
3	/	/	/	/	/	(4)(5)(6)(10)
6	(4)(5)(6)	2	1 【(6)錯(cuò)誤】	n	2 【(6)(9)錯(cuò)誤】	(10）
2	/	/	/	/	/	(10）
4	(10)	0	1 【10錯(cuò)誤】	/	3 【(6)(9)(10)錯(cuò)誤】	/

?我們最小的錯(cuò)誤數(shù)是在考慮(6)的時(shí)候，所以最終的分類器由規(guī)則(5)(1)(6)組成

????????下面，我們展示了算法的改進(jìn)版本（稱為 M2），其中只對 D 進(jìn)行了略多于一次的傳遞。關(guān)鍵點(diǎn)是，不是對每個(gè)規(guī)則的剩余數(shù)據(jù)（在 M1 中）進(jìn)行一次傳遞，我們現(xiàn)在在 R 中找到覆蓋每種情況的最佳規(guī)則。 M2由三個(gè)階段組成【M2適合大的數(shù)據(jù)集】

階段1：? ? ??

? ?對于D中的每一個(gè)條目d，我們找到正確分類d的最高優(yōu)先級的規(guī)則cRule和錯(cuò)誤分類d的最高優(yōu)先級的規(guī)則wRule。

? ? ? ? 如果那么條目d將是由cRule覆蓋。

? ? ? ? 如果?那么可能就會更復(fù)雜一點(diǎn)，因?yàn)槲覀儾恢纖Rule和cRule中間的那一個(gè)會最終覆蓋d?

? ? ? ? 為了決定這個(gè)，對于每一個(gè)的d，我們維護(hù)一個(gè)數(shù)據(jù)結(jié)構(gòu)：?<dID, y, cRule, wRule>? 。其中dID是d的id，y是d的類別。

? ? ? ? 令A(yù)表示<dID, y, cRule, wRule>? 的集合

? ? ? ? U是所有cRules的集合

? ? ? ? Q是所有滿足的cRules的集合

?舉例

還是這個(gè)例子

與M1不同的是，我們需要不需要按照rule遍歷，而是按照rule_item遍歷。

?1 先排序 rule的順序是 5 1 3 6 2 4

2 然后也維護(hù)一張表

當(dāng)前rule_item (A,B,C)	可以分類當(dāng)前rule_item的規(guī)則（按照從大到小的順序）	正確分類當(dāng)前rule_item的、擁有最高優(yōu)先級的規(guī)則cRule	錯(cuò)誤分類當(dāng)前rule_item的、擁有最高優(yōu)先級的規(guī)則wRule	U，所有cRules的集合	Q, 滿足的cRules的集合	A，不滿足的部分組成的信息
(e,p,y) 1	1，3	1	/	1??	1?	/
(e,p,y) 2	1，3	1	/	1??	1?	/
(e,q,y) 3	1，4	1	/	1	1	/
(g,q,y) 4	6，2，4	6	2	1，6	1，6	/
(g,q,y) 5	6，2，4	6	2	1，6	1，6	/
(g,q,n) 6	6，2，4	2	6	1，6，2	1，6	(6,n,2,6)
(g,w,n) 7	5，2	5	/	1，6，2，5	1，6，5	(6,n,2,6)
(g,w,n) 8?	5，2	5	/	1，6，2，5	1，6，5	(6,n,2,6)
(e,p,n) 9?	1，3	/	1	1，6，2，5	1，6，5	(6,n,2,6)， (9,n,null,1)
(f,q,n) 10	4	/	4	1，6，2，5	1，6，5	(6,n,2,6)， (9,n,null,1)， (10,n,null,4)

?步驟2

舉例（接著stage1）

A中有：(6,n,2,6)，(9,n,null,1)，(10,n,null,4)

U中有：1，6，2，5?

首先看(6,n,2,6)：【(g,q,n)】

? ? ? ???wRule = 6 is marked?

????????????????A. 2.classCasesCovered[n] -- = 0 ????????????????B. 6.classCasesCovered[n] ++ = 1 ? ? ? ? （相當(dāng)于使用wRule代替cRule 分類rule_item(6)）

然后看(9,n,null,1)：【(e,p,n)】

????????wRule = 1 is marked

????????????????A. 1.classCasesCovered[n] ++ = 1 ? ? ? ? ? ? ? ? （相當(dāng)于原本沒有規(guī)則可以覆蓋rule_item(9)，現(xiàn)在用規(guī)則覆蓋之）最后看(10,n,null,4)：【(f,q,n)】 wRule = 4 is not marked ????????wSet = {1,6,2,5}? （所有錯(cuò)誤分類rule_item(10)，且優(yōu)先級比NULL大的U中的規(guī)則）? 這幾個(gè)的.replace() 為<Null,10,n>? ? ? 返回的Q為1,6,5,4

?舉例：（接著stage 2）

Classes: 5 Y + 5 N ruleErrors = 0 Q = 5,1,6,4 （排序）首先看規(guī)則5： ? ? ? ? 不進(jìn)入循環(huán) ? ? ? ? ruleErrors=0 ? ? ? ? 此時(shí)的classDistr 為 5Y+3N （5已經(jīng)成功分類了兩個(gè)n【7，8】） ? ? ? ? defaultClass=Y ????????defaultError=3 ? ? ? ? totalErrors=3 ? ? ? ? C=<5,Y,3> 然后看規(guī)則1：不進(jìn)入循環(huán) ????????ruleErrors = 1 ????????classDistr = 2 Y + 2?N （1成功分類三個(gè)Y 【1，2，3】，錯(cuò)誤一個(gè)【9】） ? ? ? ? defaultClass=N or Y ? ? ? ? defaultErrors=2 ? ? ? ? totalErrirs=4 ? ? ? ? C=<5,Y,3>,<1,N,3> 然后是規(guī)則6：不進(jìn)入循環(huán) ruleErrors=2 (規(guī)則1的一個(gè)+規(guī)則6的一個(gè)） classDistr=N defaultClass=N defaultError=0 totalErrors=2 C=<5,Y,3>,<1,N,3>,<6,N,2> 最后是規(guī)則4：不進(jìn)入循環(huán) ruleErrors=3（規(guī)則1的一個(gè)，規(guī)則6的一個(gè)，規(guī)則4的一個(gè)） / totalErrors=3 C=<5,Y,3>,<1,N,3>,<6,N,2>,<4,/,3> 所以最后的是<5,Y,3>,<1,N,3>,<6,N,2>，和M1的一樣

?4 實(shí)驗(yàn)部分

?在實(shí)驗(yàn)中，最小置信度被設(shè)置為50%

而對于最小支持度，這是一個(gè)很復(fù)雜的設(shè)定，最小支持度對于分類器的質(zhì)量有著很強(qiáng)的作用。如果最小支持度被設(shè)置的很高，那么有些可取的揮著因?yàn)闆]有達(dá)到最小支持度的限制而被丟棄，這會導(dǎo)致CAR效果不佳。在我們的實(shí)驗(yàn)中，我們設(shè)置最小支持度為1%

與此同時(shí)，我們也設(shè)定了總候選規(guī)則的數(shù)量上限，80000。但是，在后面我們進(jìn)行實(shí)驗(yàn)的26個(gè)數(shù)據(jù)集中，16個(gè)無法在80000的限制內(nèi)完成，這說明分類數(shù)據(jù)通常有著很大數(shù)量的關(guān)聯(lián)

?我們說一下表格某幾列的含義：

第二列：它顯示了使用原始數(shù)據(jù)集（即沒有離散化）進(jìn)行的十次完整的 10 倍交叉驗(yàn)證中 C4.5rules 的平均錯(cuò)誤率。我們沒有展示 C4.5 樹的詳細(xì)結(jié)果，因?yàn)樗?26 個(gè)數(shù)據(jù)集上的平均錯(cuò)誤率更高

第三列：它顯示了離散化后 C4.5 規(guī)則的平均錯(cuò)誤率。此處不使用 C4.5 樹的錯(cuò)誤率，因?yàn)槠淦骄e(cuò)誤率較高。

第四列：它給出了使用我們的算法構(gòu)建的分類器的平均錯(cuò)誤率，在十次交叉驗(yàn)證中 minsup = 1%，同時(shí)使用 CAR 和不頻繁規(guī)則（滿足 minconf 的，但是因?yàn)椴粷M足最小支持度而被丟棄的規(guī)則）。我們使用不頻繁的規(guī)則是因?yàn)槲覀兿肟纯此鼈兪欠裼绊懛诸惥取?第一個(gè)值是使用規(guī)則生成時(shí)未剪枝的規(guī)則構(gòu)建的分類器的錯(cuò)誤率，第二個(gè)值是規(guī)則生成時(shí)使用未剪枝的規(guī)則構(gòu)建的分類器的錯(cuò)誤率。

?第五列：它顯示了在我們的分類器構(gòu)建中僅使用 CAR 的錯(cuò)誤率，在規(guī)則生成中沒有或有剪枝（即 prCAR）。

????????從這 26 個(gè)數(shù)據(jù)集中可以清楚地看出，CBA 產(chǎn)生了更準(zhǔn)確的分類器。平均而言，錯(cuò)誤率從 C4.5 規(guī)則（無離散化）的 16.7% 降低到 CBA 的 15.6-15.8%。此外，我們的系統(tǒng)在 26 個(gè)數(shù)據(jù)集中的 16 個(gè)數(shù)據(jù)集上優(yōu)于 C4.5 規(guī)則。我們還觀察到，在沒有或有剪枝的情況下，最終分類器的準(zhǔn)確性幾乎相同。因此，那些 prCAR（剪枝后）足以構(gòu)建準(zhǔn)確的分類器。請注意，與離散化后的 C4.5 規(guī)則的錯(cuò)誤率 (17.1) 相比，CBA 更加優(yōu)越。

第六列：它給出了每次交叉驗(yàn)證中由算法 CBA-RG 生成的規(guī)則的平均數(shù)量。第一個(gè)值是 CAR 的數(shù)量。第二個(gè)值是 prCAR 的數(shù)量（修剪后）。我們看到修剪后剩下的規(guī)則數(shù)量要少得多。

第七列：它給出了在每次交叉驗(yàn)證中生成規(guī)則所需的平均時(shí)間。第一個(gè)值是不進(jìn)行修剪時(shí)所用的時(shí)間。第二個(gè)值是使用修剪時(shí)所用的時(shí)間。通過修剪，算法 CBA-RG 的運(yùn)行速度只會稍微慢一些。

第八列：它顯示了僅使用 prCAR 構(gòu)建每個(gè)分類器所需的平均時(shí)間。第一個(gè)值是方法1（M1）的運(yùn)行時(shí)間，第二個(gè)值是方法2（M2）的運(yùn)行時(shí)間。我們看到 M2 比 M1 更有效率。

第九列：它給出了 CBA-CB 使用 prCAR 構(gòu)建的分類器中規(guī)則的平均數(shù)量。我們的分類器中的規(guī)則通常比 C4.5 生成的規(guī)則多（此處未顯示）。但這不是問題，因?yàn)檫@些規(guī)則僅用于對未來案例進(jìn)行分類。可以在 CAR（或 prCAR）中找到易于理解和有用的規(guī)則。這些規(guī)則可能會或可能不會由 C4.5 生成，因?yàn)?C4.5 不會生成所有規(guī)則。

下面，我們總結(jié)了另外兩個(gè)重要的結(jié)果。 ·

????????雖然我們無法使用 80,000 的限制在 26 個(gè)數(shù)據(jù)集中的 16 個(gè)中找到所有規(guī)則，但使用發(fā)現(xiàn)的規(guī)則構(gòu)建的分類器已經(jīng)非常準(zhǔn)確。事實(shí)上，當(dāng) 26 個(gè)數(shù)據(jù)集中的限制達(dá)到 60,000 時(shí)（我們已經(jīng)嘗試了許多不同的限制），生成的分類器的準(zhǔn)確性開始穩(wěn)定。繼續(xù)進(jìn)行只會生成具有許多難以理解和難以使用的條件的規(guī)則。 ·

???????? 我們還使用磁盤而不是主內(nèi)存中的數(shù)據(jù)集運(yùn)行CBA算法，并將所有數(shù)據(jù)集的案例數(shù)增加了32倍（最大數(shù)據(jù)集達(dá)到160,000個(gè)案例）。

總結(jié)

以上是生活随笔為你收集整理的论文笔记：Integrating Classification and Association Rule Mining （即，CBA算法介绍）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。