R语言数据挖掘2.1.1.1 频繁项集
2.1.1.1 頻繁項(xiàng)集
頻繁項(xiàng)集的概念來源于真實(shí)的購物籃分析。在諸如亞馬遜等商店中,存在很多的訂單或交易數(shù)據(jù)。當(dāng)客戶進(jìn)行交易時(shí),亞馬遜的購物車中就會(huì)包含一些項(xiàng)。商店店主可以通過分析這些大量的購物事務(wù)數(shù)據(jù),發(fā)現(xiàn)顧客經(jīng)常購買的商品組合。據(jù)此,可以簡(jiǎn)單地定義零個(gè)或多個(gè)項(xiàng)的組合為項(xiàng)集。
我們把一項(xiàng)交易稱為一個(gè)購物籃,任何購物籃都有組元素。將變量s設(shè)置為支持閾值,我們可以將它和一組元素在所有的購物籃中出現(xiàn)的次數(shù)做比較,如果這組元素在所有購物籃中出現(xiàn)的次數(shù)不低于s,我們就將這組元素稱為一個(gè)頻繁項(xiàng)集。
若一個(gè)項(xiàng)集包含有k個(gè)項(xiàng),則該項(xiàng)集稱為k項(xiàng)集,其中k是非零整數(shù)。項(xiàng)集X的支持計(jì)數(shù)記為support_count(X),表示給定數(shù)據(jù)集中包含項(xiàng)集X的計(jì)數(shù)。
給定一個(gè)預(yù)先定義的最小支持度閾值s,如果support_count(X)≥s,則稱項(xiàng)集X為頻繁項(xiàng)集。最小支持度閾值s是一個(gè)可以自定義的參數(shù),可以根據(jù)領(lǐng)域?qū)<一蚪?jīng)驗(yàn)進(jìn)行調(diào)整。
頻繁項(xiàng)集也經(jīng)常應(yīng)用于許多領(lǐng)域,如下表所示。
????? 項(xiàng)?? 籃子???? 說明
相關(guān)概念???? 詞?? 文檔????
剽竊???? 文檔???? 句子????
生物標(biāo)記物? 生物標(biāo)記物和疾病??? 病人的數(shù)據(jù)集???
?
如果某個(gè)項(xiàng)集是頻繁的,那么該項(xiàng)集的任何一個(gè)子集也一定是頻繁的。這稱為Apriori原理,它是Apriori算法的基礎(chǔ)。Apriori原理的直接應(yīng)用就是用來對(duì)大量的頻繁項(xiàng)集進(jìn)行剪枝。
影響頻繁項(xiàng)集數(shù)目的一個(gè)重要因素是最小支持計(jì)數(shù):最小支持計(jì)數(shù)越小,頻繁項(xiàng)集的數(shù)目也越多。
為了優(yōu)化頻繁項(xiàng)集生成算法,人們提出一些其他概念:
閉項(xiàng)集:給定數(shù)據(jù)集S,如果Y∈S, X? Y,則support_count (X) ≠ support_count (Y),那么X稱作閉項(xiàng)集。換言之,如果X是頻繁的,則X是頻繁閉項(xiàng)集。
最大頻繁項(xiàng)集:如果Y∈S, X? Y,X是最大頻繁項(xiàng)集,則Y是非頻繁的。換言之,Y沒有頻繁超集。
約束頻繁項(xiàng)集:若頻繁項(xiàng)集X滿足用戶指定的約束,則X稱為約束頻繁項(xiàng)集。
近似頻繁項(xiàng)集:若項(xiàng)集X只給出待挖掘數(shù)據(jù)近似的支持計(jì)數(shù),則稱為近似頻繁項(xiàng)集。
top-k頻繁項(xiàng)集:給定數(shù)據(jù)集S和用戶指定的整數(shù)k,若X是前k個(gè)頻繁項(xiàng)集,則X稱為top-k頻繁項(xiàng)集。
下面給出一個(gè)事務(wù)數(shù)據(jù)集的例子。所有項(xiàng)集僅包含集合D = {Ik |{k∈[1,7]}中的項(xiàng)。假定最小支持度計(jì)數(shù)為3。
tid(交易號(hào))??? 項(xiàng)集或交易中的項(xiàng)列表
T001???? I1, I2, I4, I7
T002???? I2, I3, I6
T003???? I1, I4, I6
T004???? I1, I2, I5
T005???? I2, I3, I4
T006???? I2, I5, I6
T007???? I2, I4, I7
T008???? I1, I7
T009???? I1, I2, I3
T010???? I1, I2, I4
?
那么,可以得到頻繁項(xiàng)集L1 = {Ik | k∈{1, 2, 4, 6, 7}}和L2 = {{I1, I2},{I1, I4},{I2, I4}}。
總結(jié)
以上是生活随笔為你收集整理的R语言数据挖掘2.1.1.1 频繁项集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 魔兽怀旧服部落1-60升级任务路线 47
- 下一篇: 《Access 2007开发指南(修订版