日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

R语言数据挖掘2.1.1.1 频繁项集

發(fā)布時(shí)間:2023/12/15 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 R语言数据挖掘2.1.1.1 频繁项集 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

2.1.1.1 頻繁項(xiàng)集


頻繁項(xiàng)集的概念來源于真實(shí)的購物籃分析。在諸如亞馬遜等商店中,存在很多的訂單或交易數(shù)據(jù)。當(dāng)客戶進(jìn)行交易時(shí),亞馬遜的購物車中就會(huì)包含一些項(xiàng)。商店店主可以通過分析這些大量的購物事務(wù)數(shù)據(jù),發(fā)現(xiàn)顧客經(jīng)常購買的商品組合。據(jù)此,可以簡(jiǎn)單地定義零個(gè)或多個(gè)項(xiàng)的組合為項(xiàng)集。

我們把一項(xiàng)交易稱為一個(gè)購物籃,任何購物籃都有組元素。將變量s設(shè)置為支持閾值,我們可以將它和一組元素在所有的購物籃中出現(xiàn)的次數(shù)做比較,如果這組元素在所有購物籃中出現(xiàn)的次數(shù)不低于s,我們就將這組元素稱為一個(gè)頻繁項(xiàng)集。

若一個(gè)項(xiàng)集包含有k個(gè)項(xiàng),則該項(xiàng)集稱為k項(xiàng)集,其中k是非零整數(shù)。項(xiàng)集X的支持計(jì)數(shù)記為support_count(X),表示給定數(shù)據(jù)集中包含項(xiàng)集X的計(jì)數(shù)。

給定一個(gè)預(yù)先定義的最小支持度閾值s,如果support_count(X)≥s,則稱項(xiàng)集X為頻繁項(xiàng)集。最小支持度閾值s是一個(gè)可以自定義的參數(shù),可以根據(jù)領(lǐng)域?qū)<一蚪?jīng)驗(yàn)進(jìn)行調(diào)整。

頻繁項(xiàng)集也經(jīng)常應(yīng)用于許多領(lǐng)域,如下表所示。

????? 項(xiàng)?? 籃子???? 說明

相關(guān)概念???? 詞?? 文檔????

剽竊???? 文檔???? 句子????

生物標(biāo)記物? 生物標(biāo)記物和疾病??? 病人的數(shù)據(jù)集???

?

如果某個(gè)項(xiàng)集是頻繁的,那么該項(xiàng)集的任何一個(gè)子集也一定是頻繁的。這稱為Apriori原理,它是Apriori算法的基礎(chǔ)。Apriori原理的直接應(yīng)用就是用來對(duì)大量的頻繁項(xiàng)集進(jìn)行剪枝。

影響頻繁項(xiàng)集數(shù)目的一個(gè)重要因素是最小支持計(jì)數(shù):最小支持計(jì)數(shù)越小,頻繁項(xiàng)集的數(shù)目也越多。

為了優(yōu)化頻繁項(xiàng)集生成算法,人們提出一些其他概念:

閉項(xiàng)集:給定數(shù)據(jù)集S,如果Y∈S, X? Y,則support_count (X) ≠ support_count (Y),那么X稱作閉項(xiàng)集。換言之,如果X是頻繁的,則X是頻繁閉項(xiàng)集。

最大頻繁項(xiàng)集:如果Y∈S, X? Y,X是最大頻繁項(xiàng)集,則Y是非頻繁的。換言之,Y沒有頻繁超集。

約束頻繁項(xiàng)集:若頻繁項(xiàng)集X滿足用戶指定的約束,則X稱為約束頻繁項(xiàng)集。

近似頻繁項(xiàng)集:若項(xiàng)集X只給出待挖掘數(shù)據(jù)近似的支持計(jì)數(shù),則稱為近似頻繁項(xiàng)集。

top-k頻繁項(xiàng)集:給定數(shù)據(jù)集S和用戶指定的整數(shù)k,若X是前k個(gè)頻繁項(xiàng)集,則X稱為top-k頻繁項(xiàng)集。

下面給出一個(gè)事務(wù)數(shù)據(jù)集的例子。所有項(xiàng)集僅包含集合D = {Ik |{k∈[1,7]}中的項(xiàng)。假定最小支持度計(jì)數(shù)為3。

tid(交易號(hào))??? 項(xiàng)集或交易中的項(xiàng)列表

T001???? I1, I2, I4, I7

T002???? I2, I3, I6

T003???? I1, I4, I6

T004???? I1, I2, I5

T005???? I2, I3, I4

T006???? I2, I5, I6

T007???? I2, I4, I7

T008???? I1, I7

T009???? I1, I2, I3

T010???? I1, I2, I4

?

那么,可以得到頻繁項(xiàng)集L1 = {Ik | k∈{1, 2, 4, 6, 7}}和L2 = {{I1, I2},{I1, I4},{I2, I4}}。

總結(jié)

以上是生活随笔為你收集整理的R语言数据挖掘2.1.1.1 频繁项集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。