日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

频繁项集与关联规则Frequent Itemset Mining and Association Rules、A-Priori算法 , PCY算法

發(fā)布時間:2023/12/16 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 频繁项集与关联规则Frequent Itemset Mining and Association Rules、A-Priori算法 , PCY算法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

目標:尋找大量客戶通常共同購買的項目
方法:使用收集的銷售數(shù)據(jù)尋找頻繁項集

頻繁項集 Frequent Itemset

一個經典規(guī)則:如果有人買尿布和牛奶,那么他/她很可能買啤酒!
購物籃模型:描述兩類對象的多對多關系。
:商場中的不同商品
購物籃:每個顧客購買的商品總和

支持度support:指包含項集I的購物籃個數(shù)
通常我們會設置一個閾值S(support threshold)。如果項集I的支持度(I的子集)≥ S,那么I是頻繁項集

關聯(lián)規(guī)則 Association Rules


可信度/置信度 confidence


強關聯(lián)規(guī)則
設置最小置信度閾值,當置信度大于或等于置信度閾值時可稱為強關聯(lián)規(guī)則。強關聯(lián)規(guī)則才是真正有用的!

興趣度

A-Priori算法:尋找頻繁項集

A-Priori算法的目的是為了降低尋找頻繁集與關聯(lián)規(guī)則時對于內存與時間的消耗,適用于大量數(shù)據(jù)。
算法通過頻繁K-1項集求頻繁K項集。

開始 -> 候選一項集C1(所有的元素) -> 計算C1中每項的支持度是否大于閾值,從而確定頻繁一項集L1 -> 候選二項集C2 -> 計算C1中每項的支持度是否大于閾值,從而確定頻繁二項集L2 -> 候選三項集C3 -> 計算C3中每項的支持度是否大于閾值,從而確定頻繁二項集L3 -> 候選四項集C4 -> 計算C4中每項的支持度是否大于閾值,從而確定頻繁二項集L4 ·······直到最后沒有候選集為止。

但是在由L2到C3過程中,本應該出現(xiàn)的{1 2 3}沒有出現(xiàn)。為什么呢?因為我們還有兩個性質幫助我們可以直接舍棄{1 2 3},如下所示。

因為{1 2 3}的子集{1 2}是非頻繁的,因此他的超集也是非頻繁的。故不需要計算又節(jié)省了空間,嘻嘻。

PCY算法

PCY算法由Park等人提出。他們發(fā)現(xiàn)尋找頻繁項集過程中主要計算花在了尋找頻繁二項集,因此他們引用散列技術來尋找頻繁二項集。PCY算法進一步降低了對于內存與時間的消耗,適用于大量數(shù)據(jù)。



在尋找到頻繁2項集以后,接下來再找k頻繁集和Apriori算法一樣了。

總結

以上是生活随笔為你收集整理的频繁项集与关联规则Frequent Itemset Mining and Association Rules、A-Priori算法 , PCY算法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。