数据挖掘算法之-关联规则挖掘(Association Rule)(购物篮分析)
定義:設W中支持物品集A的事務中,有c?%的事務同時也支持物品集B,c?%稱為關聯規則A→B?的可信度。
通俗解釋:簡單地說,可信度就是指在出現了物品集A?的事務T?中,物品集B?也同時出現的概率有多大。
實例說明:上面所舉的圓珠筆和筆記本的例子,該關聯規則的可信度就回答了這樣一個問題:如果一個顧客購買了圓珠筆,那么他也購買筆記本的可能性有多大呢?在上述例子中,購買圓珠筆的顧客中有65%的人購買了筆記本,?所以可信度是65%。
概率描述:物品集A對物品集B的置信度confidence(A==>B)=P(A|B)
2.支持度(support)定義:設W?中有s?%的事務同時支持物品集A?和B,s?%稱為關聯規則A→B?的支持度。支持度描述了A?和B?這兩個物品集的并集C?在所有的事務中出現的概率有多大。
通俗解釋:簡單地說,A==>B的支持度就是指物品集A和物品集B同時出現的概率。
實例說明:某天共有1000 個顧客到商場購買物品,其中有150個顧客同時購買了圓珠筆和筆記本,那么上述的關聯規則的支持度就是15%。
概率描述:物品集A對物品集B的支持度support(A==>B)=P(A n B)
3.期望置信度(Expected confidence)定義:設W?中有e?%的事務支持物品集B,e?%稱為關聯規則A→B?的期望可信度度。
通俗解釋:期望可信度描述了在沒有任何條件影響時,物品集B?在所有事務中出現的概率有多大。
實例說明:如果某天共有1000?個顧客到商場購買物品,其中有250?個顧客購買了圓珠筆,則上述的關聯規則的期望可信度就是25 %。
概率描述:物品集A對物品集B的期望置信度為support(B)=P(B)
4.提升度(lift)定義:提升度是可信度與期望可信度的比值
通俗解釋:提升度反映了“物品集A的出現”對物品集B的出現概率發生了多大的變化。
實例說明:上述的關聯規則的提升度=65%/25%=2.6
概率描述:物品集A對物品集B的期望置信度為lift(A==>B)=confidence(A==>B)/support(B)=p(B|A)/p(B)
總之,可信度是對關聯規則的準確度的衡量,支持度是對關聯規則重要性的衡量。支持度說明了這條規則在所有事務中有多大的代表性,顯然支持度越大,關聯規則越重要。有些關聯規則可信度雖然很高,但支持度卻很低,說明該關聯規則實用的機會很小,因此也不重要。
在關聯規則挖掘中,滿足一定最小置信度以及支持度的集合成為頻繁集(frequent itemset),或者強關聯。關聯規則挖掘則是一個尋找頻繁集的過程。
關聯規則挖掘的相關算法
1.Apriori算法:使用候選項集找頻繁項集
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
該算法的基本思想是:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。然后由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產生期望的規則,產生只包含集合的項的所有規則,其中每一條規則的右部只有一項,這里采用的是中規則的定義。一旦這些規則被生成,那么只有那些大于用戶給定的最小可信度的規則才被留下來。為了生成所有頻集,使用了遞推的方法。
可能產生大量的候選集,以及可能需要重復掃描數據庫,是Apriori算法的兩大缺點。
2.基于劃分的算法
Savasere等設計了一個基于劃分的算法。這個算法先把數據庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊并對它生成所有的頻集,然后把產生的頻集合并,用來生成所有可能的頻集,最后計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個處理器生成頻集。產生頻集的每一個循環結束后,處理器之間進行通信來產生全局的候選k-項集。通常這里的通信過程是算法執行時間的主要瓶頸;而另一方面,每個獨立的處理器生成頻集的時間也是一個瓶頸。
3.FP-樹頻集算法
?
針對Apriori算法的固有缺陷,J. Han等提出了不產生候選挖掘頻繁項集的方法:FP-樹頻集算法。采用分而治之的策略,在經過第一遍掃描之后,把數據庫中的頻集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關聯信息,隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關,然后再對這些條件庫分別進行挖掘。當原始數據量很大的時候,也可以結合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明,FP-growth對不同長度的規則都有很好的適應性,同時在效率上較之Apriori算法有巨大的提高。
總結
以上是生活随笔為你收集整理的数据挖掘算法之-关联规则挖掘(Association Rule)(购物篮分析)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据挖掘的十种分析方法
- 下一篇: sklearn线性回归详解