【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )
文章目錄
- 一、 關(guān)聯(lián)規(guī)則
- 二、 數(shù)據(jù)項(xiàng)支持度
- 三、 關(guān)聯(lián)規(guī)則支持度
參考博客 :
- 【數(shù)據(jù)挖掘】關(guān)聯(lián)規(guī)則挖掘 Apriori 算法 ( 關(guān)聯(lián)規(guī)則簡介 | 數(shù)據(jù)集 與 事物 Transaction 概念 | 項(xiàng) Item 概念 | 項(xiàng)集 Item Set | 頻繁項(xiàng)集 | 示例解析 )
一、 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則 是指 :
某些 項(xiàng)集 出現(xiàn)在一個(gè) 事務(wù) 中 ,
可以推導(dǎo)出 :
另外一些 項(xiàng)集 也出現(xiàn)在同一個(gè) 事務(wù) 中 ;
如 : 事物 222 : t2={萵苣,尿布,啤酒,甜菜}t_2 = \{ 萵苣 , 尿布 , 啤酒 , 甜菜 \}t2?={萵苣,尿布,啤酒,甜菜}
{啤酒}\{ 啤酒 \}{啤酒} 111 項(xiàng)集 出現(xiàn)在購買清單 事務(wù) 222 中 , {尿布}\{ 尿布 \}{尿布} 111 項(xiàng)集 也出現(xiàn)在購買清單 事務(wù) 222 中 ;
二、 數(shù)據(jù)項(xiàng)支持度
支持度 表示 數(shù)據(jù)項(xiàng) ( Item ) 在 事務(wù) ( Transaction ) 中的 出現(xiàn)頻度 ;
支持度公式 :
Support(X)=count(X)count(D)\rm Support (X) = \cfrac{count (X)}{count (D)}Support(X)=count(D)count(X)?
Support(X)\rm Support (X)Support(X) 指的是 X\rm XX 項(xiàng)集的支持度 ;
count(X)\rm count (X)count(X) 指的是 數(shù)據(jù)集 D\rm DD 中含有項(xiàng)集 X\rm XX 的事務(wù)個(gè)數(shù) ;
count(D)\rm count(D)count(D) 指的是 數(shù)據(jù)集 D\rm DD 的事務(wù)總數(shù) ;
示例 : 【數(shù)據(jù)挖掘】關(guān)聯(lián)規(guī)則挖掘 Apriori 算法 ( 關(guān)聯(lián)規(guī)則簡介 | 數(shù)據(jù)集 與 事物 Transaction 概念 | 項(xiàng) Item 概念 | 項(xiàng)集 Item Set | 頻繁項(xiàng)集 | 示例解析 ) 六、數(shù)據(jù)集、事物、項(xiàng)、項(xiàng)集合、項(xiàng)集 示例
數(shù)據(jù)集 D\rm DD 為 :
| 001001001 | 奶粉 , 萵苣 |
| 002002002 | 萵苣 , 尿布 , 啤酒 , 甜菜 |
| 003003003 | 奶粉 , 尿布 , 啤酒 , 橙汁 |
| 004004004 | 奶粉 , 萵苣 , 尿布 , 啤酒 |
| 005005005 | 奶粉 , 萵苣 , 尿布 , 橙汁 |
項(xiàng)集 X={奶粉}\rm X=\{ 奶粉 \}X={奶粉} , 求該項(xiàng)集的支持度 ?\rm ??
根據(jù)上述公式 Support(X)=count(X)count(D)\rm Support (X) = \cfrac{count (X)}{count (D)}Support(X)=count(D)count(X)? 計(jì)算支持度 ;
count(X)\rm count (X)count(X) 指的是 數(shù)據(jù)集 D\rm DD 中含有項(xiàng)集 X\rm XX 的事務(wù)個(gè)數(shù) ;
含有 X={奶粉}\rm X=\{ 奶粉 \}X={奶粉} 項(xiàng)集的事務(wù)有 事務(wù) 1\rm 11 , 事務(wù) 333 , 事務(wù) 444 , 事務(wù) 555 , 得出 :
count(X)=4\rm count (X) = 4count(X)=4
count(D)\rm count(D)count(D) 指的是 數(shù)據(jù)集 D\rm DD 的事務(wù)總數(shù) ; 得出
count(D)=5\rm count(D) = 5count(D)=5
則計(jì)算支持度 :
Support(X)=count(X)count(D)\rm Support (X) = \cfrac{count (X)}{count (D)}Support(X)=count(D)count(X)?
Support(X)=45\rm Support (X) = \cfrac{4}{5}Support(X)=54?
三、 關(guān)聯(lián)規(guī)則支持度
關(guān)聯(lián)規(guī)則 X?Y\rm X \Rightarrow YX?Y 的支持度 ,
等于 項(xiàng)集 X∪Y\rm X \cup YX∪Y 的支持度 ;
公式為 :
Support(X?Y)=Support(X∪Y)=count(X∪Y)count(D)\rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}Support(X?Y)=Support(X∪Y)=count(D)count(X∪Y)?
示例 : 數(shù)據(jù)集 D\rm DD 為 :
| 001001001 | 奶粉 , 萵苣 |
| 002002002 | 萵苣 , 尿布 , 啤酒 , 甜菜 |
| 003003003 | 奶粉 , 尿布 , 啤酒 , 橙汁 |
| 004004004 | 奶粉 , 萵苣 , 尿布 , 啤酒 |
| 005005005 | 奶粉 , 萵苣 , 尿布 , 橙汁 |
求關(guān)聯(lián)規(guī)則 尿布?啤酒\rm 尿布 \Rightarrow 啤酒尿布?啤酒 的支持度 ???
上述問題等價(jià)于 , 項(xiàng)集 X={尿布,啤酒}\rm X=\{ 尿布 , 啤酒 \}X={尿布,啤酒} 的支持度 ;
根據(jù)上述公式
Support(X?Y)=Support(X∪Y)=count(X∪Y)count(D)\rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}Support(X?Y)=Support(X∪Y)=count(D)count(X∪Y)?
計(jì)算支持度 ;
count(X∪Y)\rm count (X \cup Y)count(X∪Y) 指的是 數(shù)據(jù)集 D\rm DD 中含有項(xiàng)集 X∪Y\rm X \cup YX∪Y 的事務(wù)個(gè)數(shù) ;
含有 X∪Y={尿布,啤酒}\rm X \cup Y=\{ 尿布 , 啤酒 \}X∪Y={尿布,啤酒} 項(xiàng)集的事務(wù)有 事務(wù) 2\rm 22 , 事務(wù) 333 , 事務(wù) 444 , 得出 :
count(X∪Y)=3\rm count (X \cup Y) = 3count(X∪Y)=3
count(D)\rm count(D)count(D) 指的是 數(shù)據(jù)集 D\rm DD 的事務(wù)總數(shù) ; 得出
count(D)=5\rm count(D) = 5count(D)=5
則計(jì)算支持度 :
Support(X?Y)=Support(X∪Y)=count(X∪Y)count(D)\rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}Support(X?Y)=Support(X∪Y)=count(D)count(X∪Y)?
Support(X)=Support(X∪Y)=35\rm Support (X) = Support (X \cup Y) = \cfrac{3}{5}Support(X)=Support(X∪Y)=53?
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】关联规则挖掘 Apriori
- 下一篇: 【数据挖掘】关联规则挖掘 Apriori