十七、频繁模式、关联和相关性的基本概念和方法
生活随笔
收集整理的這篇文章主要介紹了
十七、频繁模式、关联和相关性的基本概念和方法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.挖掘頻繁模式、關聯和相關性
動機:尋找數據的內在規律
- 什么樣的產品會經常在一起購買?
- 當購買一臺電腦后,后續會有哪些購買行為?
- 數據離散化是一種數據變換形式。
- 數據變換策略概述
- 通過規范化變換數據-
- 通過分箱離散化
- 通過直方圖分析離散化
- 通過聚類、決策樹和相關分析離散化
- 標稱數據的概念分層產生
應用
- 挖掘數據之間的關聯、相關性、和其他有趣的聯系,及購物籃分析, 交差營銷, 價目表設置,銷售活動分析, 網絡點擊量分析。
2 頻繁模式分析
- 購物籃分析:一個誘發例子
- 頻繁項集、閉項集和關聯規則
3 購物籃分析:一個誘發例子
經典的案例:啤酒和尿布的故事
-
20世紀90年代美國的一家大型超市發現了一個規律,在購買嬰兒尿布的年輕父親們中,有30%~40%的人同時要買一些啤酒。
-
超市隨后調整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷售額。
頻繁模式:制定營銷計劃來提高銷售量 -
對商店的顧客事務零售數據進行分析
-
根據得到的有趣的關聯設計營銷策略:
- 經常同時購買的商品擺放在一起,一遍刺激這些商品同時銷售
- 將同時購買的商品放在商店的兩端,可以誘發顧客購買沿途看到的商品(可以通過降價吸引顧客)。
購物籃分析 -
如果問題的全域是商店中所有商品的集合,則對每種商品都可以用一個布爾量來表示該商品是否被顧客購買,則每個購物籃都可以用一個布爾向量表示(如形式0001001100);經過分析就可以得到商品被頻繁關聯或被同時購買的模式,這些模式就可以用關聯規則表示。
-
關聯規則的兩個興趣度度量
computer=>financial_management_software[support=2%.confidence=60%] - 支持度:有用性;指兩者被同時購買的概率
- 置信度:確定性;指購買A的顧客也購買B產品的概率
4 頻繁項集、閉項集和關聯規則
頻繁項集
- 項集
- 包含0個或多個項的集合
- k-項集:一個項集包含k個項
- 支持度(Support)
- 包含項集的事務數與總事務數的比值
- s({Milk, Bread, Diaper}) = 2/5
- 頻繁項集
- 滿足最小支持度閾值 的所有項集
- 例子
s({Milk, Bread}) = 3/5
s({Bread,Milk,Diaper,Beer}) = 1/5
s({Bread,Milk,Diaper,Coke}) = 1/5
簡單來說,就是如果這個頻繁項集的支持度和所有包含這個頻繁項集的超級的支持度不一樣,那么這個頻繁項集就是閉頻繁項集。
規則度量
- A->B
- 支持度:P(A ∩ B),既有A又有B的概率
- 置信度:P(B|A),在A發生的事件中同時發生B的概率 p(AB)/P(A)
- 例子:購物籃分析:牛奶->面包
- 支持度3%:意味著3%顧客同時購買牛奶和面包
- 置信度40%:意味著購買牛奶的顧客40%也購買面包
關聯規則挖掘問題
- 給定事務的集合 T, 關聯規則發現是指找出支持度大于等于 minsup并且置信度大于等于minconf的所有規則, minsup和minconf是對應的支持度和置信度閾值。
- 大多數關聯規則挖掘算法通常采用的一種策略是,將關聯規則挖掘任務分解為如下兩個主要的子任務:
- 頻繁項集產生(Frequent Itemset Generation)
- 其目標是發現滿足最小支持度閾值的所有項集,這些項集稱作頻繁項集。
- 規則的產生(Rule Generation)
- 其目標是從上一步發現的頻繁項集中提取所有高置信度的規則,這些規則稱作強規則。
5 總結
頻繁模式分析
- 找出給定數據集中反復出現的聯系
- 從事務數據庫、關系數據庫和其他信息存儲中的大量數據的項集之間發現有趣的、頻繁出現的模式、項與項之間的關聯或相關性
頻繁模式(關聯規則)挖掘
- 購物籃分析:一個誘發例子
- 頻繁項集、閉項集和關聯規則
頻繁模式(關聯規則)挖掘
- 給定事務的集合 T, 關聯規則發現是指找出支持度大于等于 minsup并且置信度大于等于minconf的所有規則, minsup和minconf是對應的支持度和置信度閾值。
式(關聯規則)挖掘**
- 給定事務的集合 T, 關聯規則發現是指找出支持度大于等于 minsup并且置信度大于等于minconf的所有規則, minsup和minconf是對應的支持度和置信度閾值。
總結
以上是生活随笔為你收集整理的十七、频繁模式、关联和相关性的基本概念和方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 十六、数据变换和数据离散化
- 下一篇: 十八、Apriori算法介绍