关联分析的基本概念
關聯分析也是人的一種認知模式,這種關聯規則和人的反射類似,就是在認識事物的過程中在認知中建立的關聯規則。關聯分析是數據挖掘里很重要的部分。
1. 頻繁模式
例如一個超市每天有很多的購物記錄,而且消費者的購買單品的順序是無序的,所以一個無序的組合就是“模式”。在這些模式里有的出現頻率低,有的出現頻率高,一般說頻率較高的通常更有指導意義,這種高頻率的模式就叫做“頻繁模式”。
2. 支持度和置信度
剛說了頻繁模式的概念,即一般認為頻率較高的模式叫頻繁模式。衡量頻率的指標有兩個:一個是支持度,一個是置信度。
這兩個指標分別指的是這種模式的有用性和確定性。設置其指標的門限值,只有置信度和支持度同時高于各自的門限值時才認為是頻繁模式了,其中要注意的是置信度是有方向的。
但“支持度和置信度多高才算高呢?”可以通過專家知識來確定。如果沒有專家知識可以通過嘗試在所有的商品中找出所有的模式,會發現有一些模式的支持度和置信度同時比其他高很多,這時可以考慮用所有模式的支持度的平均值和置信度的平均值作為參考,適當作為一些作為閾值做過濾。這樣過濾下來的模式就可以作為頻繁模式進一步的研究。
如果單純的支持度或置信度高能否可以直接被認為是頻繁模式呢?
如果支持度高置信度低,說明模式頻繁,但是“轉化率”低。而如果支持度比較低,但是轉化率比較高,說明這種模式在所有的模式里很平常,甚至不能算“頻繁”。通常都會選擇支持度和置信度都高于閾值的門限的模式作為頻繁模式。
3. Apriori算法
找出頻繁集實際上是找出同時滿足最小支持度和最小置信度的模式。這里簡單介紹以下幾個步驟:
(1)先設置一個最小支持度作為閾值門限進行掃描,因為同時過濾最小支持度和最小置信度這兩個操作來說,最小支持度的查找更為簡單一些。
(2)掃描所有滿足最小支持度的單品。在這個過程中可以發現,大量小于閾值的單品被過濾掉,這個過程在算法中叫“剪枝”。再逐級查找模式時,有很多單品可以完全置之不理了。
(3)查找滿足條件2項的模式。
(4)查找滿足條件的3項模式,這個過程同步驟 (3)。
4. 關聯分析與相關性分析
利用Apriori能夠過濾出關聯度較高的模式,但不能對相關性做出解釋。這里引入一個有關相關規則的分析。
提升度是一種簡單的關聯度度量,也是一種比較容易實現的統計方法。
- 當相關性是1時,也就是在全樣本空間中A和B是沒有關系的
- 當相關性大于1時,B和A是正相關的,也就是A的發生促進了B的發生。
- 當相關性小于1時,B和A是負相關的。也就是A的發生抑制了B的發生。
5. 稀有模式和負模式
前面說的都是頻繁模式,但也有一些情況下更關心“不頻繁”的模式,那就是稀有模式和負模式。
稀有模式:是支持度遠低于設定的支持度的模式,在實際生產中可以考慮用支持度的倒序的功能去找那些支持度極低的模式。
負模式:兩種模式是負相關的。一般來說,如果x和y都是頻繁的,但是很少或者不一起出現,那么就說x和y是負相關的,x和y組成的模式也是負相關模式。如果x和y組成的模式支持度遠遠小于x的支持度與y的支持度的乘積,那么就說x和y是強負相關的。
參考:《白話大數據與機器學習》
總結
- 上一篇: 朴素贝叶斯—疾病的预测
- 下一篇: 蚂蚁速用是哪家公司的