FPGrowth算法总结复习
摘要:
1.算法概述
2.算法推導(dǎo)
3.算法特性及優(yōu)缺點(diǎn)
4.注意事項(xiàng)
5.實(shí)現(xiàn)和具體例子
6.適用場(chǎng)合
內(nèi)容:
1.算法概述
關(guān)聯(lián)規(guī)則(associatio rules):從大規(guī)模數(shù)據(jù)集中尋找物品建隱含關(guān)系被稱作關(guān)聯(lián)分析或關(guān)聯(lián)規(guī)則學(xué)習(xí)
頻繁項(xiàng)集(frequent itemsets):經(jīng)常出現(xiàn)在一起的物品集合
FPgrowth是一個(gè)流行的頻繁項(xiàng)集挖掘的算法(韓家煒等人在2000年);在算法中使用了一種稱為頻繁模式樹(shù)(Frequent Pattern Tree)的數(shù)據(jù)結(jié)構(gòu)(見(jiàn)算法推導(dǎo))。
2.算法推導(dǎo)
2.1 幾個(gè)基本概念
支持度(support):支持度表示項(xiàng)集{X,Y}在總項(xiàng)集里出現(xiàn)的概率。?Support(X→Y) = P(X,Y) / P(I) = num(XUY) / num(I),其中I為總項(xiàng)集;
可信度或置信度(confidence):置信度表示在先決條件X發(fā)生的情況下,由關(guān)聯(lián)規(guī)則”X→Y“推出Y的概率;Confidence(X→Y) = P(Y|X) =?num(XUY) / num(X)
提升度(Lift):?Lift(X→Y) = P(Y|X) / P(Y)
強(qiáng)關(guān)聯(lián)規(guī)則:滿足最小支持度和最小置信度的規(guī)則
如果Lift(X→Y)>1,則規(guī)則“X→Y”是有效的強(qiáng)關(guān)聯(lián)規(guī)則。
? ? ? ? 如果Lift(X→Y) <=1,則規(guī)則“X→Y”是無(wú)效的強(qiáng)關(guān)聯(lián)規(guī)則。
? ? ? ? 特別地,如果Lift(X→Y) =1,則表示X與Y相互獨(dú)立。(參考自)
2.2 幾個(gè)基本原理
Aprori 原理:如果某條規(guī)則并不滿足最小可信度,則該規(guī)則的所有子集也不滿足最小可信度
3.算法特性及優(yōu)缺點(diǎn)
優(yōu)點(diǎn):一般快于Apriori算法(只掃描兩次數(shù)據(jù)集)
缺點(diǎn):實(shí)現(xiàn)比較困難,在某些數(shù)據(jù)集上性能下降
4.注意事項(xiàng)
連續(xù)數(shù)據(jù)要進(jìn)行離散化
5.實(shí)現(xiàn)和具體例子
《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》中的實(shí)現(xiàn)以及發(fā)現(xiàn)國(guó)會(huì)投票中的模式案例
Spark mllib實(shí)現(xiàn)(run方法);使用AssociationRules挖掘關(guān)聯(lián)規(guī)則
應(yīng)用:
交叉銷售:電信行業(yè)針對(duì)用戶已經(jīng)使用的產(chǎn)品和業(yè)務(wù),向其推薦他沒(méi)有使用的
6.適用場(chǎng)合
支持大規(guī)模數(shù)據(jù):是
特征維度:無(wú)
是否有 Online 算法:這個(gè)沒(méi)必要吧?
特征處理:支持類別型數(shù)據(jù)或者離散型數(shù)據(jù),連續(xù)數(shù)據(jù)要進(jìn)行離散化
轉(zhuǎn)載于:https://www.cnblogs.com/arachis/p/FPGrowth.html
總結(jié)
以上是生活随笔為你收集整理的FPGrowth算法总结复习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: [转]CNN的学习
- 下一篇: RobotFramework自动化4-批