apriori算法代码_sklearn(九)apriori 关联规则算法,以及FP-growth 算法
是什么:
apriori算法是第一個關聯規則挖掘算法,利用逐層搜索的迭代方法找出數據庫中的項集(項的集合)的關系,以形成規則,其過程由連接(類矩陣運算)與剪枝(去掉沒必要的中間結果)組成。是一種挖掘關聯規則的頻繁項集算法,一種最有影響的挖掘布爾關聯規則頻繁項集的算法。核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集。
關聯規則挖掘,在最早提出時,是為了發現交易數據庫中不同商品之間的聯系規則。刻畫顧客購買行為模型,指導商家科學地進行進貨,庫存以及貨架設計等。
改進的算法有:并行關聯規則挖掘Parallel Association Rule Mining,以及數量關聯規則挖掘Quantitive Association Rule Mining。提高挖掘規則算法的效率,適應性,可用性以及應用推薦。
頻繁項集的評估標準:支持度,置信度,提升度三個方面。
應用領域:在商業,網絡安全廣泛使用。通過對數據的關聯性進行了分析和挖掘,挖掘出的這些信息在決策制定過程中具有重要的參考價值。
在消費市場價格分析中,能夠很快求出各種產品之間的價格關系和它們之間的影響,可以瞄準目標客戶,采用個人股票行市,最新細心,特殊的市場推廣活動或其他的一些特殊信息手段,減少廣告預算和增加收入。預測客戶的消費習慣。
相關概念:
支持度:a和b同時出現的概率,或者是幾個關聯的數據在數據集中出現的次數占總數據集的比重。
置信度:a和b同時出現的概率占a出現概率的比值,或者是一個數據出現后,另一個數據出現的概率,或者說數據的條件概率。
提升度:表示含有y的條件下, 同時含有x的概率,與x總體發生的概率之比。提升度體現了x和y之間的關聯關系,提升度大于1則xy是有效的強關聯規則,小于等于1則是無效的強關聯規則。
頻繁項集:頻繁項集挖掘可以告訴我們在數據集中經常一起出現的變量,為可能的決策提供一些支持。頻繁項集挖掘是關聯規則,相關性分析,因果分析,序列項集,局部周期性等許多數據挖掘任務的基礎。應用在購物車分析,網頁預取,交叉購物,個性化網站等。
強關聯規則:滿足最小支持度和最小置信度的關聯規則。
相類似的算法:
PrefixSpan
CBA
FP-Tree
GSP
FP-growth 算法
屬于關聯分析算法,采取的分治策略如下:將提供頻繁項集的數據庫壓縮到一顆頻繁模式樹FP-Tree ,保留項集關聯信息。在算法中使用了一種稱為頻繁模式樹的數據結構,fp-tree是一種特殊的前綴樹,有頻繁項頭表和項前綴樹構成。用于改善Apriori算法,加快整個挖掘過程。
相關概念:
FP-Tree :將事務數據表中的各個事務數據項按照支持度排序后,把每個事務中的數據項按降序一次插入到一顆以null為根節點的樹中,同時在每個節點處記錄該節點出現的支持度。
條件模式基:包含FP-Tree中與后綴模式一起出現的前綴路徑的集合。
條件樹:將條件模式基按照FP-Tree的構造原則形成的一個新的FP-Tree。
基本思路:不斷的迭代FP-Tree的構造和投影過程。
算法描述:
該算法的流程為:首先構造FP樹,然后利用ta來挖掘頻繁項集。在構造fp樹時,需要對數據集掃描兩次,一次為用來統計頻率(頻次和頻率),第二次掃描至考慮頻繁項集。
缺點:
參考:
https://bainingchao.github.io/2018/09/27/%E4%B8%80%E6%AD%A5%E6%AD%A5%E6%95%99%E4%BD%A0%E8%BD%BB%E6%9D%BE%E5%AD%A6%E5%85%B3%E8%81%94%E8%A7%84%E5%88%99Apriori%E7%AE%97%E6%B3%95/?bainingchao.github.io數據挖掘十大算法--Apriori算法_小硒---代碼無疆-CSDN博客?blog.csdn.netSuranyi:Apriori 算法簡介及 python3實現?zhuanlan.zhihu.com機器學習(九)-FP-growth算法 - Yabea - 博客園?www.cnblogs.comFP Tree算法原理總結 - 劉建平Pinard - 博客園?www.cnblogs.comFP-growth算法--原理_jmhIcoding-CSDN博客?blog.csdn.netSuperman:FP-Growth算法簡介?zhuanlan.zhihu.com總結
以上是生活随笔為你收集整理的apriori算法代码_sklearn(九)apriori 关联规则算法,以及FP-growth 算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: javascript(JS)混淆工具
- 下一篇: java验证码的代码_java实用验证码