【机器学习】简单关联分析算法-Apriori algorithm
? ? ? ? 前面講的K-means?聚類算法是一種無監督學習,今天要學習的A-priori算法是一個‘先驗算法’,通過該算法我們可以對數據集做關聯分析(association analysis)。
? ? ? ? 用A-priori發現數據的頻繁項集(frequent item),關聯規則(association rules)。那什么是頻繁項集與關聯規則呢?
? ? ? ? 頻繁項集:經常出現在一塊的物品的集合。
? ? ? ? 關聯規則:暗示兩種物品直接可能存在很強的關系。
? ? ? ? 上面為frequent item與association rules的大白話解釋,那么該如何定義和表示它倆呢?這里我們要引入支持度和可信度(置信度)。請您走向這個鏈接:Link_1
? ? ? ? 當您讀到Link_1講解代碼的時候,我個人感覺博主梳理的知識邏輯比較不順了,這個時候推薦您走向這個鏈接:Link_2
? ? 總結Link_2:Apriori適合小規模數據集,Apriori主要基于frequent item,所以本文引用的關聯分析默認都是基于頻繁集的關聯分析。?如果存在一條關聯規則,它的支持度和置信度都大于預先定義好的最小支持度與置信度,稱之為強關聯規則。
? ? 強關聯規則可用來了解項之間的隱藏關系(Hidden Relationship),?:所以,association analysis的目的是為了尋找強關聯規則,而A-priori則主要用來幫助尋找強關聯規則。????????
? ? 頻繁集由候選集剪枝(prunning)得到:
? ? ? ? ? ? ①利用各項支持度與min_sup(最小支持度)進行比較? => 最終頻繁集結果
? ? ? ? ? ? ②利用最終頻繁集結果以及各項置信度及min_conf(最小置信度) 進行比較 =>就可得強關聯規則了
? ? ? ? 當您讀完Link_2的時候,是不是感覺理論差不多都OK了呢?代碼部分可以繼續參考鏈接1與2。
? ? ? ?
????????
? ? ? ? 小結一下:
? ? ? ? ? ? ? ? 后續介紹DHP算法:An optimization of A-priori?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DIC算法:Dynamic itemset counting【Reduce Number of Scans】?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 由Sergey Brin (Founder of Google)發明。
?
參考資料(建議按順序閱讀)
數據挖掘十大算法(四):Apriori(關聯分析算法)_昆蘭.沃斯 的博客-CSDN博客_關聯分析算法終于到了機器學習實戰的第十一章了,這也是繼K-均值后的第二個無監督學習算法了。同樣的該算法也是在一堆數據集中尋找數據之間的某種關聯,這里主要介紹的是叫做Apriori的‘一個先驗’算法,通過該算法我們可以對數據集做關聯分析——在大規模的數據中尋找有趣關系的任務,本文主要介紹使用Apriori算法發現數據的(頻繁項集、關聯規則)。這些關系可以有兩種形式:頻繁項集、關聯規則。? ? ? ? 頻...https://blog.csdn.net/qq_36523839/article/details/82191677?utm_source=app&app_version=4.17.0&code=app_1562916241&uLinkId=usr1mkqgl919blen
關聯分析之Apriori算法【精品】關聯分析之Apriori算法_臥龍居-CSDN博客_關聯分析apriori算法
總結
以上是生活随笔為你收集整理的【机器学习】简单关联分析算法-Apriori algorithm的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 16代表啥_16代表的爱情恋爱含义 16
- 下一篇: 成长之路——发现问题、提出问题和解决问题