挖掘频繁模式、关联和相关
生活随笔
收集整理的這篇文章主要介紹了
挖掘频繁模式、关联和相关
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
前言
- 如何從大量的事務的或關系的數據中發現關聯規則?
- 如何挖掘多層和多維空間中的關聯規則?
- 什么樣的關聯規則是最有趣的?
- 如何幫助或指導挖掘過程發現有趣的關聯或相關?
- 如何利用用戶選擇的參數或約束加快挖掘過程?
?
規則的支持度(support)和置信度(confidence)是規則興趣度的兩種度量.它們分別反映所發現的規則的有用性和確定性.
設 I = {I1, I2, ..., Im}是項的集合.設任務相關的數據D是數據庫事務的集合,其中每個事務T是項的集合,使得T?I.每一個事務有一個標識符,稱作TID.設A是一個項集,事務T包含A當且僅當A?T.關聯規則是形如A => B的蘊含式,其中A?I,B?I,并且A∩B=?.規則A => B在事務集D中成立,具有支持度s,其中s是D中事務包含A∪B(即集合A和B的并或A和B二者)的百分比.它是概率P(A∪B).規則A => B在事務集D中具有置信度c,其中c是D中包含A的事務同時也包含B的百分比.這是條件概率P(B|A).即
???? support(A => B) = P(A∪B)
confidence(A => B) = P(B|A)
同時滿足最小支持度閥值(min_sup)和最小置信度閥值(min_conf)的規則稱作強規則.為方便計算,我們用0~100%之間的值,而不是用0~1.0之間的值表示支持度和置信度.
轉載于:https://www.cnblogs.com/yosg/p/4755469.html
總結
以上是生活随笔為你收集整理的挖掘频繁模式、关联和相关的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 母牛生小牛
- 下一篇: nagios 监控 mysql 读写比