挖掘频繁模式、关联和相关
前言
- 如何從大量的事務(wù)的或關(guān)系的數(shù)據(jù)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則?
- 如何挖掘多層和多維空間中的關(guān)聯(lián)規(guī)則?
- 什么樣的關(guān)聯(lián)規(guī)則是最有趣的?
- 如何幫助或指導(dǎo)挖掘過(guò)程發(fā)現(xiàn)有趣的關(guān)聯(lián)或相關(guān)?
- 如何利用用戶選擇的參數(shù)或約束加快挖掘過(guò)程?
?
規(guī)則的支持度(support)和置信度(confidence)是規(guī)則興趣度的兩種度量.它們分別反映所發(fā)現(xiàn)的規(guī)則的有用性和確定性.
設(shè) I = {I1, I2, ..., Im}是項(xiàng)的集合.設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,其中每個(gè)事務(wù)T是項(xiàng)的集合,使得T?I.每一個(gè)事務(wù)有一個(gè)標(biāo)識(shí)符,稱作TID.設(shè)A是一個(gè)項(xiàng)集,事務(wù)T包含A當(dāng)且僅當(dāng)A?T.關(guān)聯(lián)規(guī)則是形如A => B的蘊(yùn)含式,其中A?I,B?I,并且A∩B=?.規(guī)則A => B在事務(wù)集D中成立,具有支持度s,其中s是D中事務(wù)包含A∪B(即集合A和B的并或A和B二者)的百分比.它是概率P(A∪B).規(guī)則A => B在事務(wù)集D中具有置信度c,其中c是D中包含A的事務(wù)同時(shí)也包含B的百分比.這是條件概率P(B|A).即
???? support(A => B) = P(A∪B)
confidence(A => B) = P(B|A)
同時(shí)滿足最小支持度閥值(min_sup)和最小置信度閥值(min_conf)的規(guī)則稱作強(qiáng)規(guī)則.為方便計(jì)算,我們用0~100%之間的值,而不是用0~1.0之間的值表示支持度和置信度.
轉(zhuǎn)載于:https://www.cnblogs.com/yosg/p/4755469.html
總結(jié)
以上是生活随笔為你收集整理的挖掘频繁模式、关联和相关的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 母牛生小牛
- 下一篇: 利用 Win32 启动和检测 UWP A