关联规则研究现状
??? 多循環(huán)方式挖掘算法的核心思想是“層次算法(level-wise algorithms)”,顧名思義是算法將整個挖掘過程分成若干層次,待各層次挖掘完成,再組合成最后的結(jié)果。這類算法包括Agrawal等人提出的Apriori、AIS、AprioriTid和AprioriHybrid;Park等人提出的DHP;Savadere等人提出的Partition;Toivonen提出的抽樣算法Sampling;FP-growth;DIC等。其中最有效和最有影響的算法包括Apriori和FP-growth算法。
??? 增量式更新挖掘算法包含兩種情況:1)數(shù)據(jù)庫中記錄發(fā)生變化(增加或刪除)時的更新; D.W.Cheng等給出層次算法所對應的更新算法FUP,在此基礎上,提出了FUP2算法,從而不僅可以處理交易的增加,而且還可以處理交易的刪除或修改。2) 在關聯(lián)規(guī)則的度量(支持度、置信度、興趣度等)發(fā)生改變時的更新。馮玉才等對此種情況進行了研究,提出了相應的算法IUA,PIUA。Feldman提出了一種稱為Border算法的關聯(lián)規(guī)則更新技術。在用戶指定的最低支持度為絕對數(shù)且不變的條件下,該算法只需考察所有真子集均為頻繁項目集,而本身卻不是頻繁的項目集(這些項目集稱為Border)。但是該算法仍然需要存儲相關的頻繁項目集結(jié)果,以減少關聯(lián)規(guī)則的更新代價。
??? 并行/分布式關聯(lián)規(guī)則挖掘算法是在數(shù)據(jù)挖掘要處理的數(shù)據(jù)通常非常巨大,且數(shù)據(jù)跨地域分布這個背景下產(chǎn)生的。目前,大多數(shù)的文獻所提出的挖掘關聯(lián)規(guī)則的分布式算法都是基于分布式處理器(每個處理器自己獨占內(nèi)存和磁盤空間,處理器之間通過網(wǎng)絡等內(nèi)部連接機制進行通信)的并行模式。主要代表算法有CD、PDM、FPM、DD、IDD和HPA等。這些算法可看作Apriori算法的并行版。
??? 多層關聯(lián)規(guī)則挖掘算法是根據(jù)概念層的每個抽象層上定義最小支持度閾值的特性,使用多種策略,挖掘多層關聯(lián)規(guī)則,不同于前面基于支持度-可信度框架的方法。目前,已經(jīng)提出很多挖掘多層關聯(lián)規(guī)則的算法,Han等提出的ML_T2L1及其變種ML_T1LA, ML_TML1, ML_T2LA和R. Srikant等提出的Cumulate、stratify及其變種Etimate、EstMerge等。
??? 多值關聯(lián)規(guī)則挖掘算法是區(qū)別于布爾型關聯(lián)規(guī)則的。現(xiàn)在提出的多值屬性關聯(lián)規(guī)則挖掘算法大多是將多值屬性關聯(lián)規(guī)則挖掘問題轉(zhuǎn)化為布爾型關聯(lián)規(guī)則挖掘問題,即將多值屬性的值劃分為多個區(qū)間,每個區(qū)間作為一個屬性,將類別屬性的每一個類別當作一屬性。G. Michael等人提出多值屬性關聯(lián)規(guī)則的形式為:x=qxTy=qy, 其前項和后項都對應單一數(shù)值,而不是一個區(qū)間;但當需要挖掘所有屬性之間的關聯(lián)規(guī)則時,會面臨規(guī)則的組合爆炸問題。
??? 基于概念格的關聯(lián)規(guī)則的挖掘算法是概念格在數(shù)據(jù)挖掘中應用最廣、取得成果最豐碩的領域,國內(nèi)外的學者在基于概念格的關聯(lián)規(guī)則挖掘方面都進行深入的研究。Godin等提出概念格模型提取蘊涵規(guī)則的方法,但是蘊涵規(guī)則是確定性規(guī)則,該方法不具備描述近似規(guī)則的能力;R.Missaoui等提出了在概念格中提取近似規(guī)則的算法;胡可云等在Godin遞增構(gòu)造概念格算法的基礎上,提出一種更有效的購物籃分析的關聯(lián)規(guī)則算法,實現(xiàn)了對關聯(lián)規(guī)則挖掘的可視化;Petko Valtchev等提出利用概念格挖掘頻繁閉項目集的算法;王德興等提出利用剪枝概念格快速發(fā)現(xiàn)頻繁閉項目集的算法。
總結(jié)