关联规则研究现状
??? 多循環(huán)方式挖掘算法的核心思想是“層次算法(level-wise algorithms)”,顧名思義是算法將整個挖掘過程分成若干層次,待各層次挖掘完成,再組合成最后的結(jié)果。這類算法包括Agrawal等人提出的Apriori、AIS、AprioriTid和AprioriHybrid;Park等人提出的DHP;Savadere等人提出的Partition;Toivonen提出的抽樣算法Sampling;FP-growth;DIC等。其中最有效和最有影響的算法包括Apriori和FP-growth算法。
??? 增量式更新挖掘算法包含兩種情況:1)數(shù)據(jù)庫中記錄發(fā)生變化(增加或刪除)時的更新; D.W.Cheng等給出層次算法所對應(yīng)的更新算法FUP,在此基礎(chǔ)上,提出了FUP2算法,從而不僅可以處理交易的增加,而且還可以處理交易的刪除或修改。2) 在關(guān)聯(lián)規(guī)則的度量(支持度、置信度、興趣度等)發(fā)生改變時的更新。馮玉才等對此種情況進(jìn)行了研究,提出了相應(yīng)的算法IUA,PIUA。Feldman提出了一種稱為Border算法的關(guān)聯(lián)規(guī)則更新技術(shù)。在用戶指定的最低支持度為絕對數(shù)且不變的條件下,該算法只需考察所有真子集均為頻繁項(xiàng)目集,而本身卻不是頻繁的項(xiàng)目集(這些項(xiàng)目集稱為Border)。但是該算法仍然需要存儲相關(guān)的頻繁項(xiàng)目集結(jié)果,以減少關(guān)聯(lián)規(guī)則的更新代價。
??? 并行/分布式關(guān)聯(lián)規(guī)則挖掘算法是在數(shù)據(jù)挖掘要處理的數(shù)據(jù)通常非常巨大,且數(shù)據(jù)跨地域分布這個背景下產(chǎn)生的。目前,大多數(shù)的文獻(xiàn)所提出的挖掘關(guān)聯(lián)規(guī)則的分布式算法都是基于分布式處理器(每個處理器自己獨(dú)占內(nèi)存和磁盤空間,處理器之間通過網(wǎng)絡(luò)等內(nèi)部連接機(jī)制進(jìn)行通信)的并行模式。主要代表算法有CD、PDM、FPM、DD、IDD和HPA等。這些算法可看作Apriori算法的并行版。
??? 多層關(guān)聯(lián)規(guī)則挖掘算法是根據(jù)概念層的每個抽象層上定義最小支持度閾值的特性,使用多種策略,挖掘多層關(guān)聯(lián)規(guī)則,不同于前面基于支持度-可信度框架的方法。目前,已經(jīng)提出很多挖掘多層關(guān)聯(lián)規(guī)則的算法,Han等提出的ML_T2L1及其變種ML_T1LA, ML_TML1, ML_T2LA和R. Srikant等提出的Cumulate、stratify及其變種Etimate、EstMerge等。
??? 多值關(guān)聯(lián)規(guī)則挖掘算法是區(qū)別于布爾型關(guān)聯(lián)規(guī)則的。現(xiàn)在提出的多值屬性關(guān)聯(lián)規(guī)則挖掘算法大多是將多值屬性關(guān)聯(lián)規(guī)則挖掘問題轉(zhuǎn)化為布爾型關(guān)聯(lián)規(guī)則挖掘問題,即將多值屬性的值劃分為多個區(qū)間,每個區(qū)間作為一個屬性,將類別屬性的每一個類別當(dāng)作一屬性。G. Michael等人提出多值屬性關(guān)聯(lián)規(guī)則的形式為:x=qxTy=qy, 其前項(xiàng)和后項(xiàng)都對應(yīng)單一數(shù)值,而不是一個區(qū)間;但當(dāng)需要挖掘所有屬性之間的關(guān)聯(lián)規(guī)則時,會面臨規(guī)則的組合爆炸問題。
??? 基于概念格的關(guān)聯(lián)規(guī)則的挖掘算法是概念格在數(shù)據(jù)挖掘中應(yīng)用最廣、取得成果最豐碩的領(lǐng)域,國內(nèi)外的學(xué)者在基于概念格的關(guān)聯(lián)規(guī)則挖掘方面都進(jìn)行深入的研究。Godin等提出概念格模型提取蘊(yùn)涵規(guī)則的方法,但是蘊(yùn)涵規(guī)則是確定性規(guī)則,該方法不具備描述近似規(guī)則的能力;R.Missaoui等提出了在概念格中提取近似規(guī)則的算法;胡可云等在Godin遞增構(gòu)造概念格算法的基礎(chǔ)上,提出一種更有效的購物籃分析的關(guān)聯(lián)規(guī)則算法,實(shí)現(xiàn)了對關(guān)聯(lián)規(guī)則挖掘的可視化;Petko Valtchev等提出利用概念格挖掘頻繁閉項(xiàng)目集的算法;王德興等提出利用剪枝概念格快速發(fā)現(xiàn)頻繁閉項(xiàng)目集的算法。
總結(jié)