【数据挖掘笔记七】高级模式挖掘
7.高級模式挖掘
模式挖掘是比頻繁模式挖掘更一般的術語,前者還涵蓋了稀有模式和負模式。
?
7.1?模式挖掘:一個路線圖
模式挖掘的研究關注三個方面:所挖掘的模式類型、挖掘方法和應用。
模式挖掘研究的一般路線圖:
?
?
?
7.2?多層、多維空間中的模式挖掘
?
多層關聯涉及多個抽象層的概念。多維關聯涉及多個維或謂詞。?量化關聯涉及其值之間有序的數值屬性。負模式顯示項之間的負關聯。
1)挖掘多層關聯規則
在多個抽象層的數據上挖掘產生的關聯規則稱為多層關聯規則。在支持度-置信度框架下,使用概念分層可有效地挖掘多層關聯規則。一般而言,可采用自頂向下策略,由概念層1開始,向下到較低的、更特定的概念層,在每個概念層累計計數,計算頻繁項集,直到不能再找到頻繁項集。
2)挖掘多維關聯規則
涉及兩個或多個維或謂詞的關聯規則稱做多維關聯規則(multidimensional?association?rule)。多個謂詞,但每個謂詞在規則中僅出現一次,稱其具有不重復謂詞。具有不重復謂詞的關聯規則稱做維間關聯規則。挖掘具有重復謂詞的關聯規則,包括某些謂詞的多次出現,稱做混合維關聯規則。
挖掘多維關聯規則的技術分為兩種方法:
第一種方法,使用預先定義的概念分層對量化屬性離散化,方法稱為使用量化屬性的靜態離散化挖掘多維關聯規則;
第二種方法,根據數據分布將量化屬性離散化或聚類到“箱”,方法稱為動態量化關聯規則。
K-謂詞集是包含k個合取謂詞的集合。
3)挖掘量化關聯規則
基于數據立方體挖掘的量化關聯規則,在多維空間存儲聚集信息,可用于計算多維關聯規則的支持度和置信度。
基于聚類的量化關聯規則,有趣的頻繁模式或關聯規則通常在量化屬性相對稠密的簇中出現,可采用自頂向下的聚類和自底向上的聚類來發現量化規則。
使用統計學理論發現異常行為,使用統計檢驗證實規則的有效性。
4)挖掘稀有模式和負模式
????有趣的不只是頻繁模式,也可能是稀有模式或發現反映項之間負相關的負模式。
7.3?基于約束的頻繁模式挖掘
基于約束的挖掘包括:
1)知識類型約束:指定待挖掘的知識類型,如關聯、相關、分類或聚類。
2)數據約束:指定任務相關的數據集。
3)維/層約束:指定挖掘中所使用的數據維(或屬性)、抽象層,或概念分層結構的層次。
4)興趣度約束:指定規則興趣度的統計度量閾值,如支持度、置信度和相關性。
5)規則約束:指定要挖掘的規則形式或條件。這個約束可以用元規則(規則模板)表示,如可以出現在規則前件或后件中謂詞的最大或最小個數,或屬性、屬性值和聚集之間的聯系。
基于約束的挖掘支持交互式探索挖掘與分析。元規則使得用戶可以說明他們感興趣的規則的語法形式。規則的形式可以作為約束,幫助提高挖掘過程的性能。元規則可以根據分析者的經驗、期望或對數據的直覺,或者根據數據庫模式自動產生。
一般而言,一種有效的頻繁模式挖掘過程可以用兩種主要方法在挖掘期間對其搜索空間進行剪枝:模式搜索空間剪枝和數據搜索空間剪枝。
7.4?挖掘高維數據和巨型模式
搜索空間隨維數呈指數增長,解決上,一個方向是利用垂直數據格式,擴充模式增長方法,處理具有大量維但少量行的數據集;另一個方向是開發模式融合的挖掘方法,用于挖掘巨型模式。
模式融合的挖掘方法,通過融合少量較短的頻繁模式,形成巨型模式候選,在模式搜索空間跳躍,避開了寬度優先和深度優先搜索容易落入的陷阱,可以得到巨型頻繁模式完全集的一個很好的近似解。
模式融合旨在產生巨型模式的近似解,需引進一個質量評估模型,即核模式。融合模式有兩個階段:
1)池初始化:模式融合假定有一個短頻繁模式的初始池,是一個短長度的頻繁模式的完全集,這個初始池可以用任意已有的有效挖掘算法挖掘。
2)迭代的模式融合:模式融合取用戶指定的參數K作為輸入,K是要挖掘模式的最大個數。挖局過程是迭代的,每次迭代中,從當前池中隨機地選擇K個種子,對于每個種子,找出直接為既定值的球內的所有模式。然后,每個球中的所有模式融合在一起,形成一個超模式集。這些超模式形成新的池,由于每個超模式的支集隨迭代而收斂,因此迭代過程終止。
7.5?挖掘壓縮或近似模式
頻繁模式挖掘的主要挑戰是所發現的模式數量巨大。為壓縮挖掘產生的巨大的頻繁模式集,同時維持高質量的模式,可以挖掘頻繁模式的壓縮集合或近似集合。Top-k最頻繁閉模式的提出使得挖掘過程只關注k個最頻繁模式。
1)通過模式聚類挖掘壓縮模式?
模式聚類,要先定義一種好的相似性度量,根據該度量對模式聚類,然后每個簇僅選擇和輸出一個代表模式。由于閉頻繁模式的集合是原頻繁模式集合的無損壓縮,因此在閉模式集合上發現代表模式是可行的。
2)提取感知冗余的top-k模式
挖掘top-k個最頻繁模式是一種減少挖掘返回的模式數量的策略。感知冗余的top-k模式在顯著性和冗余性之間進行平衡,定義兩個模式間的冗余性。
7.6?模式探索和應用
通過頻繁模式的語義注解返回附加信息,有助于理解模式。頻繁模式高質量語義注解的關鍵是成功的模式語境建模。語義模式注解的基本任務是:
1)選擇語境單元,并多每個單元設計強度權重,對頻繁模式的語境建模;
2)為兩個模式的語境、一個事務和一個模式的語境設計相似性度量;
3)對于給定的頻繁模式,提取最顯著的語境指示符、代表事務和語義相似模式,構建注解。
在數據密集型應用中,模式挖掘作為預處理,廣泛地用于噪聲過濾和數據清理。模式挖掘也有助于發現隱藏在數據中的固有結構和簇。頻繁模式也可用于高維空間中子空間的有效聚類。對于時間空間數據、時間序列數據、圖像數據、視頻數據和多媒體數據的分析,模式分析也是有用的。模式挖掘還用于序列或結構數據分析,如樹、圖、子序列和網絡分析。頻繁模式和有判別力的模式可用做基本的索引結構(稱為圖索引),幫助搜索大型復雜的、結構化的數據集和網絡。頻繁模式還可用于推薦系統,可發現相關性、顧客行為的簇和基于一般事件或有判別力模式的分類模型。對模式挖掘有效計算方法的研究和可伸縮的計算研究相互加強。
7.7?小結
1)除了挖掘基本的頻繁項集和關聯外,還可以挖掘高級的模式形式,如多層關聯和多維關聯、量化關聯規則、稀有模式和負模式,還可挖掘高維模式、壓縮的或近似的模式。
2)多層關聯涉及多個抽象層中的數據,還可以使用多個最小支持度閾值挖掘。多維關聯包含多個維。挖掘這種關聯的技術因如何處理重復謂詞而異。量化關聯規則涉及量化屬性。離散化、聚類和揭示異常行為的統計分析可以與模式挖掘過程集成在一起。
3)稀有模式很少出現但特別有趣。負模式是其成員呈現負相關行為的模式。需小心定義負模式,考慮零不變性性質。稀有模式和負模式可能凸顯數據的異常行為,可能很有趣。
4)基于約束的挖掘策略可以用來引導挖掘過程,挖掘與用戶直觀一致或滿足某些約束的模式。約束分為模式剪枝約束和數據剪枝約束,這些約束的性質包括單調性、反單調性、數據反單調性和簡潔性。
5)高維空間模式挖掘方法,包括為挖掘維數很大但元組很少的數據集(如微陣列數據)的基于行枚舉的模式增長方法,以及通過模式融合方法挖掘巨型模式(即非常大的模式)。
6)為減少挖掘返回的模式數量,可以代之以挖掘壓縮模式或近似模式。壓縮模式可以通過基于聚類概念定義代表模式來挖掘,而近似模式則通過提取感知冗余的top-k模式(即k個代表模式的小集合,不僅具有高顯著性,而且相互之間低冗余)來挖掘。
7)可以產生語義注解來幫助用戶理解發現的頻繁模式的含義。注解類似詞典,提供關于項的語義信息,包括語境指示符、最具代表性的事務和語義最相似的模式。
8)頻繁模式挖掘具有廣泛的應用,涵蓋基于模式的數據清理,到基于模式的分類、聚類、離群點或異常分析。
總結
以上是生活随笔為你收集整理的【数据挖掘笔记七】高级模式挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 捕鼠记
- 下一篇: 【数据挖掘笔记八】分类:基本概念