【数据挖掘笔记一】引论
1.引論
1.1為什么進行數(shù)據(jù)挖掘
數(shù)據(jù)挖掘,從數(shù)據(jù)中發(fā)現(xiàn)知識(KDD),從各種各樣的應用數(shù)據(jù)中發(fā)現(xiàn)有趣數(shù)據(jù)模式。數(shù)據(jù)挖掘把大型數(shù)據(jù)集轉換成知識。數(shù)據(jù)挖掘是信息技術自然進化的結果。數(shù)據(jù)庫和數(shù)據(jù)管理功能不斷發(fā)展,從數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建、到數(shù)據(jù)管理(包括數(shù)據(jù)存儲和檢索、數(shù)據(jù)庫事務處理)、再到高級數(shù)據(jù)分析(包括數(shù)據(jù)倉庫和數(shù)據(jù)挖掘)。如下圖。
現(xiàn)在還要加上大數(shù)據(jù)和人工智能,沒有大量數(shù)據(jù)集的處理,不能成就今天的人工智能。大數(shù)據(jù)是基于數(shù)據(jù)倉庫而起的。數(shù)據(jù)倉庫是一種存儲結構,一種多個異構數(shù)據(jù)源在單個站點以統(tǒng)一的模型組織的存儲,以支持管理決策。大數(shù)據(jù)不是單個站點了,是一個集群了,這里面和并行、云、分布式計算的發(fā)展大有關系。數(shù)據(jù)倉庫技術包括數(shù)據(jù)清理、數(shù)據(jù)集成和聯(lián)機事務處理(OLAP)。OLAP是一種分析技術,具有匯總、合并和聚集以及從不同的角度觀察信息的能力。OLAP雖然支持多維分析和決策,但對于深層次的分析,仍需其他分析工具,如提供數(shù)據(jù)分類、聚類、離群點/異常檢測和刻畫數(shù)據(jù)隨時間變化等特征的數(shù)據(jù)挖掘工具。
豐富的數(shù)據(jù)加上對數(shù)據(jù)分析的強烈需求,推動著挖掘技術的發(fā)展。如若不然,就陷入“數(shù)據(jù)豐富,但信息貧乏”的境況,一般情況,大型數(shù)據(jù)庫中的數(shù)據(jù)都成了檔案-數(shù)據(jù)墳墓。急需為決策者提供從海量數(shù)據(jù)中提取有價值知識的工具。專家系統(tǒng)和知識庫系統(tǒng)是一種嘗試,不過需要人工將知識輸入知識庫。數(shù)據(jù)和信息之間存在鴻溝,要發(fā)展挖掘工具,將數(shù)據(jù)墳墓變成金塊。
1.2什么是數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識的過程。一般由以下步驟的迭代序列構成:
1)數(shù)據(jù)清理:消除噪聲或刪除不一致數(shù)據(jù);
2)數(shù)據(jù)集成:多種數(shù)據(jù)源可以組合在一起;
3)數(shù)據(jù)選擇:從數(shù)據(jù)庫中提取與分析任務相關的數(shù)據(jù);
4)數(shù)據(jù)變換:通過匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式,如數(shù)據(jù)歸約;
5)數(shù)據(jù)挖掘:基本步驟,使用智能方法提取數(shù)據(jù)模式;
6)模式評估:根據(jù)某種興趣度度量,識別代表知識的真正有趣的模式;
7)知識表示:使用可視化和知識表示技術,向用戶提供挖掘的知識。
1.3可以挖掘什么類型的數(shù)據(jù)
數(shù)據(jù)挖掘是一種通用技術,以應用為目標導向,可用于挖掘任何類型的數(shù)據(jù)。對于挖掘的應用,數(shù)據(jù)的基本形式有:數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)和事務數(shù)據(jù),也可用于如數(shù)據(jù)流、序列數(shù)據(jù)、圖、網絡數(shù)據(jù)、空間數(shù)據(jù)、多媒體數(shù)據(jù)、萬維網等其他類型數(shù)據(jù)。
1)數(shù)據(jù)庫系統(tǒng)
數(shù)據(jù)庫系統(tǒng),也稱數(shù)據(jù)庫管理系統(tǒng)(DBMS),由一組內部相關的數(shù)據(jù)(稱做數(shù)據(jù)庫)和一組管理和存取數(shù)據(jù)的軟件程序組成。軟件提供如下機制:定義數(shù)據(jù)庫結構和數(shù)據(jù)存儲,說明和管理并發(fā)、共享或分布式數(shù)據(jù)訪問,面對系統(tǒng)癱瘓或未授權的訪問,確保存儲的信息的一致性和安全性。
關系數(shù)據(jù)庫是表的匯集,每個表都被賦予一個唯一的名字。每個表都包含一組屬性(列或字段),并且通常存放大量元組(記錄或行)。關系表中的每個元組代表一個對象,被唯一的關鍵字標識,并被一組屬性值描述。通常為關系數(shù)據(jù)庫構建語義數(shù)據(jù)模型,如實體-聯(lián)系(ER)數(shù)據(jù)模型。ER數(shù)據(jù)模型將數(shù)據(jù)庫表示成一組實體和它們之間的關系。
關系數(shù)據(jù)庫可以通過數(shù)據(jù)庫查詢訪問。數(shù)據(jù)庫查詢使用如SQL這樣的關系查詢語言,或借助于圖形用戶界面書寫。一個給定的查詢被轉換成一系列關系操作,如連接、選擇和投影,并被優(yōu)化,以便有效地處理。查詢可以提取數(shù)據(jù)的一個指定的子集,關系查詢語言也包含聚集函數(shù),如sum、avg、count、max和min。當數(shù)據(jù)挖掘用于關系數(shù)據(jù)庫時,可進一步搜索趨勢或數(shù)據(jù)模式;如可以分析顧客數(shù)據(jù),根據(jù)顧客收入、年齡和以前的信用信息預測新顧客的信用風險。數(shù)據(jù)挖掘系統(tǒng)也可以檢測偏差。
關系數(shù)據(jù)庫是數(shù)據(jù)挖掘最常見、最豐富的信息源,因此是數(shù)據(jù)挖掘研究的主要數(shù)據(jù)形式。
2)數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個從多個數(shù)據(jù)源收集的信息存儲庫,存放在一致的模式下,并且通常駐留在單個站點上。數(shù)據(jù)庫倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構造。為支持決策,數(shù)據(jù)倉庫中的數(shù)據(jù)圍繞主題組織,數(shù)據(jù)存儲從歷史的角度提供信息并匯總。三個詞:主題、匯總、歷史。
通常,數(shù)據(jù)倉庫用稱做數(shù)據(jù)立方體(data cube)的多維數(shù)據(jù)結構建模。其中,每個維對應于模式中的一個或一組屬性,而每個單元存放某種聚焦度量值,如count或sum。數(shù)據(jù)立方體提供數(shù)據(jù)的多維視圖,并允許預計算和快速訪問匯總數(shù)據(jù)。通過提供多維數(shù)據(jù)視圖和匯總數(shù)據(jù)的預計算,數(shù)據(jù)倉庫非常適合聯(lián)機分析處理(OLAP)。OLAP操作使用所研究的數(shù)據(jù)的領域的背景知識,允許在不同的抽象層提供數(shù)據(jù)。這些操作適合不同的用戶角度。OLAP操作的例子包括下鉆(drill-down)和上卷(roll-up),允許用戶在不同的匯總級別觀察數(shù)據(jù)。
盡管數(shù)據(jù)倉庫工具對于支持數(shù)據(jù)分析是有幫助的,但是進行深入分析仍然需要更多的數(shù)據(jù)挖掘工具。多維數(shù)據(jù)挖掘(又稱探索式多維數(shù)據(jù)挖掘)以OLAP風格在多維空間進行數(shù)據(jù)挖掘。也就是說,在數(shù)據(jù)挖掘中,允許在各種粒度進行多維組合探查,因此更有可能發(fā)現(xiàn)代表知識的有趣模式。
3)事務數(shù)據(jù)
事務數(shù)據(jù)庫的每個記錄代表一個事務,如顧客的一次購物、一個航班訂票或一個用戶的網頁點擊。通常,一個事務包含一個唯一的事務標識號(trans_ID),以及一個組成事務的項(如交易中購買的商品)的列表。事務數(shù)據(jù)庫可能有一些與之相關聯(lián)的附加表,包含關于事務的其他信息,如商品描述、關于銷售人員或部門等的信息。
事務數(shù)據(jù)上的數(shù)據(jù)挖掘可以通過挖掘頻繁項集進行“購物籃數(shù)據(jù)分析”。頻繁項集是頻繁地一起銷售的商品的集合。
4)其他類型數(shù)據(jù)
除關系數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)和事務數(shù)據(jù)外,還有其他類型的數(shù)據(jù),它們具有各種各樣的形式和結構,具有很不相同的語義。如時間相關或序列數(shù)據(jù)(如歷史記錄、股票交易數(shù)據(jù)、時間序列和生物學序列數(shù)據(jù))、數(shù)據(jù)流(如視頻監(jiān)控和傳感器數(shù)據(jù),它們連續(xù)播送)、空間數(shù)據(jù)(如地圖)、工程設計數(shù)據(jù)(如建筑數(shù)據(jù)、系統(tǒng)部件或集成電路)、超文本和多媒體數(shù)據(jù)(包括文本、圖像、視頻和音頻數(shù)據(jù))、圖和網狀數(shù)據(jù)(如社會和信息網絡)和萬維網(由Internet提供的巨型、廣泛分布的信息存儲庫)。這些應用帶來新的挑戰(zhàn),如如何處理具有空間結構的數(shù)據(jù)(如序列、樹、圖和網絡)和特殊語義(如次序、圖像、音頻和視頻的內容、連接性),以及如何挖掘具有豐富結構和語義的模式。
在許多應用中,存在多種數(shù)據(jù)類型。如web挖掘中,網頁上有文本數(shù)據(jù)和多媒體數(shù)據(jù)(如照片和視頻)、圖形數(shù)據(jù)、地圖數(shù)據(jù);如在生物信息學中,對某些生物學對象,染色體序列、生物學網絡和染色體的3D空間結構可能同時存在。由于多個數(shù)據(jù)源的相互提升和加強,挖掘復雜對象的多個數(shù)據(jù)源常常導致碩果累累的發(fā)現(xiàn)。另一方面,由于數(shù)據(jù)清理和數(shù)據(jù)集成的困難性,以及這種數(shù)據(jù)的多個數(shù)據(jù)源之間的復雜相互作用,挖掘復雜對象也是一大挑戰(zhàn)。
1.4可以挖掘什么類型的模式
數(shù)據(jù)挖掘的任務分類:描述性(descriptive)和預測性(predictive),描述性挖掘任務刻畫目標數(shù)據(jù)中數(shù)據(jù)的一般性質;預測性挖掘任務在當前數(shù)據(jù)上進行歸納,以便做出預測。
1)特征化與區(qū)分
數(shù)據(jù)可以與類或概念相關聯(lián),對于類或概念的描述可通過如下方法得到:a、數(shù)據(jù)特征化,一般地匯總所研究類(目標類)的數(shù)據(jù);b、數(shù)據(jù)區(qū)分,將目標類與一個或多個可比較類(對比類)進行比較;c、數(shù)據(jù)特征化和區(qū)分。
數(shù)據(jù)特征化(datacharacterization)是目標類數(shù)據(jù)的一般特性或特征的匯總。通常,通過查詢來收集對應于用戶指定類的數(shù)據(jù)。將數(shù)據(jù)匯總和特征化有一些有效的方法,如基于統(tǒng)計量和圖的簡單匯總、基于數(shù)據(jù)立方體的OLAP上卷操作。面向屬性的歸納技術可以用來進行數(shù)據(jù)的泛化和特征化。數(shù)據(jù)特征化的輸出有多種形式,如餅圖、條圖、曲線、多維數(shù)據(jù)立方體和包括交叉表在內的多維表。結果描述也可以用廣義關系或規(guī)則(稱做特征規(guī)則)形式提供。
數(shù)據(jù)區(qū)分(datadiscrimination)是將目標類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般特性進行比較。目標類和對比類可以由用戶指定,而對應的數(shù)據(jù)對象可以通過數(shù)據(jù)庫查詢檢索。數(shù)據(jù)區(qū)分的輸出類似特征描述,不過區(qū)分描述包括比較度量,以區(qū)分目標類和對比類。用規(guī)則表示的區(qū)分描述稱為區(qū)分規(guī)則(discriminant rule)。
2)挖掘頻繁模式、關聯(lián)和相關性
頻繁模式(frequentpattern)是在數(shù)據(jù)中頻繁出現(xiàn)的模式。存在多種類型的頻繁模式,包括頻繁項集、頻繁子序列(或稱序列模式)和頻繁子結構。頻繁項集一般是指頻繁地在事務數(shù)據(jù)集中一起出現(xiàn)的商品的集合,如小賣部中顧客頻繁地一起購買牛奶和面包。頻繁出現(xiàn)的子序列,如先買便攜機再買數(shù)碼相機然后再買內存卡,這樣的模式就是一個頻繁序列模式。頻繁子結構可能涉及不同的結構形式,如圖、樹或格,可以與項集或子序列結合在一起。如果一個子結構頻繁地出現(xiàn),則稱為頻繁結構模式。挖掘頻繁模式導致發(fā)現(xiàn)數(shù)據(jù)中有趣的關聯(lián)和相關性。
關聯(lián)分析,對頻繁模式的相關性關系定義,用支持度和置信度,包括單維關聯(lián)和多維關聯(lián)。一個關聯(lián)規(guī)則被認為是無趣的而被丟棄,當且僅當不能同時滿足支持最小支持度閾值和最小置信度閾值。也可進一步分析,發(fā)現(xiàn)相關聯(lián)的屬性-值對之間的有趣的統(tǒng)計相關性(correlation)。頻繁項集挖掘是頻繁模式挖掘的基礎。
3)用于預測分析的分類和回歸
分類(classification)找出描述和區(qū)分數(shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預測類標號未知的對象的類標號。導出模型是基于對訓練數(shù)據(jù)集(即類標號已知的數(shù)據(jù)對象)的分析。該模型用來預測類標號未知的對象的類標號。模型有分類規(guī)則、決策樹、數(shù)學公式或神經網絡、樸素貝葉斯分類、支持向量機和k最近鄰分類。決策樹時一種類似于流程圖的樹結構,其中每個結點代表在一個屬性值上的測試,每個分支代表測試的一個結果,而樹葉代表類或類分布。當用于分類時,神經網絡是一組類似于神經元的處理單元,單元之間加權連接。
分類預測類別(離散的、無序的)標號,而回歸建立連續(xù)值函數(shù)模型。回歸用來預測缺失的或難以獲得的數(shù)值數(shù)據(jù)值,而不是離散的類標號。預測可以值數(shù)值預測或類標號預測。回歸分析(regression analysis)是一種最常用的數(shù)值預測的統(tǒng)計學方法。回歸也包含基于可用數(shù)據(jù)的分布趨勢識別。
相關分析(relevanceanalysis)在分類和回歸之前進行,識別與分類或回歸過程顯著相關的屬性,將選擇這些屬性用于分類和回歸過程,其他屬性是不相關,不參與。
4)聚類分析
聚類(clustering)分析數(shù)據(jù)對象,而不考慮類標號。對不存在標記類的數(shù)據(jù),可使用聚類產生數(shù)據(jù)組群的類標號。對象根據(jù)最大化類內相似性、最小化類間相似性的原則進行聚類或分組。對象的簇(cluster)使得相比之下在同一個簇中的對象具有很高的相似性,而與其他簇中的對象很不相似。所形成的每個簇都可以看做一個對象類,由它可以導出規(guī)則。聚類也便于分類法形式(taxonomy formation),即將觀測組織成類分層結構,把類似的事件組織在一起。
5)離群點分析
數(shù)據(jù)集中可能包含一些數(shù)據(jù)對象,它們與數(shù)據(jù)的一般行為或模型不一致。這些數(shù)據(jù)對象是離群點(outlier)。大部分數(shù)據(jù)挖掘方法都將離群點視為噪聲或異常而丟棄。不過,在一些應用中(例如欺詐檢測),罕見的事件可能比正常出現(xiàn)的事件更令人感興趣。離群點數(shù)據(jù)分析稱做離群點分析或異常挖掘。
可以假定一個數(shù)據(jù)分析或概率模型,使用統(tǒng)計檢驗來檢測離群點;或者使用距離度量,將遠離任何簇的對象視為離群點。不使用統(tǒng)計或距離度量,基于密度的方法也可以識別局部區(qū)域中的離群點。
6)所有模式都是有趣的嗎
有趣的模式即代表知識。不過所挖掘的模式并不一定都是有趣的。一個模式是有趣的(interesting),滿足:a、易于被人理解;b、在某種確信度上,對于新的或檢驗數(shù)據(jù)是有效的;c、是潛在有用的;d、是新穎的。如果一個模式證實了用戶尋求證實的某種假設,則它也是有趣的。
模式興趣度的客戶度量,度量基于所發(fā)現(xiàn)模式的結構和關于它們的統(tǒng)計量。對于形如X->Y的關聯(lián)規(guī)則,客觀度量有規(guī)則的支持度(support)和規(guī)則的置信度(confidence)。支持度表示事務數(shù)據(jù)庫中滿足規(guī)則的事務所占的百分比,支持度取概率P(XUY),XUY表示同時包含X和Y的事務,即項集X和Y的合并。置信度用于評估所發(fā)現(xiàn)的規(guī)則的確信程度,置信度取條件概率P(Y|X),即包含X的事務也包含Y的概率。形式化定義支持度和置信度:
一般地,每個興趣度度量都與一個閾值相關聯(lián),該閾值可以由用戶控制。
其他興趣度度量包括分類(IF-THEN)規(guī)則的準確率與覆蓋率。一般而言,準確率是被一個規(guī)則正確分類的數(shù)據(jù)所占的百分比。覆蓋率類似于支持度,指可以作用的數(shù)據(jù)所占的百分比。
客觀度量有助于識別有趣的模式,不過還是要結合反映特定用戶需要和興趣的主觀度量。主觀興趣度量基于用戶對數(shù)據(jù)的信念。這種度量發(fā)現(xiàn)模式是有趣的,如果它們是出乎意料的(與用戶的信念相矛盾),或者提供用戶可以采取行動的至關重要的信息。在后一種情況下,這樣的模型稱為可行動的(actionable)。
根據(jù)用戶提供的約束和興趣度度量對搜索聚焦,對于一些挖掘任務(如關聯(lián))而言,可期望所挖掘出的模式相對有效。模式興趣度度量是必要的,可以指導和約束發(fā)現(xiàn)過程,通過剪去模式空間中不滿足預先設定的興趣度約束的子集,提高搜索性能。
整個挖掘過程基本是:數(shù)據(jù)特征化和區(qū)分,實際就是特征抽取;接著就是相關性分析,就是特征選擇;然后就是模型訓練;最后就是模型評估,有趣模式度量。
1.5使用什么技術
作為一個應用驅動的領域,數(shù)據(jù)挖局吸納了諸如統(tǒng)計學、機器學習、模式識別、數(shù)據(jù)庫和數(shù)據(jù)倉庫、信息檢索、可視化、算法、高性能計算和許多應用領域的大量技術,如下圖。
1)統(tǒng)計學
統(tǒng)計學研究數(shù)據(jù)的收集、分析、解釋和表示。數(shù)據(jù)挖掘與統(tǒng)計學具有天然聯(lián)系。
統(tǒng)計模型是一組數(shù)學函數(shù),用隨機變量及其概率分布刻畫目標類對象的行為。如可使用統(tǒng)計模型對噪聲和缺失的數(shù)據(jù)值建模,在大數(shù)據(jù)集挖掘模式時,數(shù)據(jù)挖掘過程可以使用該模型來幫助識別數(shù)據(jù)中的噪聲和缺失值。
推理統(tǒng)計學(或預測統(tǒng)計學)用某種方式對數(shù)據(jù)建模,解釋觀測中的隨機性和確定性,并用來提取關于所考察的過程或總體的結論。統(tǒng)計學方法也用來驗證數(shù)據(jù)挖掘結果。如建立分類或預測模型之后,使用統(tǒng)計假設檢驗來驗證模型。統(tǒng)計假設檢驗(或稱做證實數(shù)據(jù)分析)使用實驗數(shù)據(jù)進行統(tǒng)計判決,如果結果不大可能隨機出現(xiàn),則稱它為統(tǒng)計顯著的。如果分類或預測模型有效,則該模型的描述統(tǒng)計量將增強模型的可靠性。
統(tǒng)計學方法應用于大型數(shù)據(jù)集時,具有很高的計算復雜度,尤其是對分布在多個邏輯或物理站點的大型數(shù)據(jù)集時,需設計和調優(yōu)算法,最大程度降低計算開銷。對于聯(lián)機應用而言,如web搜索引擎中的聯(lián)機查詢建議,數(shù)據(jù)挖掘要能夠連續(xù)處理快速、實時的數(shù)據(jù)流。
2)機器學習
機器學習是考察計算機基于數(shù)據(jù)的學習能力,主要研究計算機程序基于數(shù)據(jù)自動地學習識別復雜的模式,并做出智能的決斷。如計算機程序從一組實例學習,能夠自動識別郵件上的手寫體郵政編碼。
a、?監(jiān)督學習(supervised learning):分類任務,學習中的監(jiān)督來自訓練數(shù)據(jù)集中標記的實例。
b、?無監(jiān)督學習(unsupervised learning):聚類任務,學習過程是無監(jiān)督的,輸入實例沒有標記。
c、?半監(jiān)督學習(semi-supervised learning):學習模型時,使用標記的和未標記的實例,標記的實例用來學習類模型,而未標記的實例用來進一步改進類邊界。
d、?主動學習(active learning):讓用戶在學習過程中扮演主動角色,其實就是專家給標記。
3)數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫
數(shù)據(jù)庫系統(tǒng)研究關注為單位和最終用戶創(chuàng)建、維護和使用數(shù)據(jù)庫,建立了數(shù)據(jù)建模、查詢語言、查詢處理和優(yōu)化方法、數(shù)據(jù)存儲以及索引和存取方法。數(shù)據(jù)庫系統(tǒng)在處理大的、相對結構化的數(shù)據(jù)集上具有高度可伸縮性。數(shù)據(jù)挖掘利用可伸縮的數(shù)據(jù)庫技術,可獲得在大型數(shù)據(jù)集上的高效率和可伸縮性。
新的數(shù)據(jù)庫系統(tǒng)使用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘機制,在數(shù)據(jù)庫的數(shù)據(jù)上建立數(shù)據(jù)分析能力。數(shù)據(jù)倉庫集成多種數(shù)據(jù)源和各個時間段的數(shù)據(jù),在多維空間上合并數(shù)據(jù)形成部分物化的數(shù)據(jù)立方體。數(shù)據(jù)立方體有利于多維數(shù)據(jù)庫的OLAP。
4)信息檢索
信息檢索(IR)是搜索文檔或文檔中信息的科學。傳統(tǒng)的信息檢索和數(shù)據(jù)庫系統(tǒng)之間的區(qū)別是:信息檢索假定所搜索的數(shù)據(jù)是無結構的;信息檢索查詢主要用關鍵詞。
信息檢索的方法采用概率模型。如文本文檔可以看做詞的包,即出現(xiàn)在文檔中的詞的多重集;文檔的語言模型是生成文檔中詞的包的概率密度函數(shù);兩個文檔之間的相似度可用對應的語言模型之間的相似性度量。一個文本文檔集的主體可以用詞匯表上的概率分布模型,稱做主題模型。一個文本文檔可以涉及多個主題,可以看做多主題混合模型。
1.6面向什么類型的應用
數(shù)據(jù)挖掘作為應用驅動的學科,在眾多應用中獲得巨大成功,典型就是商務智能和搜索引擎。
1)商務智能
商務智能BI技術提供商務運作的歷史、現(xiàn)狀和預測視圖,包括報告、聯(lián)機分析處理、商務業(yè)績管理、競爭情報、標桿管理和預測分析。數(shù)據(jù)挖掘是商務智能的核心。商務智能的聯(lián)機分析處理工具依賴于數(shù)據(jù)倉庫和多維數(shù)據(jù)挖掘。分類和預測技術是商務智能預測分析的核心,在分析市場、供應和銷售方面有很多應用。在客戶關系管理方面,聚類可根據(jù)顧客的相似性把顧客分組,使用特征挖掘技術,可以更好地理解每組顧客的特征,并開發(fā)定制的顧客獎勵計劃。
2)搜索引擎
Web搜索引擎是一種專門的計算機服務器,在web上搜索信息。通常,用戶查詢的搜索結果用一張表返回給用戶(也稱做采樣hit)。采樣可以包含網頁、圖像和其他類型的文件。有些搜索引擎也搜索和返回公共數(shù)據(jù)庫中的數(shù)據(jù)或開放的目錄。搜索引擎不同于網絡目錄,因為網絡目錄是人工編輯管理的,而搜索引擎則按算法運行,或者算法和人工輸入的混合。
Web搜索引擎本質上式大型數(shù)據(jù)挖掘應用。搜索引擎全方位地使用各種數(shù)據(jù)挖掘技術,包括爬行(如決定應該爬過那些頁面和爬行頻率)、索引(如選擇被索引的頁面和決定構建索引的范圍)和搜索(如確定如何排列各個頁面、加載何種廣告、如果把搜索結果個性化或使之環(huán)境敏感)。
搜索引擎對數(shù)據(jù)挖掘提出了挑戰(zhàn)。首先能處理大量并且不斷增加的數(shù)據(jù),需計算機云來協(xié)調挖掘海量數(shù)據(jù);其次需要處理在線數(shù)據(jù),滿足即時查詢,對快速增長的數(shù)據(jù)流要維護和增量更新模型;最后能處理次數(shù)不多的查詢,這種情況一般不會保留歷史推斷查詢的環(huán)境。
1.7數(shù)據(jù)挖掘的主要問題
數(shù)據(jù)挖掘是一個動態(tài)的、強勢快速發(fā)展的領域。數(shù)據(jù)挖掘研究的主要問題:挖掘方法、用戶交互、有效性與可伸縮性、數(shù)據(jù)類型的多樣性、數(shù)據(jù)挖掘與社會。
1)挖掘方法
a、挖掘各種新的知識類型:數(shù)據(jù)挖掘廣泛涵蓋數(shù)據(jù)分析和知識發(fā)現(xiàn)的任務,從數(shù)據(jù)特征化與區(qū)分到關聯(lián)與相關性分析、分類、回歸、聚類、離群點分析、序列分析以及趨勢和演變分析。
b、挖掘多維空間中的知識:在不同抽象層的多維(屬性)組合中搜索有趣的模式,即探索式多維數(shù)據(jù)挖掘;把數(shù)據(jù)看做多維數(shù)據(jù)立方體,可顯著地提高數(shù)據(jù)挖掘的能力和靈活性。
c、數(shù)據(jù)挖掘-跨學科的努力:通過集成來自多學科的新方法可以顯著增強數(shù)據(jù)挖掘的能力。如挖掘自然語言文本數(shù)據(jù),要把數(shù)據(jù)挖掘方法與信息檢索和自然語言處理的方法融合;比如大型程序中的軟件故障挖掘,要結合軟件工程知識。
d、提升網絡環(huán)境下的發(fā)現(xiàn)能力:所謂網絡環(huán)境,就是開放的,數(shù)據(jù)是互連互補的;多個數(shù)據(jù)對象之間的語義鏈接可以用來促進數(shù)據(jù)挖掘。一個數(shù)據(jù)集中導出的知識可以用來提升相關或語義連接的對象集中的知識發(fā)現(xiàn)。
e、處理不確定性、噪聲或不完全的數(shù)據(jù):數(shù)據(jù)常常包含噪聲、錯誤、異常、不確定性,或者是不完全的;錯誤和噪聲可能干擾數(shù)據(jù)挖掘過程,導致錯誤的模式出現(xiàn)。數(shù)據(jù)清理、數(shù)據(jù)預處理、離群點檢測與刪除以及不確定推理都是需要與數(shù)據(jù)挖掘過程集成的技術。
f、模式評估和模式或約束指導的挖掘:數(shù)據(jù)挖掘過程所產生的所有模式并非都是有趣的,認定模型是否有趣因應用而異,因此需要一種技術來評估基于主觀度量所發(fā)現(xiàn)的模式的興趣度。這種評估給定用戶類,基于用戶的確信或期望,評估模式的價值;通過使用興趣度度量或用戶指定的約束指導發(fā)現(xiàn)過程,可以產生更有趣的模式,壓縮搜索空間。
2)用戶界面
用戶界面研究包括:如何與數(shù)據(jù)挖掘系統(tǒng)交互,如何在挖掘中融入用戶的背景知識,以及如何可視化和理解數(shù)據(jù)挖掘的結果。
a、?交互挖掘:構建靈活的用戶界面和探索式挖掘環(huán)境,以便用戶與系統(tǒng)交互。
b、?結合背景知識:把背景知識、約束、規(guī)則等信息結合到發(fā)現(xiàn)過程中,用于模式評估。
c、?特定的數(shù)據(jù)挖掘和數(shù)據(jù)挖掘查詢語言。
d、?數(shù)據(jù)挖掘結果的表示和可視化。
3)有效性和可伸縮性
a、數(shù)據(jù)挖掘算法的有效性和可伸縮性:為有效地從多個數(shù)據(jù)庫或動態(tài)數(shù)據(jù)流的海量數(shù)據(jù)中提取信息,數(shù)據(jù)挖掘算法必須是有效的和可伸縮的。數(shù)據(jù)挖掘算法的運行時間必須是可預計的、短的和可以被應用接收的。有效性、可伸縮性、性能、優(yōu)化以及實時運行能力是驅動數(shù)據(jù)挖掘算法開發(fā)的關鍵標準。可伸縮性就是算法在數(shù)據(jù)規(guī)模增長時能夠保持性能的相對穩(wěn)定。
b、并行、分布式和增量數(shù)據(jù)算法:巨大容量的數(shù)據(jù)、廣泛分布的數(shù)據(jù)以及算法的計算復雜性都需要開發(fā)并行和分布式數(shù)據(jù)密集型挖掘算法;該類算法首先把數(shù)據(jù)劃分成若干片段,每個片段并行處理,搜索模式;并行處理可以交互,來自每部分的模式最終合并在一起。
云計算和集群計算使用分布和協(xié)同的計算機處理超大規(guī)模計算任務,是并行數(shù)據(jù)挖掘研究的活躍主體。數(shù)據(jù)挖掘過程的高開銷和輸入的增量也推動了增量數(shù)據(jù)挖掘,增量挖掘與新的數(shù)據(jù)結合,不從頭開始挖掘,修正和加強先前業(yè)已發(fā)現(xiàn)的知識。并行挖掘和增量挖掘值得深入探究挖掘方法。
4)數(shù)據(jù)庫類型的多樣性
a、處理復雜的數(shù)據(jù)類型。
b、挖掘動態(tài)的、網絡的、全球的數(shù)據(jù)庫。
5)數(shù)據(jù)挖掘與社會
a、數(shù)據(jù)挖掘對社會的影響。
b、保護隱私的數(shù)據(jù)挖掘。
c、無形的數(shù)據(jù)挖掘:滲透到大眾的日常行為中。
1.8小結
1)數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)有趣模式的過程。作為知識發(fā)現(xiàn)的過程,通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評估和知識表示。
2)一個模式是有趣的,如果它在某種確信度上對于檢驗數(shù)據(jù)是有效的、新穎的、潛在有用的(如據(jù)之行動,或者驗證了用戶關注的某種預感),并且易于被人理解。有趣的模式代表知識。模式興趣度度量,無論是客觀的還是主觀的,都可以用來指導發(fā)現(xiàn)過程。
3)數(shù)據(jù)挖掘的多維視圖,主要的維是數(shù)據(jù)、知識、技術和應用。
4)只要對目標應用是有意義的,數(shù)據(jù)挖掘可以在任何類型的數(shù)據(jù)上進行,如數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)、事務數(shù)據(jù)和高級數(shù)類型等。高級數(shù)據(jù)類型包括時間相關的或序列數(shù)據(jù)、數(shù)據(jù)流、空間和時空數(shù)據(jù)、文本和多媒體數(shù)據(jù)、圖和網絡數(shù)據(jù)、web數(shù)據(jù)。
5)數(shù)據(jù)倉庫是一種用于長期存儲數(shù)據(jù)的倉庫,數(shù)據(jù)來自多個源,以主題和統(tǒng)一模式組織的,提供聯(lián)機分析處理能力,支持管理決策。
6)多維數(shù)據(jù)挖掘,把數(shù)據(jù)挖掘的核心技術與基于OLAP的多維分析結合在一起,在不同的抽象層的多維(屬性)組合中搜索有趣的模式,從而探索多維數(shù)據(jù)空間。
7)數(shù)據(jù)挖掘功能用來指定數(shù)據(jù)挖掘任務發(fā)現(xiàn)的模式或知識類型,包括特征化和區(qū)分,頻繁模式、關聯(lián)和相關性挖掘,分類和回歸,聚類分析和離群點檢測。
8)數(shù)據(jù)挖掘研究存在很多挑戰(zhàn)性問題,包括挖掘方法、用戶交互、有效性和可伸縮性以及處理多樣化的數(shù)據(jù)類型。
?
總結
以上是生活随笔為你收集整理的【数据挖掘笔记一】引论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java之String、StringBu
- 下一篇: Hadoop性能调优概要说明