當前位置：首頁 >

【数据挖掘笔记一】引论

發(fā)布時間：2025/4/16 45 豆豆

生活随笔收集整理的這篇文章主要介紹了【数据挖掘笔记一】引论小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.引論

1.1為什么進行數(shù)據(jù)挖掘

數(shù)據(jù)挖掘，從數(shù)據(jù)中發(fā)現(xiàn)知識（KDD），從各種各樣的應用數(shù)據(jù)中發(fā)現(xiàn)有趣數(shù)據(jù)模式。數(shù)據(jù)挖掘把大型數(shù)據(jù)集轉換成知識。數(shù)據(jù)挖掘是信息技術自然進化的結果。數(shù)據(jù)庫和數(shù)據(jù)管理功能不斷發(fā)展，從數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建、到數(shù)據(jù)管理（包括數(shù)據(jù)存儲和檢索、數(shù)據(jù)庫事務處理）、再到高級數(shù)據(jù)分析（包括數(shù)據(jù)倉庫和數(shù)據(jù)挖掘）。如下圖。

現(xiàn)在還要加上大數(shù)據(jù)和人工智能，沒有大量數(shù)據(jù)集的處理，不能成就今天的人工智能。大數(shù)據(jù)是基于數(shù)據(jù)倉庫而起的。數(shù)據(jù)倉庫是一種存儲結構，一種多個異構數(shù)據(jù)源在單個站點以統(tǒng)一的模型組織的存儲，以支持管理決策。大數(shù)據(jù)不是單個站點了，是一個集群了，這里面和并行、云、分布式計算的發(fā)展大有關系。數(shù)據(jù)倉庫技術包括數(shù)據(jù)清理、數(shù)據(jù)集成和聯(lián)機事務處理（OLAP）。OLAP是一種分析技術，具有匯總、合并和聚集以及從不同的角度觀察信息的能力。OLAP雖然支持多維分析和決策，但對于深層次的分析，仍需其他分析工具，如提供數(shù)據(jù)分類、聚類、離群點/異常檢測和刻畫數(shù)據(jù)隨時間變化等特征的數(shù)據(jù)挖掘工具。

豐富的數(shù)據(jù)加上對數(shù)據(jù)分析的強烈需求，推動著挖掘技術的發(fā)展。如若不然，就陷入“數(shù)據(jù)豐富，但信息貧乏”的境況，一般情況，大型數(shù)據(jù)庫中的數(shù)據(jù)都成了檔案-數(shù)據(jù)墳墓。急需為決策者提供從海量數(shù)據(jù)中提取有價值知識的工具。專家系統(tǒng)和知識庫系統(tǒng)是一種嘗試，不過需要人工將知識輸入知識庫。數(shù)據(jù)和信息之間存在鴻溝，要發(fā)展挖掘工具，將數(shù)據(jù)墳墓變成金塊。

1.2什么是數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識的過程。一般由以下步驟的迭代序列構成：

1）數(shù)據(jù)清理：消除噪聲或刪除不一致數(shù)據(jù)；

2）數(shù)據(jù)集成：多種數(shù)據(jù)源可以組合在一起；

3）數(shù)據(jù)選擇：從數(shù)據(jù)庫中提取與分析任務相關的數(shù)據(jù)；

4）數(shù)據(jù)變換：通過匯總或聚集操作，把數(shù)據(jù)變換和統(tǒng)一成適合挖掘的形式，如數(shù)據(jù)歸約；

5）數(shù)據(jù)挖掘：基本步驟，使用智能方法提取數(shù)據(jù)模式；

6）模式評估：根據(jù)某種興趣度度量，識別代表知識的真正有趣的模式；

7）知識表示：使用可視化和知識表示技術，向用戶提供挖掘的知識。

1.3可以挖掘什么類型的數(shù)據(jù)

數(shù)據(jù)挖掘是一種通用技術，以應用為目標導向，可用于挖掘任何類型的數(shù)據(jù)。對于挖掘的應用，數(shù)據(jù)的基本形式有：數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)和事務數(shù)據(jù)，也可用于如數(shù)據(jù)流、序列數(shù)據(jù)、圖、網絡數(shù)據(jù)、空間數(shù)據(jù)、多媒體數(shù)據(jù)、萬維網等其他類型數(shù)據(jù)。

1）數(shù)據(jù)庫系統(tǒng)

數(shù)據(jù)庫系統(tǒng)，也稱數(shù)據(jù)庫管理系統(tǒng)（DBMS），由一組內部相關的數(shù)據(jù)（稱做數(shù)據(jù)庫）和一組管理和存取數(shù)據(jù)的軟件程序組成。軟件提供如下機制：定義數(shù)據(jù)庫結構和數(shù)據(jù)存儲，說明和管理并發(fā)、共享或分布式數(shù)據(jù)訪問，面對系統(tǒng)癱瘓或未授權的訪問，確保存儲的信息的一致性和安全性。

關系數(shù)據(jù)庫是表的匯集，每個表都被賦予一個唯一的名字。每個表都包含一組屬性（列或字段），并且通常存放大量元組（記錄或行）。關系表中的每個元組代表一個對象，被唯一的關鍵字標識，并被一組屬性值描述。通常為關系數(shù)據(jù)庫構建語義數(shù)據(jù)模型，如實體-聯(lián)系（ER）數(shù)據(jù)模型。ER數(shù)據(jù)模型將數(shù)據(jù)庫表示成一組實體和它們之間的關系。

關系數(shù)據(jù)庫可以通過數(shù)據(jù)庫查詢訪問。數(shù)據(jù)庫查詢使用如SQL這樣的關系查詢語言，或借助于圖形用戶界面書寫。一個給定的查詢被轉換成一系列關系操作，如連接、選擇和投影，并被優(yōu)化，以便有效地處理。查詢可以提取數(shù)據(jù)的一個指定的子集，關系查詢語言也包含聚集函數(shù)，如sum、avg、count、max和min。當數(shù)據(jù)挖掘用于關系數(shù)據(jù)庫時，可進一步搜索趨勢或數(shù)據(jù)模式；如可以分析顧客數(shù)據(jù)，根據(jù)顧客收入、年齡和以前的信用信息預測新顧客的信用風險。數(shù)據(jù)挖掘系統(tǒng)也可以檢測偏差。

關系數(shù)據(jù)庫是數(shù)據(jù)挖掘最常見、最豐富的信息源，因此是數(shù)據(jù)挖掘研究的主要數(shù)據(jù)形式。

2）數(shù)據(jù)倉庫

數(shù)據(jù)倉庫是一個從多個數(shù)據(jù)源收集的信息存儲庫，存放在一致的模式下，并且通常駐留在單個站點上。數(shù)據(jù)庫倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構造。為支持決策，數(shù)據(jù)倉庫中的數(shù)據(jù)圍繞主題組織，數(shù)據(jù)存儲從歷史的角度提供信息并匯總。三個詞：主題、匯總、歷史。

通常，數(shù)據(jù)倉庫用稱做數(shù)據(jù)立方體（data cube）的多維數(shù)據(jù)結構建模。其中，每個維對應于模式中的一個或一組屬性，而每個單元存放某種聚焦度量值，如count或sum。數(shù)據(jù)立方體提供數(shù)據(jù)的多維視圖，并允許預計算和快速訪問匯總數(shù)據(jù)。通過提供多維數(shù)據(jù)視圖和匯總數(shù)據(jù)的預計算，數(shù)據(jù)倉庫非常適合聯(lián)機分析處理（OLAP）。OLAP操作使用所研究的數(shù)據(jù)的領域的背景知識，允許在不同的抽象層提供數(shù)據(jù)。這些操作適合不同的用戶角度。OLAP操作的例子包括下鉆（drill-down）和上卷（roll-up），允許用戶在不同的匯總級別觀察數(shù)據(jù)。

盡管數(shù)據(jù)倉庫工具對于支持數(shù)據(jù)分析是有幫助的，但是進行深入分析仍然需要更多的數(shù)據(jù)挖掘工具。多維數(shù)據(jù)挖掘（又稱探索式多維數(shù)據(jù)挖掘）以OLAP風格在多維空間進行數(shù)據(jù)挖掘。也就是說，在數(shù)據(jù)挖掘中，允許在各種粒度進行多維組合探查，因此更有可能發(fā)現(xiàn)代表知識的有趣模式。

3）事務數(shù)據(jù)

事務數(shù)據(jù)庫的每個記錄代表一個事務，如顧客的一次購物、一個航班訂票或一個用戶的網頁點擊。通常，一個事務包含一個唯一的事務標識號（trans_ID），以及一個組成事務的項（如交易中購買的商品）的列表。事務數(shù)據(jù)庫可能有一些與之相關聯(lián)的附加表，包含關于事務的其他信息，如商品描述、關于銷售人員或部門等的信息。

事務數(shù)據(jù)上的數(shù)據(jù)挖掘可以通過挖掘頻繁項集進行“購物籃數(shù)據(jù)分析”。頻繁項集是頻繁地一起銷售的商品的集合。

4）其他類型數(shù)據(jù)

除關系數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)和事務數(shù)據(jù)外，還有其他類型的數(shù)據(jù)，它們具有各種各樣的形式和結構，具有很不相同的語義。如時間相關或序列數(shù)據(jù)（如歷史記錄、股票交易數(shù)據(jù)、時間序列和生物學序列數(shù)據(jù)）、數(shù)據(jù)流（如視頻監(jiān)控和傳感器數(shù)據(jù)，它們連續(xù)播送）、空間數(shù)據(jù)（如地圖）、工程設計數(shù)據(jù)（如建筑數(shù)據(jù)、系統(tǒng)部件或集成電路）、超文本和多媒體數(shù)據(jù)（包括文本、圖像、視頻和音頻數(shù)據(jù)）、圖和網狀數(shù)據(jù)（如社會和信息網絡）和萬維網（由Internet提供的巨型、廣泛分布的信息存儲庫）。這些應用帶來新的挑戰(zhàn)，如如何處理具有空間結構的數(shù)據(jù)（如序列、樹、圖和網絡）和特殊語義（如次序、圖像、音頻和視頻的內容、連接性），以及如何挖掘具有豐富結構和語義的模式。

在許多應用中，存在多種數(shù)據(jù)類型。如web挖掘中，網頁上有文本數(shù)據(jù)和多媒體數(shù)據(jù)（如照片和視頻）、圖形數(shù)據(jù)、地圖數(shù)據(jù)；如在生物信息學中，對某些生物學對象，染色體序列、生物學網絡和染色體的3D空間結構可能同時存在。由于多個數(shù)據(jù)源的相互提升和加強，挖掘復雜對象的多個數(shù)據(jù)源常常導致碩果累累的發(fā)現(xiàn)。另一方面，由于數(shù)據(jù)清理和數(shù)據(jù)集成的困難性，以及這種數(shù)據(jù)的多個數(shù)據(jù)源之間的復雜相互作用，挖掘復雜對象也是一大挑戰(zhàn)。

1.4可以挖掘什么類型的模式

數(shù)據(jù)挖掘的任務分類：描述性（descriptive）和預測性（predictive），描述性挖掘任務刻畫目標數(shù)據(jù)中數(shù)據(jù)的一般性質；預測性挖掘任務在當前數(shù)據(jù)上進行歸納，以便做出預測。

1）特征化與區(qū)分

數(shù)據(jù)可以與類或概念相關聯(lián)，對于類或概念的描述可通過如下方法得到：a、數(shù)據(jù)特征化，一般地匯總所研究類（目標類）的數(shù)據(jù)；b、數(shù)據(jù)區(qū)分，將目標類與一個或多個可比較類（對比類）進行比較；c、數(shù)據(jù)特征化和區(qū)分。

數(shù)據(jù)特征化（datacharacterization）是目標類數(shù)據(jù)的一般特性或特征的匯總。通常，通過查詢來收集對應于用戶指定類的數(shù)據(jù)。將數(shù)據(jù)匯總和特征化有一些有效的方法，如基于統(tǒng)計量和圖的簡單匯總、基于數(shù)據(jù)立方體的OLAP上卷操作。面向屬性的歸納技術可以用來進行數(shù)據(jù)的泛化和特征化。數(shù)據(jù)特征化的輸出有多種形式，如餅圖、條圖、曲線、多維數(shù)據(jù)立方體和包括交叉表在內的多維表。結果描述也可以用廣義關系或規(guī)則（稱做特征規(guī)則）形式提供。

數(shù)據(jù)區(qū)分（datadiscrimination）是將目標類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般特性進行比較。目標類和對比類可以由用戶指定，而對應的數(shù)據(jù)對象可以通過數(shù)據(jù)庫查詢檢索。數(shù)據(jù)區(qū)分的輸出類似特征描述，不過區(qū)分描述包括比較度量，以區(qū)分目標類和對比類。用規(guī)則表示的區(qū)分描述稱為區(qū)分規(guī)則（discriminant rule）。

2）挖掘頻繁模式、關聯(lián)和相關性

頻繁模式（frequentpattern）是在數(shù)據(jù)中頻繁出現(xiàn)的模式。存在多種類型的頻繁模式，包括頻繁項集、頻繁子序列（或稱序列模式）和頻繁子結構。頻繁項集一般是指頻繁地在事務數(shù)據(jù)集中一起出現(xiàn)的商品的集合，如小賣部中顧客頻繁地一起購買牛奶和面包。頻繁出現(xiàn)的子序列，如先買便攜機再買數(shù)碼相機然后再買內存卡，這樣的模式就是一個頻繁序列模式。頻繁子結構可能涉及不同的結構形式，如圖、樹或格，可以與項集或子序列結合在一起。如果一個子結構頻繁地出現(xiàn)，則稱為頻繁結構模式。挖掘頻繁模式導致發(fā)現(xiàn)數(shù)據(jù)中有趣的關聯(lián)和相關性。

關聯(lián)分析，對頻繁模式的相關性關系定義，用支持度和置信度，包括單維關聯(lián)和多維關聯(lián)。一個關聯(lián)規(guī)則被認為是無趣的而被丟棄，當且僅當不能同時滿足支持最小支持度閾值和最小置信度閾值。也可進一步分析，發(fā)現(xiàn)相關聯(lián)的屬性-值對之間的有趣的統(tǒng)計相關性（correlation）。頻繁項集挖掘是頻繁模式挖掘的基礎。

3）用于預測分析的分類和回歸

分類（classification）找出描述和區(qū)分數(shù)據(jù)類或概念的模型（或函數(shù)），以便能夠使用模型預測類標號未知的對象的類標號。導出模型是基于對訓練數(shù)據(jù)集（即類標號已知的數(shù)據(jù)對象）的分析。該模型用來預測類標號未知的對象的類標號。模型有分類規(guī)則、決策樹、數(shù)學公式或神經網絡、樸素貝葉斯分類、支持向量機和k最近鄰分類。決策樹時一種類似于流程圖的樹結構，其中每個結點代表在一個屬性值上的測試，每個分支代表測試的一個結果，而樹葉代表類或類分布。當用于分類時，神經網絡是一組類似于神經元的處理單元，單元之間加權連接。

分類預測類別（離散的、無序的）標號，而回歸建立連續(xù)值函數(shù)模型。回歸用來預測缺失的或難以獲得的數(shù)值數(shù)據(jù)值，而不是離散的類標號。預測可以值數(shù)值預測或類標號預測。回歸分析（regression analysis）是一種最常用的數(shù)值預測的統(tǒng)計學方法。回歸也包含基于可用數(shù)據(jù)的分布趨勢識別。

相關分析（relevanceanalysis）在分類和回歸之前進行，識別與分類或回歸過程顯著相關的屬性，將選擇這些屬性用于分類和回歸過程，其他屬性是不相關，不參與。

4）聚類分析

聚類（clustering）分析數(shù)據(jù)對象，而不考慮類標號。對不存在標記類的數(shù)據(jù)，可使用聚類產生數(shù)據(jù)組群的類標號。對象根據(jù)最大化類內相似性、最小化類間相似性的原則進行聚類或分組。對象的簇（cluster）使得相比之下在同一個簇中的對象具有很高的相似性，而與其他簇中的對象很不相似。所形成的每個簇都可以看做一個對象類，由它可以導出規(guī)則。聚類也便于分類法形式（taxonomy formation），即將觀測組織成類分層結構，把類似的事件組織在一起。

5）離群點分析

數(shù)據(jù)集中可能包含一些數(shù)據(jù)對象，它們與數(shù)據(jù)的一般行為或模型不一致。這些數(shù)據(jù)對象是離群點（outlier）。大部分數(shù)據(jù)挖掘方法都將離群點視為噪聲或異常而丟棄。不過，在一些應用中（例如欺詐檢測），罕見的事件可能比正常出現(xiàn)的事件更令人感興趣。離群點數(shù)據(jù)分析稱做離群點分析或異常挖掘。

可以假定一個數(shù)據(jù)分析或概率模型，使用統(tǒng)計檢驗來檢測離群點；或者使用距離度量，將遠離任何簇的對象視為離群點。不使用統(tǒng)計或距離度量，基于密度的方法也可以識別局部區(qū)域中的離群點。

6）所有模式都是有趣的嗎

有趣的模式即代表知識。不過所挖掘的模式并不一定都是有趣的。一個模式是有趣的（interesting），滿足：a、易于被人理解；b、在某種確信度上，對于新的或檢驗數(shù)據(jù)是有效的；c、是潛在有用的；d、是新穎的。如果一個模式證實了用戶尋求證實的某種假設，則它也是有趣的。

模式興趣度的客戶度量，度量基于所發(fā)現(xiàn)模式的結構和關于它們的統(tǒng)計量。對于形如X->Y的關聯(lián)規(guī)則，客觀度量有規(guī)則的支持度（support）和規(guī)則的置信度（confidence）。支持度表示事務數(shù)據(jù)庫中滿足規(guī)則的事務所占的百分比，支持度取概率P(XUY)，XUY表示同時包含X和Y的事務，即項集X和Y的合并。置信度用于評估所發(fā)現(xiàn)的規(guī)則的確信程度，置信度取條件概率P(Y|X)，即包含X的事務也包含Y的概率。形式化定義支持度和置信度：

一般地，每個興趣度度量都與一個閾值相關聯(lián)，該閾值可以由用戶控制。

其他興趣度度量包括分類（IF-THEN）規(guī)則的準確率與覆蓋率。一般而言，準確率是被一個規(guī)則正確分類的數(shù)據(jù)所占的百分比。覆蓋率類似于支持度，指可以作用的數(shù)據(jù)所占的百分比。

客觀度量有助于識別有趣的模式，不過還是要結合反映特定用戶需要和興趣的主觀度量。主觀興趣度量基于用戶對數(shù)據(jù)的信念。這種度量發(fā)現(xiàn)模式是有趣的，如果它們是出乎意料的（與用戶的信念相矛盾），或者提供用戶可以采取行動的至關重要的信息。在后一種情況下，這樣的模型稱為可行動的（actionable）。

根據(jù)用戶提供的約束和興趣度度量對搜索聚焦，對于一些挖掘任務（如關聯(lián)）而言，可期望所挖掘出的模式相對有效。模式興趣度度量是必要的，可以指導和約束發(fā)現(xiàn)過程，通過剪去模式空間中不滿足預先設定的興趣度約束的子集，提高搜索性能。

整個挖掘過程基本是：數(shù)據(jù)特征化和區(qū)分，實際就是特征抽取；接著就是相關性分析，就是特征選擇；然后就是模型訓練；最后就是模型評估，有趣模式度量。

1.5使用什么技術

作為一個應用驅動的領域，數(shù)據(jù)挖局吸納了諸如統(tǒng)計學、機器學習、模式識別、數(shù)據(jù)庫和數(shù)據(jù)倉庫、信息檢索、可視化、算法、高性能計算和許多應用領域的大量技術，如下圖。

1）統(tǒng)計學

統(tǒng)計學研究數(shù)據(jù)的收集、分析、解釋和表示。數(shù)據(jù)挖掘與統(tǒng)計學具有天然聯(lián)系。

統(tǒng)計模型是一組數(shù)學函數(shù)，用隨機變量及其概率分布刻畫目標類對象的行為。如可使用統(tǒng)計模型對噪聲和缺失的數(shù)據(jù)值建模，在大數(shù)據(jù)集挖掘模式時，數(shù)據(jù)挖掘過程可以使用該模型來幫助識別數(shù)據(jù)中的噪聲和缺失值。

推理統(tǒng)計學（或預測統(tǒng)計學）用某種方式對數(shù)據(jù)建模，解釋觀測中的隨機性和確定性，并用來提取關于所考察的過程或總體的結論。統(tǒng)計學方法也用來驗證數(shù)據(jù)挖掘結果。如建立分類或預測模型之后，使用統(tǒng)計假設檢驗來驗證模型。統(tǒng)計假設檢驗（或稱做證實數(shù)據(jù)分析）使用實驗數(shù)據(jù)進行統(tǒng)計判決，如果結果不大可能隨機出現(xiàn)，則稱它為統(tǒng)計顯著的。如果分類或預測模型有效，則該模型的描述統(tǒng)計量將增強模型的可靠性。

統(tǒng)計學方法應用于大型數(shù)據(jù)集時，具有很高的計算復雜度，尤其是對分布在多個邏輯或物理站點的大型數(shù)據(jù)集時，需設計和調優(yōu)算法，最大程度降低計算開銷。對于聯(lián)機應用而言，如web搜索引擎中的聯(lián)機查詢建議，數(shù)據(jù)挖掘要能夠連續(xù)處理快速、實時的數(shù)據(jù)流。

2）機器學習

機器學習是考察計算機基于數(shù)據(jù)的學習能力，主要研究計算機程序基于數(shù)據(jù)自動地學習識別復雜的模式，并做出智能的決斷。如計算機程序從一組實例學習，能夠自動識別郵件上的手寫體郵政編碼。

a、?監(jiān)督學習(supervised learning)：分類任務，學習中的監(jiān)督來自訓練數(shù)據(jù)集中標記的實例。

b、?無監(jiān)督學習（unsupervised learning）：聚類任務，學習過程是無監(jiān)督的，輸入實例沒有標記。

c、?半監(jiān)督學習（semi-supervised learning）：學習模型時，使用標記的和未標記的實例，標記的實例用來學習類模型，而未標記的實例用來進一步改進類邊界。

d、?主動學習（active learning）：讓用戶在學習過程中扮演主動角色，其實就是專家給標記。

3）數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫

數(shù)據(jù)庫系統(tǒng)研究關注為單位和最終用戶創(chuàng)建、維護和使用數(shù)據(jù)庫，建立了數(shù)據(jù)建模、查詢語言、查詢處理和優(yōu)化方法、數(shù)據(jù)存儲以及索引和存取方法。數(shù)據(jù)庫系統(tǒng)在處理大的、相對結構化的數(shù)據(jù)集上具有高度可伸縮性。數(shù)據(jù)挖掘利用可伸縮的數(shù)據(jù)庫技術，可獲得在大型數(shù)據(jù)集上的高效率和可伸縮性。

新的數(shù)據(jù)庫系統(tǒng)使用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘機制，在數(shù)據(jù)庫的數(shù)據(jù)上建立數(shù)據(jù)分析能力。數(shù)據(jù)倉庫集成多種數(shù)據(jù)源和各個時間段的數(shù)據(jù)，在多維空間上合并數(shù)據(jù)形成部分物化的數(shù)據(jù)立方體。數(shù)據(jù)立方體有利于多維數(shù)據(jù)庫的OLAP。

4）信息檢索

信息檢索（IR）是搜索文檔或文檔中信息的科學。傳統(tǒng)的信息檢索和數(shù)據(jù)庫系統(tǒng)之間的區(qū)別是：信息檢索假定所搜索的數(shù)據(jù)是無結構的；信息檢索查詢主要用關鍵詞。

信息檢索的方法采用概率模型。如文本文檔可以看做詞的包，即出現(xiàn)在文檔中的詞的多重集；文檔的語言模型是生成文檔中詞的包的概率密度函數(shù)；兩個文檔之間的相似度可用對應的語言模型之間的相似性度量。一個文本文檔集的主體可以用詞匯表上的概率分布模型，稱做主題模型。一個文本文檔可以涉及多個主題，可以看做多主題混合模型。

1.6面向什么類型的應用

數(shù)據(jù)挖掘作為應用驅動的學科，在眾多應用中獲得巨大成功，典型就是商務智能和搜索引擎。

1）商務智能

商務智能BI技術提供商務運作的歷史、現(xiàn)狀和預測視圖，包括報告、聯(lián)機分析處理、商務業(yè)績管理、競爭情報、標桿管理和預測分析。數(shù)據(jù)挖掘是商務智能的核心。商務智能的聯(lián)機分析處理工具依賴于數(shù)據(jù)倉庫和多維數(shù)據(jù)挖掘。分類和預測技術是商務智能預測分析的核心，在分析市場、供應和銷售方面有很多應用。在客戶關系管理方面，聚類可根據(jù)顧客的相似性把顧客分組，使用特征挖掘技術，可以更好地理解每組顧客的特征，并開發(fā)定制的顧客獎勵計劃。

2）搜索引擎

Web搜索引擎是一種專門的計算機服務器，在web上搜索信息。通常，用戶查詢的搜索結果用一張表返回給用戶（也稱做采樣hit）。采樣可以包含網頁、圖像和其他類型的文件。有些搜索引擎也搜索和返回公共數(shù)據(jù)庫中的數(shù)據(jù)或開放的目錄。搜索引擎不同于網絡目錄，因為網絡目錄是人工編輯管理的，而搜索引擎則按算法運行，或者算法和人工輸入的混合。

Web搜索引擎本質上式大型數(shù)據(jù)挖掘應用。搜索引擎全方位地使用各種數(shù)據(jù)挖掘技術，包括爬行（如決定應該爬過那些頁面和爬行頻率）、索引（如選擇被索引的頁面和決定構建索引的范圍）和搜索（如確定如何排列各個頁面、加載何種廣告、如果把搜索結果個性化或使之環(huán)境敏感）。

搜索引擎對數(shù)據(jù)挖掘提出了挑戰(zhàn)。首先能處理大量并且不斷增加的數(shù)據(jù)，需計算機云來協(xié)調挖掘海量數(shù)據(jù)；其次需要處理在線數(shù)據(jù)，滿足即時查詢，對快速增長的數(shù)據(jù)流要維護和增量更新模型；最后能處理次數(shù)不多的查詢，這種情況一般不會保留歷史推斷查詢的環(huán)境。

1.7數(shù)據(jù)挖掘的主要問題

數(shù)據(jù)挖掘是一個動態(tài)的、強勢快速發(fā)展的領域。數(shù)據(jù)挖掘研究的主要問題：挖掘方法、用戶交互、有效性與可伸縮性、數(shù)據(jù)類型的多樣性、數(shù)據(jù)挖掘與社會。

1）挖掘方法

a、挖掘各種新的知識類型：數(shù)據(jù)挖掘廣泛涵蓋數(shù)據(jù)分析和知識發(fā)現(xiàn)的任務，從數(shù)據(jù)特征化與區(qū)分到關聯(lián)與相關性分析、分類、回歸、聚類、離群點分析、序列分析以及趨勢和演變分析。

b、挖掘多維空間中的知識：在不同抽象層的多維（屬性）組合中搜索有趣的模式，即探索式多維數(shù)據(jù)挖掘；把數(shù)據(jù)看做多維數(shù)據(jù)立方體，可顯著地提高數(shù)據(jù)挖掘的能力和靈活性。

c、數(shù)據(jù)挖掘-跨學科的努力：通過集成來自多學科的新方法可以顯著增強數(shù)據(jù)挖掘的能力。如挖掘自然語言文本數(shù)據(jù)，要把數(shù)據(jù)挖掘方法與信息檢索和自然語言處理的方法融合；比如大型程序中的軟件故障挖掘，要結合軟件工程知識。

d、提升網絡環(huán)境下的發(fā)現(xiàn)能力：所謂網絡環(huán)境，就是開放的，數(shù)據(jù)是互連互補的；多個數(shù)據(jù)對象之間的語義鏈接可以用來促進數(shù)據(jù)挖掘。一個數(shù)據(jù)集中導出的知識可以用來提升相關或語義連接的對象集中的知識發(fā)現(xiàn)。

e、處理不確定性、噪聲或不完全的數(shù)據(jù)：數(shù)據(jù)常常包含噪聲、錯誤、異常、不確定性，或者是不完全的；錯誤和噪聲可能干擾數(shù)據(jù)挖掘過程，導致錯誤的模式出現(xiàn)。數(shù)據(jù)清理、數(shù)據(jù)預處理、離群點檢測與刪除以及不確定推理都是需要與數(shù)據(jù)挖掘過程集成的技術。

f、模式評估和模式或約束指導的挖掘：數(shù)據(jù)挖掘過程所產生的所有模式并非都是有趣的，認定模型是否有趣因應用而異，因此需要一種技術來評估基于主觀度量所發(fā)現(xiàn)的模式的興趣度。這種評估給定用戶類，基于用戶的確信或期望，評估模式的價值；通過使用興趣度度量或用戶指定的約束指導發(fā)現(xiàn)過程，可以產生更有趣的模式，壓縮搜索空間。

2）用戶界面

用戶界面研究包括：如何與數(shù)據(jù)挖掘系統(tǒng)交互，如何在挖掘中融入用戶的背景知識，以及如何可視化和理解數(shù)據(jù)挖掘的結果。

a、?交互挖掘：構建靈活的用戶界面和探索式挖掘環(huán)境，以便用戶與系統(tǒng)交互。

b、?結合背景知識：把背景知識、約束、規(guī)則等信息結合到發(fā)現(xiàn)過程中，用于模式評估。

c、?特定的數(shù)據(jù)挖掘和數(shù)據(jù)挖掘查詢語言。

d、?數(shù)據(jù)挖掘結果的表示和可視化。

3）有效性和可伸縮性

a、數(shù)據(jù)挖掘算法的有效性和可伸縮性：為有效地從多個數(shù)據(jù)庫或動態(tài)數(shù)據(jù)流的海量數(shù)據(jù)中提取信息，數(shù)據(jù)挖掘算法必須是有效的和可伸縮的。數(shù)據(jù)挖掘算法的運行時間必須是可預計的、短的和可以被應用接收的。有效性、可伸縮性、性能、優(yōu)化以及實時運行能力是驅動數(shù)據(jù)挖掘算法開發(fā)的關鍵標準。可伸縮性就是算法在數(shù)據(jù)規(guī)模增長時能夠保持性能的相對穩(wěn)定。

b、并行、分布式和增量數(shù)據(jù)算法：巨大容量的數(shù)據(jù)、廣泛分布的數(shù)據(jù)以及算法的計算復雜性都需要開發(fā)并行和分布式數(shù)據(jù)密集型挖掘算法；該類算法首先把數(shù)據(jù)劃分成若干片段，每個片段并行處理，搜索模式；并行處理可以交互，來自每部分的模式最終合并在一起。

云計算和集群計算使用分布和協(xié)同的計算機處理超大規(guī)模計算任務，是并行數(shù)據(jù)挖掘研究的活躍主體。數(shù)據(jù)挖掘過程的高開銷和輸入的增量也推動了增量數(shù)據(jù)挖掘，增量挖掘與新的數(shù)據(jù)結合，不從頭開始挖掘，修正和加強先前業(yè)已發(fā)現(xiàn)的知識。并行挖掘和增量挖掘值得深入探究挖掘方法。

4）數(shù)據(jù)庫類型的多樣性

a、處理復雜的數(shù)據(jù)類型。

b、挖掘動態(tài)的、網絡的、全球的數(shù)據(jù)庫。

5）數(shù)據(jù)挖掘與社會

a、數(shù)據(jù)挖掘對社會的影響。

b、保護隱私的數(shù)據(jù)挖掘。

c、無形的數(shù)據(jù)挖掘：滲透到大眾的日常行為中。

1.8小結

1）數(shù)據(jù)挖掘是從海量數(shù)據(jù)中發(fā)現(xiàn)有趣模式的過程。作為知識發(fā)現(xiàn)的過程，通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評估和知識表示。

2）一個模式是有趣的，如果它在某種確信度上對于檢驗數(shù)據(jù)是有效的、新穎的、潛在有用的（如據(jù)之行動，或者驗證了用戶關注的某種預感），并且易于被人理解。有趣的模式代表知識。模式興趣度度量，無論是客觀的還是主觀的，都可以用來指導發(fā)現(xiàn)過程。

3）數(shù)據(jù)挖掘的多維視圖，主要的維是數(shù)據(jù)、知識、技術和應用。

4）只要對目標應用是有意義的，數(shù)據(jù)挖掘可以在任何類型的數(shù)據(jù)上進行，如數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)、事務數(shù)據(jù)和高級數(shù)類型等。高級數(shù)據(jù)類型包括時間相關的或序列數(shù)據(jù)、數(shù)據(jù)流、空間和時空數(shù)據(jù)、文本和多媒體數(shù)據(jù)、圖和網絡數(shù)據(jù)、web數(shù)據(jù)。

5）數(shù)據(jù)倉庫是一種用于長期存儲數(shù)據(jù)的倉庫，數(shù)據(jù)來自多個源，以主題和統(tǒng)一模式組織的，提供聯(lián)機分析處理能力，支持管理決策。

6）多維數(shù)據(jù)挖掘，把數(shù)據(jù)挖掘的核心技術與基于OLAP的多維分析結合在一起，在不同的抽象層的多維（屬性）組合中搜索有趣的模式，從而探索多維數(shù)據(jù)空間。

7）數(shù)據(jù)挖掘功能用來指定數(shù)據(jù)挖掘任務發(fā)現(xiàn)的模式或知識類型，包括特征化和區(qū)分，頻繁模式、關聯(lián)和相關性挖掘，分類和回歸，聚類分析和離群點檢測。

8）數(shù)據(jù)挖掘研究存在很多挑戰(zhàn)性問題，包括挖掘方法、用戶交互、有效性和可伸縮性以及處理多樣化的數(shù)據(jù)類型。

總結

以上是生活随笔為你收集整理的【数据挖掘笔记一】引论的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Java之String、StringBu
下一篇： Hadoop性能调优概要说明