【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )
文章目錄
- 一、 數據挖掘引入
- 二、 數據挖掘簡介
- 三、 數據挖掘 與 KDD ( Knowledge Discovery From Data ) 從數據到知識
- 四、 數據挖掘中的數據源
- 五、 數據挖掘中的特點
一、 數據挖掘引入
1 . 數據過載問題 :
① 海量數據 : 自動化的數據收集工具 和 成熟的數據庫技術 , 積累了海量數據 ;
② 數據處理瓶頸 : 需要在 數據庫 , 數據倉庫 , 或其它信息介質中處理海量數據 ;
我們被數據淹死了 , 但是渴望知識 ; 數據太多并沒有用 , 需要將 有用的知識 和 無用的信息 分辨出來 ;
2 . 解決方案 :
① 數據倉庫技術 : 數據倉庫技術 和 在線分析處理技術 ;
② 數據挖掘技術 : 從海量數據中 , 挖掘感興趣的知識 ;
二、 數據挖掘簡介
1 . 數據挖掘 ( Data mining ) : 其本質目的是將數據轉換成知識 ; 從大量數據中 , 提取出感興趣的 模式 ( Patterns ) 或 知識 ( Knowledge ) ;
2 . 數據挖掘 的代名詞 :
① KDD ( 從數據到知識 ) : Knowledge Discovery From Data
② 知識抽取 : Knowledge Extraction ;
③ 數據 / 模式分析 : Data / Pattern Analysis ;
④ 信息收獲 : Information Harvesting ;
⑤ 商務智能 : Business Intelligence
與數據挖掘類似的技術還有 模式識別 , 機器學習等 ;
3 . 查詢處理 與 數據挖掘 :
① 數據庫查詢操作 : 在數據庫中使用 SQL 語句查詢 , 不屬于數據挖掘范疇 , 這屬于查詢處理范疇 ;
② 查詢處理 與 數據挖掘 區別 : 數據挖掘的 知識預先是不知道的 , 挖掘出來的知識準確性也不知道 , 數據庫查詢出來的都是可預見的 , 結果是精確的 ;
三、 數據挖掘 與 KDD ( Knowledge Discovery From Data ) 從數據到知識
數據挖掘可以看做 KDD 的一個步驟 ;
KDD 概念 : Knowledge Discovery From Data , 從數據到知識 ;
KDD 完整流程 : 第六個步驟就是 數據挖掘 , 數據挖掘大約占 KDD 的 1/4 工作量 ;
① 數據源 : 數據源的海量數據
② 數據繼承 ( 過程 ) : 通過數據采集 , 從海量數據中采集目標數據 ;
③ 目標數據 : 產生目標數據 ;
④ 數據預處理 ( 過程 ) : 預處理目標數據 , 生成潔凈數據 ;
⑤ 潔凈數據 : 產生潔凈數據 ;
⑥ 數據挖掘 ( 過程 ) : 使用數據挖掘 , 從潔凈數據中發現模式 ;
⑦ 模式 : 得到模式 ;
⑧ 評估表示 ( 過程 ) : 評估表示 數據挖掘得到的模式 , 得到知識 ;
⑨ 知識 : 最終得到的知識 ;
實際上工作時的數據挖掘包括了整個 KDD 所有流程 ;
四、 數據挖掘中的數據源
任何數據都可以用于數據挖掘 , 音樂數據 , 圖像數據 , 視頻數據 , 文本數據等都可以被挖掘 ;
數據挖掘的算法本質是一樣的 , 只是針對不同的數據 , 進行對應的修改 ;
五、 數據挖掘中的特點
1 . 用于挖掘的數數據源 必須 真實 :
① 存在的真實數據 : 數據挖掘處理的數據一般是存在的真實數據 , 不是專門收集的數據 ;
② 數據收集 : 該工作不屬于數據挖掘范疇 , 屬于統計任務 ;
2 . 數據必須海量 :
① 少量數據處理 : 少量數據使用統計方法分析 , 不必使用數據挖掘 ;
② 海量數據 : 處理海量數據時 , 才使用數據挖掘 , 涉及到 有效存儲 , 快速訪問 , 合理表示 等方面的問題 ;
3 . 數據挖掘的查詢是隨機的 :
① 要求不精確 : 查詢靈活 , 沒有精確的要求 ( 無法用 SQL 語句寫出來 ) ;
② 結果正確性未知 : 查詢出來結果也不知道是否準確 ;
4 . 未知結果 :
① 挖掘結果 : 數據挖掘 挖掘出的知識是未知的 , 目的是為了發掘潛在的知識 , 模式 ;
② 知識使用 : 數據挖掘出的知識只能在特定領域使用 , 如金融領域數據挖掘結果 , 只能在金融領域及相關領域使用 ;
總結
以上是生活随笔為你收集整理的【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【设计模式】适配器模式 ( 概念 | 适
- 下一篇: 【设计模式】适配器模式 ( 类适配器代码