日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )

發(fā)布時(shí)間:2025/6/17 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 ) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

  • 一、 數(shù)據(jù)挖掘引入
  • 二、 數(shù)據(jù)挖掘簡介
  • 三、 數(shù)據(jù)挖掘 與 KDD ( Knowledge Discovery From Data ) 從數(shù)據(jù)到知識(shí)
  • 四、 數(shù)據(jù)挖掘中的數(shù)據(jù)源
  • 五、 數(shù)據(jù)挖掘中的特點(diǎn)



一、 數(shù)據(jù)挖掘引入



1 . 數(shù)據(jù)過載問題 :


① 海量數(shù)據(jù) : 自動(dòng)化的數(shù)據(jù)收集工具 和 成熟的數(shù)據(jù)庫技術(shù) , 積累了海量數(shù)據(jù) ;

② 數(shù)據(jù)處理瓶頸 : 需要在 數(shù)據(jù)庫 , 數(shù)據(jù)倉庫 , 或其它信息介質(zhì)中處理海量數(shù)據(jù) ;


我們被數(shù)據(jù)淹死了 , 但是渴望知識(shí) ; 數(shù)據(jù)太多并沒有用 , 需要將 有用的知識(shí) 和 無用的信息 分辨出來 ;


2 . 解決方案 :


① 數(shù)據(jù)倉庫技術(shù) : 數(shù)據(jù)倉庫技術(shù) 和 在線分析處理技術(shù) ;

② 數(shù)據(jù)挖掘技術(shù) : 從海量數(shù)據(jù)中 , 挖掘感興趣的知識(shí) ;



二、 數(shù)據(jù)挖掘簡介



1 . 數(shù)據(jù)挖掘 ( Data mining ) : 其本質(zhì)目的是將數(shù)據(jù)轉(zhuǎn)換成知識(shí) ; 從大量數(shù)據(jù)中 , 提取出感興趣的 模式 ( Patterns ) 或 知識(shí) ( Knowledge ) ;


2 . 數(shù)據(jù)挖掘 的代名詞 :


① KDD ( 從數(shù)據(jù)到知識(shí) ) : Knowledge Discovery From Data

② 知識(shí)抽取 : Knowledge Extraction ;

③ 數(shù)據(jù) / 模式分析 : Data / Pattern Analysis ;

④ 信息收獲 : Information Harvesting ;

⑤ 商務(wù)智能 : Business Intelligence


與數(shù)據(jù)挖掘類似的技術(shù)還有 模式識(shí)別 , 機(jī)器學(xué)習(xí)等 ;


3 . 查詢處理 與 數(shù)據(jù)挖掘 :


① 數(shù)據(jù)庫查詢操作 : 在數(shù)據(jù)庫中使用 SQL 語句查詢 , 不屬于數(shù)據(jù)挖掘范疇 , 這屬于查詢處理范疇 ;

② 查詢處理 與 數(shù)據(jù)挖掘 區(qū)別 : 數(shù)據(jù)挖掘的 知識(shí)預(yù)先是不知道的 , 挖掘出來的知識(shí)準(zhǔn)確性也不知道 , 數(shù)據(jù)庫查詢出來的都是可預(yù)見的 , 結(jié)果是精確的 ;



三、 數(shù)據(jù)挖掘 與 KDD ( Knowledge Discovery From Data ) 從數(shù)據(jù)到知識(shí)



數(shù)據(jù)挖掘可以看做 KDD 的一個(gè)步驟 ;


KDD 概念 : Knowledge Discovery From Data , 從數(shù)據(jù)到知識(shí) ;


KDD 完整流程 : 第六個(gè)步驟就是 數(shù)據(jù)挖掘 , 數(shù)據(jù)挖掘大約占 KDD 的 1/4 工作量 ;


① 數(shù)據(jù)源 : 數(shù)據(jù)源的海量數(shù)據(jù)

② 數(shù)據(jù)繼承 ( 過程 ) : 通過數(shù)據(jù)采集 , 從海量數(shù)據(jù)中采集目標(biāo)數(shù)據(jù) ;

③ 目標(biāo)數(shù)據(jù) : 產(chǎn)生目標(biāo)數(shù)據(jù) ;

④ 數(shù)據(jù)預(yù)處理 ( 過程 ) : 預(yù)處理目標(biāo)數(shù)據(jù) , 生成潔凈數(shù)據(jù) ;

⑤ 潔凈數(shù)據(jù) : 產(chǎn)生潔凈數(shù)據(jù) ;

數(shù)據(jù)挖掘 ( 過程 ) : 使用數(shù)據(jù)挖掘 , 從潔凈數(shù)據(jù)中發(fā)現(xiàn)模式 ;

⑦ 模式 : 得到模式 ;

⑧ 評(píng)估表示 ( 過程 ) : 評(píng)估表示 數(shù)據(jù)挖掘得到的模式 , 得到知識(shí) ;

⑨ 知識(shí) : 最終得到的知識(shí) ;

實(shí)際上工作時(shí)的數(shù)據(jù)挖掘包括了整個(gè) KDD 所有流程 ;



四、 數(shù)據(jù)挖掘中的數(shù)據(jù)源



任何數(shù)據(jù)都可以用于數(shù)據(jù)挖掘 , 音樂數(shù)據(jù) , 圖像數(shù)據(jù) , 視頻數(shù)據(jù) , 文本數(shù)據(jù)等都可以被挖掘 ;

數(shù)據(jù)挖掘的算法本質(zhì)是一樣的 , 只是針對不同的數(shù)據(jù) , 進(jìn)行對應(yīng)的修改 ;



五、 數(shù)據(jù)挖掘中的特點(diǎn)



1 . 用于挖掘的數(shù)數(shù)據(jù)源 必須 真實(shí) :


① 存在的真實(shí)數(shù)據(jù) : 數(shù)據(jù)挖掘處理的數(shù)據(jù)一般是存在的真實(shí)數(shù)據(jù) , 不是專門收集的數(shù)據(jù) ;

② 數(shù)據(jù)收集 : 該工作不屬于數(shù)據(jù)挖掘范疇 , 屬于統(tǒng)計(jì)任務(wù) ;


2 . 數(shù)據(jù)必須海量 :


① 少量數(shù)據(jù)處理 : 少量數(shù)據(jù)使用統(tǒng)計(jì)方法分析 , 不必使用數(shù)據(jù)挖掘 ;

② 海量數(shù)據(jù) : 處理海量數(shù)據(jù)時(shí) , 才使用數(shù)據(jù)挖掘 , 涉及到 有效存儲(chǔ) , 快速訪問 , 合理表示 等方面的問題 ;


3 . 數(shù)據(jù)挖掘的查詢是隨機(jī)的 :


① 要求不精確 : 查詢靈活 , 沒有精確的要求 ( 無法用 SQL 語句寫出來 ) ;

② 結(jié)果正確性未知 : 查詢出來結(jié)果也不知道是否準(zhǔn)確 ;


4 . 未知結(jié)果 :


① 挖掘結(jié)果 : 數(shù)據(jù)挖掘 挖掘出的知識(shí)是未知的 , 目的是為了發(fā)掘潛在的知識(shí) , 模式 ;

② 知識(shí)使用 : 數(shù)據(jù)挖掘出的知識(shí)只能在特定領(lǐng)域使用 , 如金融領(lǐng)域數(shù)據(jù)挖掘結(jié)果 , 只能在金融領(lǐng)域及相關(guān)領(lǐng)域使用 ;

總結(jié)

以上是生活随笔為你收集整理的【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。