一、数据挖掘概述
數據挖掘介紹
1.數據挖掘的定義
數據挖掘:指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘在面向用戶的互聯網產品中發揮著及其重要的作用。
2 數據挖掘的對象
常見的數據挖掘對象有以下7大類
- 關系型數據庫(MySQL)、非關系系數據庫(NoSQL);
- 數據倉庫/多維度數據庫(HDFS/Hive);
- 空間數據(如地圖信息)
- 工程數據(如建筑、集成電路的信息)
- 文本和多媒體數據(如 文本、圖像、音頻、視頻數據)
- 時間相關的數據(如歷史數據或股票交換數據)
- 萬維網(如半結構化的HTML、結構化的XML以及其他網絡信息)。
3 數據挖掘的過程
- 數據準備
- 數據挖掘
- 結果表達與解釋
根據用戶的決策目的對提取的信息進行分析,把最有價值的信息區分出來,并且通過決策支持工具交給決策者。
4 數據挖掘的方法
- 數據挖掘的方法分類
- 統計方法
回歸分析、判別分析、聚類分析、探索性分析; - 機器學習方法
神經網絡、集成學習、遺傳算法 - 分類
根據一些給定的已知類別標號的樣本,訓練某種學習機器(即得到某種目標函數),使它能夠對未知類別的樣本進行分類。
- 聚類
用于從數據及中找出相似的數據并組成不同的組。與分類模型不同,聚類中沒有明顯的目標變量作為數據的屬性存在
- 關聯分析
關聯分析又稱關聯挖掘,就是在交易數據、關系數據或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構。
5 數據挖掘的應用
- 互聯網巨頭
谷歌和百度用數據挖掘算法對廣告點擊率進行預測; - 電子商務巨頭
亞馬遜和阿里巴巴通過數據挖掘來預測用戶購買商品的可能性; - 零售巨頭
沃爾瑪,通過分析客戶購買記錄尋找不同商品之間的可能性,從而更合理上架不同品類商品;
總結
- 上一篇: 深度学习——你应该掌握的数学知识
- 下一篇: 二、数据挖掘的工具