一、数据挖掘概述
數(shù)據(jù)挖掘介紹
1.數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘:指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘在面向用戶的互聯(lián)網(wǎng)產(chǎn)品中發(fā)揮著及其重要的作用。
2 數(shù)據(jù)挖掘的對(duì)象
常見(jiàn)的數(shù)據(jù)挖掘?qū)ο笥幸韵?大類(lèi)
- 關(guān)系型數(shù)據(jù)庫(kù)(MySQL)、非關(guān)系系數(shù)據(jù)庫(kù)(NoSQL);
- 數(shù)據(jù)倉(cāng)庫(kù)/多維度數(shù)據(jù)庫(kù)(HDFS/Hive);
- 空間數(shù)據(jù)(如地圖信息)
- 工程數(shù)據(jù)(如建筑、集成電路的信息)
- 文本和多媒體數(shù)據(jù)(如 文本、圖像、音頻、視頻數(shù)據(jù))
- 時(shí)間相關(guān)的數(shù)據(jù)(如歷史數(shù)據(jù)或股票交換數(shù)據(jù))
- 萬(wàn)維網(wǎng)(如半結(jié)構(gòu)化的HTML、結(jié)構(gòu)化的XML以及其他網(wǎng)絡(luò)信息)。
3 數(shù)據(jù)挖掘的過(guò)程
- 數(shù)據(jù)準(zhǔn)備
- 數(shù)據(jù)挖掘
- 結(jié)果表達(dá)與解釋
根據(jù)用戶的決策目的對(duì)提取的信息進(jìn)行分析,把最有價(jià)值的信息區(qū)分出來(lái),并且通過(guò)決策支持工具交給決策者。
4 數(shù)據(jù)挖掘的方法
- 數(shù)據(jù)挖掘的方法分類(lèi)
- 統(tǒng)計(jì)方法
回歸分析、判別分析、聚類(lèi)分析、探索性分析; - 機(jī)器學(xué)習(xí)方法
神經(jīng)網(wǎng)絡(luò)、集成學(xué)習(xí)、遺傳算法 - 分類(lèi)
根據(jù)一些給定的已知類(lèi)別標(biāo)號(hào)的樣本,訓(xùn)練某種學(xué)習(xí)機(jī)器(即得到某種目標(biāo)函數(shù)),使它能夠?qū)ξ粗?lèi)別的樣本進(jìn)行分類(lèi)。
- 聚類(lèi)
用于從數(shù)據(jù)及中找出相似的數(shù)據(jù)并組成不同的組。與分類(lèi)模型不同,聚類(lèi)中沒(méi)有明顯的目標(biāo)變量作為數(shù)據(jù)的屬性存在
- 關(guān)聯(lián)分析
關(guān)聯(lián)分析又稱(chēng)關(guān)聯(lián)挖掘,就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。
5 數(shù)據(jù)挖掘的應(yīng)用
- 互聯(lián)網(wǎng)巨頭
谷歌和百度用數(shù)據(jù)挖掘算法對(duì)廣告點(diǎn)擊率進(jìn)行預(yù)測(cè); - 電子商務(wù)巨頭
亞馬遜和阿里巴巴通過(guò)數(shù)據(jù)挖掘來(lái)預(yù)測(cè)用戶購(gòu)買(mǎi)商品的可能性; - 零售巨頭
沃爾瑪,通過(guò)分析客戶購(gòu)買(mǎi)記錄尋找不同商品之間的可能性,從而更合理上架不同品類(lèi)商品;
總結(jié)
- 上一篇: 深度学习——你应该掌握的数学知识
- 下一篇: 二、数据挖掘的工具