當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘学习之路一：数据挖掘认识

發布時間：2023/12/10 编程问答 55 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘学习之路一：数据挖掘认识小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.什么是數據挖掘？

數據挖掘是人工智能和數據庫領域研究的熱點問題，所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程，它主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等，高度自動化地分析企業的數據，作出歸納性的推理，從中挖掘出潛在的模式，幫助決策者調整市場策略，減少風險，作出正確的決策。知識發現過程由以下三個階段組成：①數據準備；②數據挖掘；③結果表達和解釋。數據挖掘可以與用戶或知識庫交互。
數據挖掘就是通過分析采集而來的數據源，從龐大的數據中發現規律，找到寶藏。

2.數據挖掘的基本流程

數據挖掘可分為6個步驟:
　1.商業理解：數據挖掘不是我們的目的，我們的目的是更好地幫助業務，所以第一步我們要從商業的角度理解項目需求，在這個基礎上，再對數據挖掘的目標進行定義。
　2.數據理解：嘗試收集部分數據，然后對數據進行探索，包括數據描述、數據質量驗證等。這有助于你對收集的數據有個初步的認知。
　3.數據準備：開始收集數據，并對數據進行清洗、數據集成等操作，完成數據挖掘前的準備工作
　4.模型建立：選擇和應用各種數據挖掘模型，并進行優化，以便得到更好的分類結果
　5.模型評估：對模型進行評價，并檢查構建模型的每個步驟，確認模型是否實現了預定的商業目標
　6.上線發布: ：模型的作用是從數據中找到金礦，也就是我們所說的“知識”，獲得的知識需要轉化成用戶可以使用的方式，呈現的形式可以是一份報告，也可以是實現一個比較復雜的、可重復的數據挖掘過程。
數據挖掘結果如果是日常運營的一部分，那么后續的監控和維護就會變得重要。

3.數據挖掘的十大算法

為了進行數據挖掘任務，數據科學家們提出了各種模型，在眾多的數據挖掘模型中，國際權威的學術組織 ICDM （the IEEE International Conference on Data Mining）評選出了十大經典的算法。
按照不同的目的，我可以將這些算法分成四類，以便你更好的理解。
l1. 分類算法：C4.5，樸素貝葉斯（Naive Bayes），SVM，KNN，Adaboost，CART
　　l2. 聚類算法：K-Means，EM
　　l3. 關聯分析：Apriori
　　l4. 連接分析：PageRank

C4.5
　　　 C4.5 算法是得票最高的算法，可以說是十大算法之首。C4.5 是決策樹的算法，它創造性地在決策樹構造過程中就進行了剪枝，并且可以處理連續的屬性，也能對不完整的數據進行處理。它可以說是決策樹分類中，具有里程碑式意義的算法。
　　2. 樸素貝葉斯（Naive Bayes）
　　　樸素貝葉斯模型是基于概率論的原理，它的思想是這樣的：對于給出的未知物體想要進行分類，就需要求解在這個未知物體出現的條件下各個類別出現的概率，哪個最大，就認為這個未知物體屬于哪個分類。
　　3. SVM
　　　SVM 的中文叫支持向量機，英文是 Support Vector Machine，簡稱 SVM。SVM 在訓練中建立了一個超平面的分類模型。如果你對超平面不理解，沒有關系，我在后面的算法篇會給你進行介紹。
　　4. KNN
　　 KNN 也叫 K 最近鄰算法，英文是 K-Nearest Neighbor。所謂 K 近鄰，就是每個樣本都可以用它最接近的 K 個鄰居來代表。如果一個樣本，它的 K 個最接近的鄰居都屬于分類 A，那么這個樣本也屬于分類 A。
　　5. AdaBoost
　　　　Adaboost 在訓練中建立了一個聯合的分類模型。boost 在英文中代表提升的意思，所以 Adaboost 是個構建分類器的提升算法。它可以讓我們多個弱的分類器組成一個強的分類器，所以 Adaboost 也是一個常用的分類算法。
　　6. CART
　　　　CART 代表分類和回歸樹，英文是 Classification and Regression Trees。像英文一樣，它構建了兩棵樹：一棵是分類樹，另一個是回歸樹。和 C4.5 一樣，它是一個決策樹學習方法。
　　7. Apriori
　　　　Apriori 是一種挖掘關聯規則（association rules）的算法，它通過挖掘頻繁項集（frequent item sets）來揭示物品之間的關聯關系，被廣泛應用到商業挖掘和網絡安全等領域中。頻繁項集是指經常出現在一起的物品的集合，關聯規則暗示著兩種物品之間可能存在很強的關系。
　　8. K-Means
　　　　K-Means 算法是一個聚類算法。你可以這么理解，最終我想把物體劃分成 K 類。假設每個類別里面，都有個“中心點”，即意見領袖，它是這個類別的核心。現在我有一個新點要歸類，這時候就只要計算這個新點與 K 個中心點的距離，距離哪個中心點近，就變成了哪個類別。
　　9. EM
　　　　EM 算法也叫最大期望算法，是求參數的最大似然估計的一種方法。原理是這樣的：假設我們想要評估參數 A 和參數 B，在開始狀態下二者都是未知的，并且知道了 A 的信息就可以得到 B 的信息，反過來知道了 B 也就得到了 A。可以考慮首先賦予 A 某個初值，以此得到 B 的估值，然后從 B 的估值出發，重新估計 A 的取值，這個過程一直持續到收斂為止。
EM 算法經常用于聚類和機器學習領域中。
　　10. PageRank
　　　　PageRank 起源于論文影響力的計算方式，如果一篇文論被引入的次數越多，就代表這篇論文的影響力越強。同樣 PageRank 被 Google 創造性地應用到了網頁權重的計算中：當一個頁面鏈出的頁面越多，說明這個頁面的“參考文獻”越多，當這個頁面被鏈入的頻率越高，說明這個頁面被引用的次數越高。基于這個原理，我們可以得到網站的權重劃分。

4.數據挖掘的數學原理

說了這么多數據挖掘中的經典算法，但是如果你不了解概率論和數理統計，還是很難掌握算法的本質；如果你不懂線性代數，就很難理解矩陣和向量運作在數據挖掘中的價值；如果你沒有最優化方法的概念，就對迭代收斂理解不深。所以說，想要更深刻地理解數據挖掘的方法，就非常有必要了解它后背的數學原理。
　　1. 概率論與數理統計
　　　概率論在我們上大學的時候，基本上都學過，不過大學里老師教的內容，偏概率的多一些，統計部分講得比較少。在數據挖掘里使用到概率論的地方就比較多了。比如條件概率、獨立性的概念，以及隨機變量、多維隨機變量的概念。
　　　很多算法的本質都與概率論相關，所以說概率論與數理統計是數據挖掘的重要數學基礎。
　　2. 線性代數
　　　向量和矩陣是線性代數中的重要知識點，它被廣泛應用到數據挖掘中，比如我們經常會把對象抽象為矩陣的表示，一幅圖像就可以抽象出來是一個矩陣，我們也經常計算特征值和特征向量，用特征向量來近似代表物體的特征。這個是大數據降維的基本思路。
　　　基于矩陣的各種運算，以及基于矩陣的理論成熟，可以幫我們解決很多實際問題，比如 PCA 方法、SVD 方法，以及 MF、NMF 方法等在數據挖掘中都有廣泛的應用。
　　3. 圖論
　　　社交網絡的興起，讓圖論的應用也越來越廣。人與人的關系，可以用圖論上的兩個節點來進行連接，節點的度可以理解為一個人的朋友數。我們都聽說過人脈的六度理論，在 Facebook 上被證明平均一個人與另一個人的連接，只需要 3.57 個人。當然圖論對于網絡結構的分析非常有效，同時圖論也在關系挖掘和圖像分割中有重要的作用。
4. 最優化方法
　　　最優化方法相當于機器學習中自我學習的過程，當機器知道了目標，訓練后與結果存在偏差就需要迭代調整，那么最優化就是這個調整的過程。一般來說，這個學習和迭代的過程是漫長、隨機的。最優化方法的提出就是用更短的時間得到收斂，取得更好的效果。

總結

以上是生活随笔為你收集整理的数据挖掘学习之路一：数据挖掘认识的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python 爬虫-beautifuls
下一篇： mybatis学习(18):列名与属性名