當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘算法_算法篇(01) 数据挖掘算法初探

發布時間：2023/12/15 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘算法_算法篇(01) 数据挖掘算法初探小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

無論是傳統行業，還是互聯網行業。掌握數據，就是掌握規律。當你了解了市場數據，對它進行分析，就可以得到市場規律。當你掌握了產品自身的數據，對它進行分析，就可以了解產品的用戶來源、用戶畫像等等。所以說數據是個全新的視角。

當我們談論數據分析的時候，都在講些什么呢？這里可以把數據分析分成三個重要的組成部分。

數據采集：它是我們的原材料，也是最“接地氣”的部分，因為任何分析都要有數據源。

數據挖掘：它可以說是最“高大上”的部分，也是整個商業價值所在。之所以要進行數據分析，就是要找到其中的規律，來指導我們的業務。因此數據挖掘的核心是挖掘數據的商業價值，也就是我們所談的商業智能 BI。

數據可視化：它可以說是數據領域中萬金油的技能，可以讓我們直觀地了解到數據分析的結果。

在這個專欄中，我們主要學習第二個部分：數據挖掘算法，一定程度上，也可以稱為機器學習算法。

一、數據挖掘的基本流程

數據挖掘的過程可以分成以下 6 個步驟：

商業理解：數據挖掘不是我們的目的，我們的目的是更好地幫助業務，所以第一步我們要從商業的角度理解項目需求，在這個基礎上，再對數據挖掘的目標進行定義。

數據理解：嘗試收集部分數據，然后對數據進行探索，包括數據描述、數據質量驗證等。這有助于你對收集的數據有個初步的認知。

數據準備：開始收集數據，并對數據進行清洗、數據集成等操作，完成數據挖掘前的準備工作。

模型建立：選擇和應用各種數據挖掘模型，并進行優化，以便得到更好的分類結果。

模型評估：對模型進行評價，并檢查構建模型的每個步驟，確認模型是否實現了預定的商業目標。

上線發布：模型的作用是從數據中找到金礦，也就是我們所說的“知識”，獲得的知識需要轉化成用戶可以使用的方式，呈現的形式可以是一份報告，也可以是實現一個比較復雜的、可重復的數據挖掘過程。數據挖掘結果如果是日常運營的一部分，那么后續的監控和維護就會變得重要。

簡易版

二、算法分類

2.1 按照不同的目的，將常見的算法分成如下幾類：

分類算法：k-近鄰算法（KNN）、決策樹（ID3，C4.5，CART）、樸素貝葉斯（Naive Bayes）、隨機森林、邏輯回歸、SVM、Adaboost、CART

回歸算法：線性回歸、嶺回歸

聚類算法：K-Means、EM

關聯分析：Apriori

連接分析：PageRank

2.2 也可以分成：監督學習(supervised learning)、無監督學習(unsupervised learning)。

在具體介紹前，先簡述一下數據集的構成，即：特征值 + 目標值；但有些數據集是可以沒有目標值的。

根據有無目標值，就可以分為：監督學習與無監督學習。

監督學習，輸入數據是由輸入特征值和目標值所組成。輸出可以是一個連續的值(稱為回歸)，或是輸出是有限個離散值(稱為分類)。

分類：k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸等；

回歸：線性回歸、嶺回歸等；

無監督學習，輸入數據僅是由特征值所組成；如：聚類 k-means 等。

三、特征工程

在正式介紹特征工程前，先來看看以下幾個問題：

Q1：為什么需要特征工程(Feature Engineering)？

業界廣泛流傳，數據和特征決定了機器學習的上限，而模型和算法只是逼近這個上限而已。

Q2：什么是特征工程？

特征工程，是使用專業背景知識和技巧處理數據，使得特征能在機器學習算法上發揮更好的作用的過程。Q3：特征工程的位置與數據比較

pandas：數據清洗、數據處理；
sklearn：對于特征的處理提供了強大的接口。

Q4：特征工程主要包含的內容

特征抽取、特征預處理、特征降維；

在正式介紹特征工程之前，先來簡單介紹下數據集：

3.1 可用數據集

Kaggle網址：https://www.kaggle.com/datasets

特點：大數據競賽平臺、數據量巨大；

UCI數據集網址：http://archive.ics.uci.edu/ml/

特點：收錄了360個數據集，覆蓋科學、生活、經濟等領域，數據量幾十萬；

scikit-learn網址：https://scikit-learn.org/stable/datasets/index.html#datasets

特點：數據量較小、方便學習；

......

3.1.1 Scikit-learn 工具介紹

Python語言的機器學習工具，包括許多知名的機器學習算法的實現，文檔完善，容易上手，豐富的API。

# 安裝包 pip install Scikit-learn

包含內容：

3.1.2 獲取sklearn自帶的數據集API

3.1.3 劃分數據集

數據集會劃分為兩個部分：

訓練數據：用于訓練，構建模型；
測試數據：在模型檢驗時使用，用于評估模型是否有效；

劃分比例：測試集一般在20%-30%，不傳參，默認25%；

API剖析

數據集劃分案例

本篇，先寫到這里吧！下一篇：特征工程介紹；

總結

以上是生活随笔為你收集整理的数据挖掘算法_算法篇(01) 数据挖掘算法初探的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：传米哈游年终奖108薪全公司奖金近40
下一篇：偏移shaderuv_Unity Sha