数据挖掘算法_算法篇(01) 数据挖掘算法初探
前言
無論是傳統行業,還是互聯網行業。掌握數據,就是掌握規律。當你了解了市場數據,對它進行分析,就可以得到市場規律。當你掌握了產品自身的數據,對它進行分析,就可以了解產品的用戶來源、用戶畫像等等。所以說數據是個全新的視角。
當我們談論數據分析的時候,都在講些什么呢?這里可以把數據分析分成三個重要的組成部分。
數據采集:它是我們的原材料,也是最“接地氣”的部分,因為任何分析都要有數據源。
數據挖掘:它可以說是最“高大上”的部分,也是整個商業價值所在。之所以要進行數據分析,就是要找到其中的規律,來指導我們的業務。因此數據挖掘的核心是挖掘數據的商業價值,也就是我們所談的商業智能 BI。
數據可視化:它可以說是數據領域中萬金油的技能,可以讓我們直觀地了解到數據分析的結果。
在這個專欄中,我們主要學習第二個部分:數據挖掘算法,一定程度上,也可以稱為機器學習算法。
一、數據挖掘的基本流程
數據挖掘的過程可以分成以下 6 個步驟:
商業理解:數據挖掘不是我們的目的,我們的目的是更好地幫助業務,所以第一步我們要從商業的角度理解項目需求,在這個基礎上,再對數據挖掘的目標進行定義。
數據理解:嘗試收集部分數據,然后對數據進行探索,包括數據描述、數據質量驗證等。這有助于你對收集的數據有個初步的認知。
數據準備:開始收集數據,并對數據進行清洗、數據集成等操作,完成數據挖掘前的準備工作。
模型建立:選擇和應用各種數據挖掘模型,并進行優化,以便得到更好的分類結果。
模型評估:對模型進行評價,并檢查構建模型的每個步驟,確認模型是否實現了預定的商業目標。
上線發布:模型的作用是從數據中找到金礦,也就是我們所說的“知識”,獲得的知識需要轉化成用戶可以使用的方式,呈現的形式可以是一份報告,也可以是實現一個比較復雜的、可重復的數據挖掘過程。數據挖掘結果如果是日常運營的一部分,那么后續的監控和維護就會變得重要。
簡易版二、算法分類
2.1 按照不同的目的,將常見的算法分成如下幾類:
分類算法:k-近鄰算法(KNN)、決策樹(ID3,C4.5,CART)、樸素貝葉斯(Naive Bayes)、隨機森林、邏輯回歸、SVM、Adaboost、CART
回歸算法:線性回歸、嶺回歸
聚類算法:K-Means、EM
關聯分析:Apriori
連接分析:PageRank
2.2 也可以分成:監督學習(supervised learning)、無監督學習(unsupervised learning)。
在具體介紹前,先簡述一下數據集的構成,即:特征值 + 目標值;但有些數據集是可以沒有目標值的。
根據有無目標值,就可以分為:監督學習與無監督學習。
監督學習,輸入數據是由輸入特征值和目標值所組成。輸出可以是一個連續的值(稱為回歸),或是輸出是有限個離散值(稱為分類)。
分類:k-近鄰算法、貝葉斯分類、決策樹與隨機森林、邏輯回歸 等;
回歸:線性回歸、嶺回歸 等;
無監督學習,輸入數據僅是由特征值所組成;如:聚類 k-means 等。
三、特征工程
在正式介紹特征工程前,先來看看以下幾個問題:
Q1:為什么需要特征工程(Feature Engineering)?
業界廣泛流傳,數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。
Q2:什么是特征工程?
特征工程,是使用專業背景知識和技巧處理數據,使得特征能在機器學習算法上發揮更好的作用的過程。Q3:特征工程的位置與數據比較
- pandas:數據清洗、數據處理;
- sklearn:對于特征的處理提供了強大的接口。
Q4:特征工程主要包含的內容
特征抽取、特征預處理、特征降維;
在正式介紹特征工程之前,先來簡單介紹下數據集:
3.1 可用數據集
Kaggle網址:https://www.kaggle.com/datasets
- 特點:大數據競賽平臺、數據量巨大;
UCI數據集網址:http://archive.ics.uci.edu/ml/
- 特點:收錄了360個數據集,覆蓋科學、生活、經濟等領域,數據量幾十萬;
scikit-learn網址:https://scikit-learn.org/stable/datasets/index.html#datasets
- 特點:數據量較小、方便學習;
......
3.1.1 Scikit-learn 工具介紹
Python語言的機器學習工具,包括許多知名的機器學習算法的實現,文檔完善,容易上手,豐富的API。
# 安裝包 pip install Scikit-learn包含內容:
3.1.2 獲取sklearn自帶的數據集API
3.1.3 劃分數據集
數據集會劃分為兩個部分:
- 訓練數據:用于訓練,構建模型;
- 測試數據:在模型檢驗時使用,用于評估模型是否有效;
劃分比例:測試集一般在20%-30%,不傳參,默認25%;
API剖析數據集劃分案例本篇,先寫到這里吧!下一篇:特征工程介紹;
總結
以上是生活随笔為你收集整理的数据挖掘算法_算法篇(01) 数据挖掘算法初探的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 传米哈游年终奖108薪 全公司奖金近40
- 下一篇: 偏移shaderuv_Unity Sha