炼数成金数据分析课程---16、机器学习中的分类算法(交叉内容,后面要重点看)...
生活随笔
收集整理的這篇文章主要介紹了
炼数成金数据分析课程---16、机器学习中的分类算法(交叉内容,后面要重点看)...
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
煉數(shù)成金數(shù)據(jù)分析課程---16、機(jī)器學(xué)習(xí)中的分類算法(交叉內(nèi)容,后面要重點(diǎn)看)
一、總結(jié)
一句話總結(jié):
大綱+實(shí)例快速學(xué)習(xí)法
主要講解常用分類算法(如Knn、決策樹、貝葉斯分類器等)的原理及python代碼實(shí)現(xiàn)
?
1、什么是分類?
分類模型:輸入樣本的屬性值,輸出對應(yīng)的類別,將每個(gè)樣本映射到預(yù)先定義好的類別
?
2、常用分類算法?
-Knn算法
-決策樹
-貝葉斯分類器
-神經(jīng)網(wǎng)絡(luò)
-Knn算法 -決策樹 -貝葉斯分類器 -支持向量機(jī) -神經(jīng)網(wǎng)絡(luò)?
?
?
3、分類算法中的決策樹的主要思想是什么?
空間劃分:看圖
?
?
4、分類算法中的決策樹的介紹?
樹中每一個(gè)非葉節(jié)點(diǎn)表示一個(gè)決策,該決策的值導(dǎo)致不同的決策結(jié)果(葉節(jié)點(diǎn))或者影響后面的決策選擇。
根據(jù)給定的未知分類的元組X,根據(jù)其屬性值跟蹤一條由根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑,該葉節(jié)點(diǎn)就是該元組的分類結(jié)果預(yù)測。
?
5、構(gòu)建決策樹的算法的本質(zhì)是什么?
貪心:在構(gòu)建決策樹時(shí),這兩類算法的流程基本一樣,都采用貪心方法,自頂而下遞歸構(gòu)建決 策樹
?
6、貪心算法如何構(gòu)建決策樹?
1.創(chuàng)建一個(gè)結(jié)點(diǎn)N。如果D中的元組都在同一個(gè)類別C中,則N作為葉結(jié)點(diǎn),以C標(biāo)記;如果屬性列表為空,則N作為葉節(jié)點(diǎn),以D中最多的類別C作為標(biāo)記。
2.根據(jù)分裂準(zhǔn)則找出“最好”的分裂屬性A,并用該分裂屬性標(biāo)記N。1)A是離散的,則A的每個(gè)已知值都產(chǎn)生一個(gè)分支;2)A是連續(xù)的,則產(chǎn)生Ass和A>s兩個(gè)分支;3)若A是連續(xù)的,并且必須產(chǎn)生二叉樹,則產(chǎn)生AEA1和AEA2兩個(gè)分支,其中A1,A2非空且A1UA2=A
3.若給定的分支中的元組非空,對于D的每一個(gè)分支Dj,重復(fù)步驟1,2
?
7、分類算法中的決策樹的 屬性選擇 如何度量?
如果我們根據(jù)分裂準(zhǔn)則把D劃分為較小的分區(qū),最好的情況是每個(gè)分區(qū)都是純的,即落在一個(gè)給定分區(qū)的所有元組都是相同的類。最好的分裂準(zhǔn)則就是令到每個(gè)分區(qū)盡量的純。
屬性選擇度量給學(xué)習(xí)集中的每個(gè)屬性提供了評定。具有最好度量得分的屬性被選為分裂屬性。
?
8、決策樹的剪枝的兩種常用方法是什么?
先剪枝:通過設(shè)定一定的閥值來停止樹的生長例如,在構(gòu)建樹模型時(shí),使用信息增益、基尼指數(shù)來度量劃分的優(yōu)劣。可以預(yù)先設(shè)定一個(gè)閥值,當(dāng)劃分一個(gè)結(jié)點(diǎn)的元組到時(shí)低于預(yù)設(shè)的閥值時(shí),停止改子集的劃分
后剪枝:等樹完全生成后再通過刪除結(jié)點(diǎn)去修剪決策樹。由于先剪枝中,選擇合適的閥值存在一定的困難,所以后剪枝更加常用
?
9、python中使用決策分類算法常需要借助哪些包?
主要是python的sklearn庫
import numpy as np from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import precision_recall_curve from sklearn.metrics import classification_report from sklearn.naive_bayes import BernoulliNB from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cross_validation import train_test_split import matplotlib.pyplot as plt import pandas as pd?
?
二、內(nèi)容在總結(jié)中
決策樹--空間分割
?
week13
?
?
?
?
?
?
轉(zhuǎn)載于:https://www.cnblogs.com/Renyi-Fan/p/10989866.html
總結(jié)
以上是生活随笔為你收集整理的炼数成金数据分析课程---16、机器学习中的分类算法(交叉内容,后面要重点看)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 台州银行登录显示服务器异常,手把手教你设
- 下一篇: strcmp可以比较数组么_大家都用过百