日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

sklearn 决策树例子_机器学习|决策树的生成过程是怎样?(一)

發布時間:2023/12/19 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 sklearn 决策树例子_机器学习|决策树的生成过程是怎样?(一) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文筆者將用具體例子講述決策樹的構建過程,分析:決策樹生成過程中有什么樣的問題?

一、基本概念

決策樹的定義:

首先,決策樹是一種有監督的分類算法——即給定X,Y值,構建X,Y的映射關系。

不同于線性回歸等是多項式,決策樹是一種樹形的結構,一般由根節點、父節點、子節點、葉子節點構成如圖所示。

父節點和子節點是相對的,子節點可以由父節點分裂而來,而子節點還能作為新的父節點繼續分裂;根節點是沒有父節點,即初始分裂節點,葉子節點是沒有子節點的節點,為終節點。

每一個分支代表著一個判斷,每個葉子節點代表一種結果。

這是在已知各種情況的發生的概率的基礎上,通過構建決策樹來進行分析的一種方式。

預測方式:

  • 根據輸入的樣本X的特征屬性和決策樹的取值,將輸入的X樣本分配到某一個葉子節點中。
  • 將葉子節點中出現最多的Y值,作為輸入的X樣本的預測類別。

目的:

最優的模型應該是:葉子節點中只包含一個類別的數據。

但是,事實是不可能將數據分的那么的純,因此,需要“貪心”策略,力爭在每次分割時都比上一次好一些,分的更純一些。

二、決策樹構建過程

步驟一:將所有的特征看成一個一個的節點,eg(擁有房產、婚姻狀態、年收入這些特征,我們可以看成一個一個的節點。)

步驟二:遍歷當前特征的每一種分割方式,找到最好的分割點eg(婚姻狀態這個特征,我們可以按照單身、已婚、離婚進行劃分;也可以按照結過婚、沒有結過婚進行劃分);將數據劃分為不同的子節點,eg: N1、 N2….Nm;計算劃分之后所有子節點的“純度”信息

步驟三:使用第二步遍歷所有特征,選擇出最優的特征,以及該特征的最優的劃分方式,得出最終的子節點N1、 N2….Nm

步驟四:對子節點N1、N2….Nm分別繼續執行2-3步,直到每個最終的子節點都足夠“純”。

從上述步驟可以看出,決策生成過程中有兩個重要的問題:

  • 對數據進行分割。
  • 選擇分裂特征。
  • 什么時候停止分裂。
  • 1. 對數據進行分割

    根據屬性值的類型進行劃分:

    如果值為離散型,且不生成二叉決策樹,則此時一個屬性就是可以一個分支,比如:上圖數據顯示,婚姻狀態為一個屬性,而下面有三個值,單身、已婚、離婚,則這三個值都可以作為一個分類。

    如果值為離散型,且生成二叉決策樹,可以按照 “屬于此子集”和“不屬于此子集”分成兩個分支。還是像上面的婚姻狀態,這可以按照已婚,和非婚,形成兩個分支。

    如果值為連續性,可以確定一個值作為分裂點,按照大于分割點,小于或等于分割點生成兩個分支,如上圖數據,我可以按照6千元的點劃分成:大于6千元和小于6千元。

    2. 找到最好的分裂特征

    決策樹算法是一種“貪心”算法策略——只考慮在當前數據特征情況下的最好分割方式。

    在某種意義上的局部最優解,也就是說我只保證在當分裂的時候,能夠保證數據最純就好。

    對于整體的數據集而言:按照所有的特征屬性進行劃分操作,對所有劃分操作的結果集的“純度”進行比較,選擇“純度”越高的特征屬性作為當前需要分割的數據集進行分割操作。

    決策樹使用信息增益作為選擇特征的依據,公式如下:

    H(D)為:分割前的純度。

    H(D|A)為:在給定條件A下的純度,兩者之差為信息增益度。如果信息增益度越大,則H(D|A)越小,則代表結果集的數據越純。

    計算純度的度量方式:Gini、信息熵、錯誤率。

    一般情況下,選擇信息熵和Gini系數,這三者的值越大,表示越“不純”。

    Gini:

    信息熵:

    錯誤率:

    3. 什么時候停止分裂

    一般情況有兩種停止條件:

  • 當每個子節點只有一種類型的時候停止構建。
  • 當前節點中記錄數小于某個閾值,同時迭代次數達到給定值時,停止構建過程。此時,使用 max(p(i))作為節點的對應類型。
  • 方式一可能會使樹的節點過多,導致過擬合(Overfiting)等問題。所以,比較常用的方式是使用方式二作為停止條件。

    三、舉例

    數據集如下:

    1. 對數據特征進行分割

    • 擁有房產(是、否)
    • 婚姻狀態(單身、已婚、離婚)
    • 年收入(80、97.5)

    2. 通過信息增益找到分割特征

    首先,計算按照擁有房產這個特征進行劃分的信息增益,使用錯誤率進行純度的計算:

    計算原始數據的純度:

    計算按擁有房產劃分后的結果集數據純度H(D|A):

    H(D| X=有房產) 的計算方式:

    H(D| X=無房產) 的計算方式:

    計算信息增益度Gain(房產):

    同理,可以計算:婚姻狀態 年收入=97.5

    Gain(婚姻) = 0.205

    Gain(婚姻) =0.395

    按照Gain越大,分割后的純度越高,因此第一個分割屬性為收入,并按照97.5進行劃分。

    左子樹的結果集夠純,因此不需要繼續劃分。

    接下來,對右子樹年收入大于97.5的數據,繼續選擇特征進行劃分,且不再考慮收入這個特征,方法如上,可以得到如圖:

    四、常見算法

    ID3:

    優點:決策樹構建速度快;實現簡單

    缺點:

    • 計算依賴于特征數目較多的特征,而屬性值最多的屬性并不一定最優 。
    • ID3算法不是遞增算法,ID3算法是單變量決策樹,對于特征屬性之間的關系不會考慮。
    • 抗噪性差。
    • 只適合小規模數據集,需要將數據放到內存中。

    C4.5:

    在ID3算法的基礎上,進行算法優化提出的一種算法(C4.5),使用信息增益率來取代ID3中的信息增益。

    CART(Classification And Regression Tree):

    五、總結

  • ID3和5算法均只適合在小規模數據集上使用。
  • ID3和5算法都是單變量決策樹當屬性值取值比較多的時候,最好考慮C4.5算法,ID3得出的效果會比較差 決策樹分類一般情況只適合小數據量的情況(數據可以放內存) CART算法是三種算法中最常用的一種決策樹構建算法(sklearn中僅支持CART)。
  • 三種算法的區別僅僅只是對于當前樹的評價標準不同而已,ID3使用信息增益、 5使用信息增益率、CART使用基尼系數。
  • CART算法構建的一定是二叉樹,ID3和5構建的不一定是二叉樹。
  • 本文由 @SincerityY 原創發布于人人都是產品經理。未經許可,禁止轉載

    題圖來自Unsplash,基于CC0協議

    總結

    以上是生活随笔為你收集整理的sklearn 决策树例子_机器学习|决策树的生成过程是怎样?(一)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 开心综合网| 欧美日韩在线中文字幕 | 日本久久高清视频 | 国产精品久久久久影院老司 | 亚洲色图欧美自拍 | 不卡影院av | 26uuu精品一区二区 | 亚洲欧美变态另类丝袜第一区 | 亚洲动漫精品 | 精品国产乱码久久久人妻 | 猛1被调教成公厕尿便失禁网站 | 最色网站 | 中文字幕免费高清视频 | 亚洲精品福利 | 黄色福利网 | av一级免费 | 日韩一区二区三区四区五区六区 | 五月婷婷啪啪 | 国产精品电影一区 | 亚洲成人av片 | 在线精品亚洲欧美日韩国产 | 国产v综合v亚洲欧美久久 | 伊人视屏 | 99riav在线| 三级三级久久三级久久 | 日韩欧美国产综合 | 国产有码在线观看 | 一级生活毛片 | 久久青青热 | 欧美精品一区二区在线观看 | 男人的天堂你懂的 | 色屁屁草草影院ccyycom | 日韩女优一区二区 | 精品在线观看一区二区 | 99热精品国产 | 看全色黄大色黄大片女一次牛 | 少妇福利在线 | 国产精品一区在线观看你懂的 | 97超碰福利 | 国产老女人乱淫免费可以 | 亚洲一二三四在线 | 麻豆视 | 午夜国产免费 | 天天干,天天操 | 无码人妻精品一区二 | 亚洲大片免费观看 | 五月婷婷六月激情 | 天堂av一区二区三区 | 天天摸夜夜操 | 三级免费网站 | 色网站观看 | 亚洲综合图色40p | 色一情一区二区三区 | 一本色道久久综合亚洲精品按摩 | 久久天天东北熟女毛茸茸 | 亚洲人成在线免费观看 | 欧美一区二区最爽乱淫视频免费看 | 亚洲综合五月天 | 亚洲精品在线观看网站 | 韩国一区二区三区视频 | 中文字幕91 | 亚洲人视频 | 一级二级三级视频 | 在线无码va中文字幕无码 | 激情视频免费观看 | 精品成人在线 | 国产精品又黄又爽又色无遮挡 | 丁香色综合 | 日韩毛片中文字幕 | 午夜激情毛片 | 日日躁夜夜躁狠狠久久av | 国产1页| xx99小雪| 激情自拍偷拍 | 四虎一级片 | 日本免费黄色小视频 | 黄色不卡视频 | 亚洲国产日韩在线一区 | 91婷婷色| 成人性生交大片免费看r链接 | 久久精品视频偷拍 | 国产精品久久欧美久久一区 | 亚洲欧美激情在线观看 | 全部孕妇毛片 | 久久亚洲成人 | 午夜久久久久久久久久 | 国产精品视频久久久久久久 | 精品亚洲天堂 | 成人在线国产精品 | 97香蕉久久夜色精品国产 | 无码国产69精品久久久久网站 | 免费人成在线观看网站 | 日韩三级精品 | 蜜桃99视频一区二区三区 | 黄在线观看 | 亚洲婷婷一区 | 欧美美女爱爱视频 | 6996电视影片免费看 | 九九在线精品 |