日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习之决策树与随机森林

發(fā)布時間:2023/12/20 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习之决策树与随机森林 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

  • 目錄
  • 1、了解熵、條件熵、互信息的概念及公式
    • 1.1、熵
    • 1.2、條件熵
    • 1.3、信息增益/互信息
  • 2、了解決策樹
    • 2.1、了解決策樹的概念和特點以及和熵的關系
    • 2.2、了解樹生成的過程
    • 2.3、了解決策樹三種算法的區(qū)別
    • 2.4、了解決策樹的損失函數(shù)
    • 2.5、了解解決決策樹過擬合的方法
    • 2.6、了解后剪枝的過程
  • 3、了解Bagging和隨機森林
  • 4、掌握樣本不均衡常用的處理方法
  • 5、隨機森林算法常用參數(shù)詳解

目錄

1、了解熵、條件熵、互信息的概念及公式

1.1、熵

熵本身是描述事物的混亂程度的
決策樹乃至隨機森林最關鍵的一點就是如何來劃分一個節(jié)點分裂數(shù)據(jù)讓結果達到最好。
信息熵的作用(即判定特征分裂的好壞)
了解信息熵的表示形式(負號代表x發(fā)生的概率越大對應的熵值越小):

知道這個信息熵的概念(x發(fā)生的概率越大,結果越穩(wěn)定對應的熵值也就越小;P(X,Y)=H(X)+H(Y)代表X、Y發(fā)生的事件的熵相加)

1.2、條件熵

知道條件熵的概念:H(Y|X)表示在X發(fā)生的前提下,Y發(fā)生新帶來的熵。

1.3、信息增益/互信息

信息增益即為互信息,信息增益即為相關系數(shù)(計算一個特征對類X是否有影響)
信息增益:度量特征A對數(shù)據(jù)集D的不確定性的減小程度(即不確定減小也就是D發(fā)生概率增加)。

信息增益即為互信息,信息增益即為相關系數(shù)(計算一個特征對類X的影響程度)
信息增益:度量特征A對數(shù)據(jù)集D的不確定性的減小程度(即不確定減小也就是D發(fā)生概率增加)。

2、了解決策樹

2.1、了解決策樹的概念和特點以及和熵的關系



信息熵又稱為經(jīng)驗熵,重點注意下面選取分裂特征的過程。

2.2、了解樹生成的過程

樹的生成過程:首先你能得到對應的數(shù)據(jù)集D的經(jīng)驗熵(即根節(jié)點的信息熵),之后遍歷所有的特征,進行以下步驟:(前提條件是你肯定能得到數(shù)據(jù)集D的經(jīng)驗熵H(D)公式如下圖)。
一、計算特征A對于數(shù)據(jù)集D的條件熵即H(D|A);
二、計算特征A的信息增益g(D,A)=H(D)-H(D|A);
三、選擇信息增益最大的特征作為當前的分裂特征。(信息增益越大,也就說明D在A特征下發(fā)生的概率越大,也就說明D對應的信息熵越小。而樹生成的過程即是從信息熵大的根節(jié)點到信息熵為0的葉子節(jié)點)

2.3、了解決策樹三種算法的區(qū)別



知道gini系數(shù)(同信息增益一樣也可以作為特征分析的依據(jù))

2.4、了解決策樹的損失函數(shù)

了解評價函數(shù)的意義:實際上就是每個葉子結點的熵值和對應的葉子結點上的數(shù)據(jù)量做一個乘積的加和(這里的N其實就是對H(t)做一個加權處理)
掌握損失函數(shù)(又稱為評價函數(shù))的表達式以及對應的含義(可不可以理解為:因為葉子節(jié)點代表分類的最終結果,那么葉子節(jié)點的熵值也就代表分類的好壞的程度,那么所有葉子節(jié)點的熵值的加權和也就代表整棵樹分類的好壞程度)。
結論:損失函數(shù)越小即代表整體的熵值越小,整棵樹越穩(wěn)定,分類的效果越好。

2.5、了解解決決策樹過擬合的方法

1、剪枝(過程見下文)
2、隨機森林
了解剪枝的思路:即如何從Ti到Ti+1

了解修正后的損失函數(shù)的含義 :實質上就是添加了葉子節(jié)點的影響權重值
了解α的公式(C(r):單個根節(jié)點的評價函數(shù)值。C(R):子樹的評價函數(shù)值。如下圖所示)以及對應的求解過程

2.6、了解后剪枝的過程

一、先求出各個內部節(jié)點的α值,
二、然后將α值從小到大進行排列得到對應得樹T0、T1…
三、按照這個順序依次進行剪枝的操作直到剪到最后的根節(jié)點為止。
四、最終利用test集合去測試看那棵樹的損失函數(shù)最小就選取哪棵樹。

3、了解Bagging和隨機森林

知道這個Bagging是什么


了解隨機森林的建立過程


4、掌握樣本不均衡常用的處理方法

1、A類隨機欠采樣:A類樣本過多,可以通過隨機采取A中的少部分(如20%)樣本來和B中的樣本匯總作為總的樣本。
2、基于聚類的A類的分割:將A類樣本進行一個聚類操作,然后隨機的選取A中的任何一個類族和B一起構成一個總的樣本。
3、B類過采樣:B類數(shù)據(jù)太少,可以不斷的復制B類的樣本從而使B樣本的數(shù)量增加滿足A樣本的要求。
4、B類數(shù)據(jù)合成:在空間中將兩個B樣本連接,隨機在連線上選取某些點用于生成樣本以達到增加樣本B的數(shù)量的目的。(如下圖所示)
5、代價敏感學習(降低A類權值,提高B類權值)
總結:1-4為對樣本的處理,5對算法的處理。

5、隨機森林算法常用參數(shù)詳解

詳見:https://blog.csdn.net/qq_16633405/article/details/61200502

總結

以上是生活随笔為你收集整理的机器学习之决策树与随机森林的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲另类一区二区 | 午夜电影福利网 | 久久国产精品无码网站 | 午夜伦理一区二区 | 亚洲区 欧美区 | 欧美精品福利视频 | 91精彩刺激对白 | 大陆农村乡下av | 色综合激情 | 久久亚洲aⅴ无码精品 | 粉嫩av四季av绯色av | 欧洲色av| 人妻少妇偷人精品久久久任期 | 美国一区二区 | 欧美热热| 日干夜操 | 国产专区一区二区 | 久久综合91 | 午夜精品一区 | 女女同性被吸乳羞羞 | 欧美精品一二三四 | 动漫精品一区 | 国产成人愉拍精品久久 | 中国a一片一级一片 | 97久久国产亚洲精品超碰热 | 色偷偷网站| 婷婷六月综合 | 日本伊人久久 | 一本久久a精品一合区久久久 | 日本免费一区二区在线 | 国产三级国产精品国产专区50 | 日韩一级在线观看 | 最新天堂中文在线 | 8x8ⅹ国产精品一区二区 | 99re在线播放 | 中文字幕 欧美激情 | 成人先锋av | 国产精品永久免费观看 | 日本在线视频一区 | 国产视频一区二区不卡 | 国产艳情片 | 在线观视频免费观看 | 欧美xxxx888| 97香蕉 | 亚洲成人激情视频 | 国产aaaaaa| 特黄色大片 | 无码人妻精品一区二区蜜桃色欲 | 野外做受又硬又粗又大视频√ | 亚洲av成人一区二区国产精品 | 亚洲一区二区高清视频 | 中国毛片在线观看 | 久久尤物 | 日本欧美国产一区二区三区 | 久久久久久久一区二区三区 | 四虎影视在线播放 | www.日日| 日本a v网站 | 伊人免费在线观看 | 超碰资源 | 国产高清视频一区二区 | 美女啪啪免费视频 | 国产一区二区免费电影 | 一级黄色短视频 | 最近中文字幕在线观看 | 自拍偷拍亚洲欧美 | 亚洲视频你懂的 | 69久久成人精品 | 欧美日韩爱爱 | 日本久久网站 | 欧美精品激情视频 | 老熟女一区二区三区 | 日本69视频 | 国产又粗又猛又爽又黄的视频在线观看动漫 | www.com黄色片| 久久香蕉影院 | 男人和女人日b视频 | 草逼免费视频 | 日韩成人性视频 | 丰满少妇xoxoxo视频 | 亚洲视频成人 | 无码精品a∨在线观看中文 福利片av | 一区二区在线免费视频 | 亚洲区自拍 | 免费三级大片 | 欧洲精品一区二区三区久久 | 在线不卡欧美 | 日韩孕交| 免费高清欧美大片在线观看 | 日韩av不卡在线 | 龚玥菲三级露全乳视频 | 青青草公开视频 | 岛国av电影在线观看 | 国产91影院 | 中文字幕高清在线 | 久久久久亚洲av成人网人人软件 | 天堂网色 | 奇米影视777第四色 2019中文字幕在线免费观看 | 色综合九九 |