日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

通俗易懂的随机森林模型讲解

發(fā)布時間:2023/12/9 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 通俗易懂的随机森林模型讲解 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

通俗易懂的隨機森林模型講解

? ? ? ?大家好,我是你們的好朋友小木。對于隨機森林的模型,網上已經有灰常灰常多的講解,大家講的也非常的不錯。但絕大多數大神講解都是注重于理論,把算數的地方都給忽略了,我這次要以舉例子的方法來講解,這樣可以讓大家更好的理解隨機森林模型。

??首先我們來定義一下隨機森林,啥叫隨機森林呢,森林指的是有一堆大樹的地方,隨機指每棵大樹種植的過程中施肥的種類是隨機地選擇的。但是好好地一個模型怎么就變成大樹了呢?當然不是啦,這里大樹指的是決策樹,而施肥指的是不同的限定條件。接下來,又有小朋友問我啥叫決策樹,好大的一棵樹啊,不懂o(_)o ,那么我就來講一下啥叫決策樹。

? ? ? ?顧名思義,決策就是評價的意思,我們用一顆大樹評價一個事物,這樣的大樹就叫做決策樹。那么我們決策啥?往后看就直到了

??比如小木想要找女朋友,但他是個人,他有自己喜歡的類型,不是任何人都會同意的。我們現在有一個中介公司給小木介紹了五個女孩,她們的條件、以及小木是否想見面分別如表1所示:

1

女孩編號

長相

性格

年齡

學歷

住址

小木是否選擇

1

溫柔

26

碩士

城市

2

平淡

24

高中

城市

3

超兇

20

本科

城市

4

溫柔

25

碩士

農村

5

平淡

30

本科

城市

6

超兇

28

博士

農村

??我們要決策的就是小木是否選擇見面,其中結果有兩個,一個是是,一個是否。

??這個表格中有長相、性格、年齡、學歷、小木是否選擇幾項,除了年齡之外全都是文字,我們要建立數學模型這是不可以的,那么我們必須給它們轉換為數字形式,轉換之后如表2所示:

2

女孩編號

長相

性格

年齡

學歷

住址

小木是否選擇

1

1

溫柔2

26

碩士2

城市

0

2

0

平淡1

24

高中4

城市

0

3

1

超兇0

20

本科1

城市

1

4

0

溫柔2

25

碩士2

農村

0

5

1

平淡1

30

本科1

城市

0

6

0

超兇0

28

博士3

農村

1

? 這個表格把各個變量都應用上了數字,例如性格中,分為了012三類。我們分完類別之后呢,下一步我們就要選擇一個特征,然后判斷小木是否見面。特征怎么選?我們用一個叫做熵值公式,它的計算公式如下:

1

??舉個例子,比如分析小木是否選擇見面,在表格2里面,選擇“是”情況有兩種,“否”情況有三種,共五個,所以選擇“是”的概率為2/6=0.33,選擇否的概率為4/6=0.67。然后我們把0.40.6帶入公式(1)中,得到:H0=-(0.33*log20.33+0.67*log20.67)=0.92

??同理,對于學歷來說,共有4種:高中、本科、碩士、博士,概率分別為:1/62/6、2/6、1/6,并將其帶入公式2中:

2

??其中,|Di|/|D|指的是高中、學士、碩士、博士概率。計算Hi的時候,我們帶入的總數目是高中、學士、碩士、博士的數量,比如學士有兩個,且一個小木不選,一個小木選,概率分別是0.50.5。類似于高中數學中的HDi|Hj),要是不能理解就按照下面的計算方式直接帶入數據就行:

??通過式(2)可求得H4。

??同理,我們得出各個特征的Hi值,然后用得出的Hi值與H0分別作差,也就是Hi-H0,然后得到如下表3

3

特征

長相H1

性格H2

年齡H3

學歷H4

住址H5

小木是否選擇H0

0.92

0

?

0.67

0.67

0.92

H-H0

0

0.92

?

0.25

0.25

0

??我們把這些都算完了,就差年齡了,年齡這個條件我們卻發(fā)現了,每一個年齡的概率是1/6,我們應該這么算?不,為啥呢,因為我們這里沒有29歲,也沒有212223歲,我們要一個個算的話,那么就漏掉這四個年齡了,那怎么辦?我們只好坐在輪椅上,雙腳離地想想了,我們這么一想,唉,發(fā)現一個秘密。如果你說是,年齡在20~30之間,那么我就告訴你:恭喜你回答正確!因為在20~30之間,我們取一個中間值25,如果小于25我們就算0,如果大于等于25就算1,那么我們就得出了表4

4

女孩編號

長相

性格

年齡

學歷

住址

小木是否選擇

1

1

溫柔2

26 ?1

碩士2

城市0

0

2

0

平淡1

24 ?0

高中4

城市0

0

3

1

超兇0

20 ?0

本科1

城市0

1

4

0

溫柔2

25 ?1

碩士2

農村1

0

5

1

平淡1

30 ?1

本科1

城市0

0

6

0

超兇0

28 ?1

博士3

農村1

1

??我們這里大于等于25的一共有4個,小于的一共有2個,那么它們的概率分別為4/6、2/6,通過式1計算,就能得出H=0.92,因此,我們獲得完整的表5

5

特征

長相H1

性格H2

年齡H3

學歷H4

住址H5

小木是否選擇H0

0.92

0

0.87

0.67

0.67

0.92

H-H0

0

0.92

0.05

0.25

0.25

0

??熵值代表著混亂的程度,我們高中學過,熵值越大,說明越混亂。熵差代表著啥呢,代表著信息增益,也可以叫做純度,說白了與小木找對象的不確定度是0.92,如果就看性格,不確定度是0,增益最大,也就是說看完性格之后就就知道怎么挑了,說明分類的純度大,如果就看長相,不確定度增益小,也就是不挑長相,所以對找對象用途很不大,說明純度小??偨Y來說是信息增益越大,挑的越容易。因為長相增益為0,那么我們就把它排除在外,不算它了。

??我們建立第一顆決策樹,首先隨機地選擇兩個限定條件,一個是性格,另外一個是年齡,我們發(fā)現增益最大的是性格,也就是性格作為決策樹的頂點,然后隨機選擇幾個樣本(由于樣本就6個,我們就都選擇了)并按照這性格分別劃分三個細節(jié),如圖1所示:

1

??圖1中,文字底下的數字表示的和表4中的相同,例如平淡中[1,0]表示:[平淡,小木不選擇]。其中最后一位紅字表示小木的選擇,從圖中我們可以看出,小木對于溫柔、平淡的女生是拒絕的,對超兇的女生是直接選擇的。對超兇的女生,小木是百分百選擇的。因此后邊的學歷我們也就不用看了。這樣一顆決策樹就建立完成了。

??接下來,按照同樣方法再隨機地選擇兩個限定條件,如學歷、年齡。信息增益最大的那個是學歷,也就是學歷作為決策樹的頂點,然后隨機選擇幾個樣本(由于樣本就6個,我們就都選擇了),按照這性格分別劃分四個細節(jié):高中、本科、碩士、博士如圖2所示:

2

??我們發(fā)現高中和碩士小木不選,而博士小木選擇,本科有歧義,我們還需要往下面再分類。我們按照同樣的方法,把年齡分為25歲以下和25歲以上(包含25歲),圖3所示:

3

??我們再生成一個大樹,選擇住址和性格(因為樣本太少了,所以我們這里瞎編一個大樹,不符合計算規(guī)則,不用多想了),如圖4所示:


4

??這樣,我們建立了三顆決策樹,接下來,我們需要把測試數據帶入進去判斷小木是否選擇,比如我們有表6

6

女孩編號

長相

性格

年齡

學歷

住址

1

0

平淡1

24 ?0

高中4

城市1

2

1

超兇0

30 ?1

碩士2

農村1

3

0

平淡1

26 ?1

本科1

農村1

??然后我們把條件分別帶入三棵樹中。比如第一個女孩帶入第一顆大樹,首先判斷性格,性格是平淡的,小木不會選擇,所以結果為0。第二棵樹,首先判斷學歷是高中,小木不會選擇所以結果為0。帶入第三棵樹,判斷居住地是城市,接下來判斷性格為平淡,所以小木不選,結果為0。其它數據同理計算,我們會得出表格7

7

女孩編號

結果1

結果2

結果3

最終結果

1

0

0

0

0

2

1

0

1

1

3

1

0

0

0

??從表格我們可以得出最終的結果,最終的結果一般是兩種計算方法,第一種是少數服從多數,第二種是平均值,因為這次結果只有01,所以選擇少數服從多數的計算方式。

? ? ? ?至此我們的隨機森林就計算完成啦。最后總結一下隨機森林的計算步驟:

(1)導入數據,條件及其結果(比如女孩自身條件是條件,小木是否選擇見面是結果)

(2)設定一個常數N,作為篩選的樣本數目(一般小于樣本總數M,由于該舉例里面樣本太少了,所以我就讓N=M了)。

(3)設定一個常數a,作為篩選條件的數目(一般小于總數)

(4)設定一個常數X,作為決策樹數目,并創(chuàng)建X個決策樹(創(chuàng)建時,每個決策樹隨機選定數目為a的條件,隨即選定數目為N的樣本)

(5)創(chuàng)建完成后,帶入測試樣本,以結果少數服從多數或平均值作為最終測試結果,并與真實結果做對比,判斷是否符合實際。


————————————————

如果對我的課程感興趣的話,歡迎關注小木希望學園-微信公眾號:?

mutianwei521



總結

以上是生活随笔為你收集整理的通俗易懂的随机森林模型讲解的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。