當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

集成学习与随机森林练习题

發(fā)布時(shí)間：2023/12/9 编程问答 72 豆豆

生活随笔收集整理的這篇文章主要介紹了集成学习与随机森林练习题小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

以下練習(xí)題來(lái)自機(jī)器學(xué)習(xí)實(shí)戰(zhàn)：基于Scikit-Learn和Tensorflow一書(shū)。

如果你已經(jīng)在完全相同的訓(xùn)練集上訓(xùn)練了五個(gè)不同的模型，并且它們都達(dá)到了95%的準(zhǔn)確率，是否還有機(jī)會(huì)通過(guò)結(jié)合這些模型來(lái)獲得更好的結(jié)果？如果可以，該怎么做？如果不行，為什么？
答：如果你已經(jīng)訓(xùn)練了五個(gè)不同的模型，并且都達(dá)到了95％的精度，你可以嘗試將它們組合成一個(gè)投票集成，這通常會(huì)帶來(lái)更好的結(jié) 果。如果模型之間非常不同（例如，一個(gè)SVM分類(lèi)器，一個(gè)決策樹(shù) 分類(lèi)器，以及一個(gè)Logistic回歸分類(lèi)器等），則效果更優(yōu)。如果它們是在不同的訓(xùn)練實(shí)例（這是bagging和pasting集成的關(guān)鍵點(diǎn)）上完成訓(xùn)練，那就更好了，但如果不是，只要模型非常不同，這個(gè)集成仍然有效。

硬投票分類(lèi)器和軟投票分類(lèi)器有什么區(qū)別？
答：硬投票分類(lèi)器只是統(tǒng)計(jì)每個(gè)分類(lèi)器的投票，然后挑選出得票最多的類(lèi)別。軟投票分類(lèi)器計(jì)算出每個(gè)類(lèi)別的平均估算概率，然后選出概率最高的類(lèi)別。它比硬投票法的表現(xiàn)更優(yōu)，因?yàn)樗o予那些高度自信的投票更高的權(quán)重。但是它要求每個(gè)分類(lèi)器都能夠估算出類(lèi)別概率才可以正常工作（例如，Scikit-Learn中的SVM分類(lèi)器必須要設(shè)置 probability=True）。

是否可以通過(guò)在多個(gè)服務(wù)器上并行來(lái)加速bagging集成的訓(xùn)練？ pasting集成呢？boosting集成呢？隨機(jī)森林或stacking集成呢？
答：對(duì)于bagging集成來(lái)說(shuō)，將其分布在多個(gè)服務(wù)器上能夠有效加速訓(xùn)練過(guò)程，因?yàn)榧芍械拿總€(gè)預(yù)測(cè)器都是獨(dú)立工作的。同理，對(duì)于 pasting集成和隨機(jī)森林來(lái)說(shuō)也是如此。但是，boosting集成的每個(gè)預(yù) 測(cè)器都是基于其前序的結(jié)果，因此訓(xùn)練過(guò)程必須是有序的，將其分布在多個(gè)服務(wù)器上毫無(wú)意義。對(duì)于stacking集成來(lái)說(shuō)，某個(gè)指定層的預(yù) 測(cè)器之間彼此獨(dú)立，因而可以在多臺(tái)服務(wù)器上并行訓(xùn)練，但是，某一層的預(yù)測(cè)器只能在其前一層的預(yù)測(cè)器全部訓(xùn)練完成之后，才能開(kāi)始訓(xùn) 練。

包外評(píng)估的好處是什么？
答：包外評(píng)估可以對(duì)bagging集成中的每個(gè)預(yù)測(cè)器使用其未經(jīng)訓(xùn)練的實(shí)例進(jìn)行評(píng)估。不需要額外的驗(yàn)證集，就可以對(duì)集成實(shí)施相當(dāng)公正的評(píng)估。所以，如果訓(xùn)練使用的實(shí)例越多，集成的性能可以略有提升。

是什么讓極端隨機(jī)樹(shù)比一般隨機(jī)森林更加隨機(jī)？這部分增加的隨機(jī)性有什么用？極端隨機(jī)樹(shù)比一般隨機(jī)森林快還是慢？
答：隨機(jī)森林在生長(zhǎng)過(guò)程中，每個(gè)節(jié)點(diǎn)的分裂僅考慮到了特征的一個(gè)隨機(jī)子集。極限隨機(jī)樹(shù)也是如此，它甚至走得更遠(yuǎn)：常規(guī)決策樹(shù)會(huì) 搜索出特征的最佳閾值，極限隨機(jī)樹(shù)直接對(duì)每個(gè)特征使用隨機(jī)閾值。這種極限隨機(jī)性就像是一種正則化的形式：如果隨機(jī)森林對(duì)訓(xùn)練數(shù)據(jù) 出現(xiàn)過(guò)度擬合，那么極限隨機(jī)樹(shù)可能執(zhí)行效果更好。更甚的是，極限隨機(jī)樹(shù)不需要計(jì)算最佳閾值，因此它訓(xùn)練起來(lái)比隨機(jī)森林快得多。但是，在做預(yù)測(cè)的時(shí)候，相比隨機(jī)森林它不快也不慢

如果你的AdaBoost集成對(duì)訓(xùn)練數(shù)據(jù)擬合不足，你應(yīng)該調(diào)整哪些超參數(shù)？怎么調(diào)整？
答：如果你的AdaBoost集成對(duì)訓(xùn)練集擬合不足，可以嘗試提升估算器的數(shù)量或是降低基礎(chǔ)估算器的正則化超參數(shù)。你也可以嘗試略微提升學(xué)習(xí)率。

如果你的梯度提升集成對(duì)訓(xùn)練集過(guò)度擬合，你是應(yīng)該提升還是降低學(xué)習(xí)率？
答：如果你的梯度提升集成對(duì)訓(xùn)練集過(guò)度擬合，你應(yīng)該試著降低學(xué) 習(xí)率，也可以通過(guò)早停法來(lái)尋找合適的預(yù)測(cè)器數(shù)量（可能是因?yàn)轭A(yù)測(cè) 器太多）。

加載MNIST數(shù)據(jù)集（第3章中有介紹），將其分為一個(gè)訓(xùn)練集、一個(gè)驗(yàn)證集和一個(gè)測(cè)試集（例如使用40000個(gè)實(shí)例訓(xùn)練，10000個(gè) 實(shí)例驗(yàn)證，最后10000個(gè)實(shí)例測(cè)試）。然后訓(xùn)練多個(gè)分類(lèi)器，比如一個(gè)隨機(jī)森林分類(lèi)器、一個(gè)極端隨機(jī)樹(shù)分類(lèi)器和一個(gè)SVM。接下來(lái)，嘗試使用軟投票法或者硬投票法將它們組合成一個(gè)集成，這個(gè)集成在驗(yàn)證集上的表現(xiàn)要?jiǎng)龠^(guò)它們各自單獨(dú)的表現(xiàn)。成功找到集成后，在測(cè) 試集上測(cè)試。與單個(gè)的分類(lèi)器相比，它的性能要好多少？

運(yùn)行上一個(gè)練習(xí)中的單個(gè)分類(lèi)器，用驗(yàn)證集進(jìn)行預(yù)測(cè)，然后用預(yù)測(cè)結(jié)果創(chuàng)建一個(gè)新的訓(xùn)練集：新訓(xùn)練集中的每個(gè)實(shí)例都是一個(gè)向量，這個(gè)向量包含所有分類(lèi)器對(duì)于一張圖像的一組預(yù)測(cè)，目標(biāo)值是圖像的類(lèi)別。恭喜，你成功訓(xùn)練了一個(gè)混合器，結(jié)合第一層的分類(lèi)器，它們一起構(gòu)成了一個(gè)stacking集成。現(xiàn)在在測(cè)試集上評(píng)估這個(gè)集成。對(duì)于測(cè)試集中的每張圖像，使用所有的分類(lèi)器進(jìn)行預(yù)測(cè)，然后將預(yù)測(cè) 結(jié)果提供給混合器，得到集成的預(yù)測(cè)。與前面訓(xùn)練的投票分類(lèi)器相比，這個(gè)集

總結(jié)

以上是生活随笔為你收集整理的集成学习与随机森林练习题的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：工作总结7：自定义样式
下一篇： gamit批量下载精密星历shell脚本

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

集成学习与随机森林练习题

總結(jié)