集成学习与随机森林练习题
以下練習(xí)題來(lái)自機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和Tensorflow一書(shū)。
如果你已經(jīng)在完全相同的訓(xùn)練集上訓(xùn)練了五個(gè)不同的模型,并 且它們都達(dá)到了95%的準(zhǔn)確率,是否還有機(jī)會(huì)通過(guò)結(jié)合這些模型來(lái)獲 得更好的結(jié)果?如果可以,該怎么做?如果不行,為什么?
答:如果你已經(jīng)訓(xùn)練了五個(gè)不同的模型,并且都達(dá)到了95%的精 度,你可以嘗試將它們組合成一個(gè)投票集成,這通常會(huì)帶來(lái)更好的結(jié) 果。如果模型之間非常不同(例如,一個(gè)SVM分類(lèi)器,一個(gè)決策樹(shù) 分類(lèi)器,以及一個(gè)Logistic回歸分類(lèi)器等),則效果更優(yōu)。如果它們 是在不同的訓(xùn)練實(shí)例(這是bagging和pasting集成的關(guān)鍵點(diǎn))上完成 訓(xùn)練,那就更好了,但如果不是,只要模型非常不同,這個(gè)集成仍然 有效。
硬投票分類(lèi)器和軟投票分類(lèi)器有什么區(qū)別?
答: 硬投票分類(lèi)器只是統(tǒng)計(jì)每個(gè)分類(lèi)器的投票,然后挑選出得票最 多的類(lèi)別。軟投票分類(lèi)器計(jì)算出每個(gè)類(lèi)別的平均估算概率,然后選出 概率最高的類(lèi)別。它比硬投票法的表現(xiàn)更優(yōu),因?yàn)樗o予那些高度自 信的投票更高的權(quán)重。但是它要求每個(gè)分類(lèi)器都能夠估算出類(lèi)別概率 才可以正常工作(例如,Scikit-Learn中的SVM分類(lèi)器必須要設(shè)置 probability=True)。
是否可以通過(guò)在多個(gè)服務(wù)器上并行來(lái)加速bagging集成的訓(xùn)練? pasting集成呢?boosting集成呢?隨機(jī)森林或stacking集成呢?
答:對(duì)于bagging集成來(lái)說(shuō),將其分布在多個(gè)服務(wù)器上能夠有效加速 訓(xùn)練過(guò)程,因?yàn)榧芍械拿總€(gè)預(yù)測(cè)器都是獨(dú)立工作的。同理,對(duì)于 pasting集成和隨機(jī)森林來(lái)說(shuō)也是如此。但是,boosting集成的每個(gè)預(yù) 測(cè)器都是基于其前序的結(jié)果,因此訓(xùn)練過(guò)程必須是有序的,將其分布 在多個(gè)服務(wù)器上毫無(wú)意義。對(duì)于stacking集成來(lái)說(shuō),某個(gè)指定層的預(yù) 測(cè)器之間彼此獨(dú)立,因而可以在多臺(tái)服務(wù)器上并行訓(xùn)練,但是,某一 層的預(yù)測(cè)器只能在其前一層的預(yù)測(cè)器全部訓(xùn)練完成之后,才能開(kāi)始訓(xùn) 練。
包外評(píng)估的好處是什么?
答:包外評(píng)估可以對(duì)bagging集成中的每個(gè)預(yù)測(cè)器使用其未經(jīng)訓(xùn)練的 實(shí)例進(jìn)行評(píng)估。不需要額外的驗(yàn)證集,就可以對(duì)集成實(shí)施相當(dāng)公正的評(píng)估。所以,如果訓(xùn)練使用的實(shí)例越多,集成的性能可以略有提升。
是什么讓極端隨機(jī)樹(shù)比一般隨機(jī)森林更加隨機(jī)?這部分增加的 隨機(jī)性有什么用?極端隨機(jī)樹(shù)比一般隨機(jī)森林快還是慢?
答:隨機(jī)森林在生長(zhǎng)過(guò)程中,每個(gè)節(jié)點(diǎn)的分裂僅考慮到了特征的一 個(gè)隨機(jī)子集。極限隨機(jī)樹(shù)也是如此,它甚至走得更遠(yuǎn):常規(guī)決策樹(shù)會(huì) 搜索出特征的最佳閾值,極限隨機(jī)樹(shù)直接對(duì)每個(gè)特征使用隨機(jī)閾值。 這種極限隨機(jī)性就像是一種正則化的形式:如果隨機(jī)森林對(duì)訓(xùn)練數(shù)據(jù) 出現(xiàn)過(guò)度擬合,那么極限隨機(jī)樹(shù)可能執(zhí)行效果更好。更甚的是,極限 隨機(jī)樹(shù)不需要計(jì)算最佳閾值,因此它訓(xùn)練起來(lái)比隨機(jī)森林快得多。但 是,在做預(yù)測(cè)的時(shí)候,相比隨機(jī)森林它不快也不慢
如果你的AdaBoost集成對(duì)訓(xùn)練數(shù)據(jù)擬合不足,你應(yīng)該調(diào)整哪些 超參數(shù)?怎么調(diào)整?
答: 如果你的AdaBoost集成對(duì)訓(xùn)練集擬合不足,可以嘗試提升估算 器的數(shù)量或是降低基礎(chǔ)估算器的正則化超參數(shù)。你也可以嘗試略微提 升學(xué)習(xí)率。
如果你的梯度提升集成對(duì)訓(xùn)練集過(guò)度擬合,你是應(yīng)該提升還是 降低學(xué)習(xí)率?
答:如果你的梯度提升集成對(duì)訓(xùn)練集過(guò)度擬合,你應(yīng)該試著降低學(xué) 習(xí)率,也可以通過(guò)早停法來(lái)尋找合適的預(yù)測(cè)器數(shù)量(可能是因?yàn)轭A(yù)測(cè) 器太多)。
加載MNIST數(shù)據(jù)集(第3章中有介紹),將其分為一個(gè)訓(xùn)練 集、一個(gè)驗(yàn)證集和一個(gè)測(cè)試集(例如使用40000個(gè)實(shí)例訓(xùn)練,10000個(gè) 實(shí)例驗(yàn)證,最后10000個(gè)實(shí)例測(cè)試)。然后訓(xùn)練多個(gè)分類(lèi)器,比如一 個(gè)隨機(jī)森林分類(lèi)器、一個(gè)極端隨機(jī)樹(shù)分類(lèi)器和一個(gè)SVM。接下來(lái), 嘗試使用軟投票法或者硬投票法將它們組合成一個(gè)集成,這個(gè)集成在 驗(yàn)證集上的表現(xiàn)要?jiǎng)龠^(guò)它們各自單獨(dú)的表現(xiàn)。成功找到集成后,在測(cè) 試集上測(cè)試。與單個(gè)的分類(lèi)器相比,它的性能要好多少?
運(yùn)行上一個(gè)練習(xí)中的單個(gè)分類(lèi)器,用驗(yàn)證集進(jìn)行預(yù)測(cè),然后用 預(yù)測(cè)結(jié)果創(chuàng)建一個(gè)新的訓(xùn)練集:新訓(xùn)練集中的每個(gè)實(shí)例都是一個(gè)向 量,這個(gè)向量包含所有分類(lèi)器對(duì)于一張圖像的一組預(yù)測(cè),目標(biāo)值是圖 像的類(lèi)別。恭喜,你成功訓(xùn)練了一個(gè)混合器,結(jié)合第一層的分類(lèi)器, 它們一起構(gòu)成了一個(gè)stacking集成。現(xiàn)在在測(cè)試集上評(píng)估這個(gè)集成。 對(duì)于測(cè)試集中的每張圖像,使用所有的分類(lèi)器進(jìn)行預(yù)測(cè),然后將預(yù)測(cè) 結(jié)果提供給混合器,得到集成的預(yù)測(cè)。與前面訓(xùn)練的投票分類(lèi)器相 比,這個(gè)集
總結(jié)
以上是生活随笔為你收集整理的集成学习与随机森林练习题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 工作总结7:自定义样式
- 下一篇: gamit批量下载精密星历shell脚本