决策树first task之框架搭建和提出问题
問題1:為什么需要學習決策樹?
問題2:決策樹需要哪些前導知識?
問題3:什么是決策樹?它的結構是什么樣的?
問題4:決策樹生長的過程是什么?
問題5:決策樹停止的條件是什么?
問題6:決策樹中使用到的算法,在決策樹中起到什么作用?它的發展歷史(ID3、C4.5、CART)是什么樣,都能解決什么樣的問題?
問題7:什么場景下可以使用決策樹?
問題8:什么情景下不可使用決策樹?
問題9:理論中的決策樹,和sklearn中的決策樹有區別嘛?如果有的話,具體是什么?
問題10:能否根據現有的決策樹的不足,提出一些改進的方法?
博客的目錄如下所示:
1??為什么要學習決策樹
2??前導知識
3??決策樹的組成結構和樣例
4??決策樹的生長過程和終止條件
5??決策樹的算法
6??決策樹的應用場景和局限性
7??理論和sklearn的差異
8??改進點
搜索到的面試問題:
1.簡述決策樹的原理
2.簡述決策樹的構建過程
3.信息增益率有什么優缺點?
4.如何對決策樹進行剪枝?
5.為什么決策樹需要進行剪枝?
6.C4.5對ID3做了哪些改進?
7.C4.5決策樹算法如何處理連續數值型屬性?
8.C4.5與CART的區別
9.簡述一下分類樹和回歸樹
10.CART如何生成回歸樹?
11.CART樹對離散特征取值數目>=3的特征如何處理?
12.決策樹對缺失值如何處理?
13.如果決策樹屬性用完了仍未對決策樹完成劃分應該怎么辦?
14.如何避免決策樹的過擬合?
15.決策樹需要進行歸一化處理嗎?
16.常用的決策樹一定是二叉樹嗎?二叉決策樹與多分支決策樹相比各有什么特點?
17.你認為在一棵決策樹構建過程中較為耗時的步驟是什么?
18.你正在一個時間序列數據集上工作,開始用決策樹算法,因為你知道它在所有類型數據上的表現都不錯。后來,你嘗試了時間序列回歸模型,并得到了比決策樹模型更高的精度。這種情況會發生嗎?為什么??
19.決策樹在選擇特征進行分類時一個特征被選擇過后,之后還會選擇到這個特征嗎?
20.和其他模型比,決策樹有哪些優點和缺點?
1.?為什么CART可以做回歸而ID3、C4.5只能做分類?
主要原因是特征分裂的評價標準不一樣,cart有兩種評價標準:Variance和Gini系數。
而ID3(信息增益)和C4.5(信息增益率)的評價基礎都是信息熵。
信息熵和Gini系數是針對分類任務的指標,而Variance是針對連續值的指標因此可以用來做回歸。
2. C4.5如何處理連續值特征?
C4.5決策樹算法[Quinlan,1993]采用的二分法(bi-partition)機制來處理連續屬性。對于連續屬性a,首先將n個不同取值進行從小到大排序,選擇相鄰a屬性值的平均值t作為候選劃分點,劃分點將數據集分為兩類,因此有包含n-1個候選劃分點的集合,分別計算出每個劃分點下的信息增益,選擇信息增益最大對應的劃分點,仍然以信息增益最大的屬性作為分支屬性。
總結
以上是生活随笔為你收集整理的决策树first task之框架搭建和提出问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 两个程序员的故事
- 下一篇: openCV中step[]和step1(