随机森林算法 python_Python实现的随机森林算法与简单总结
本文實例講述了Python實現的隨機森林算法。分享給大家供大家參考,具體如下:
隨機森林是數據挖掘中非常常用的分類預測算法,以分類或回歸的決策樹為基分類器。算法的一些基本要點:
*對大小為m的數據集進行樣本量同樣為m的有放回抽樣;
*對K個特征進行隨機抽樣,形成特征的子集,樣本量的確定方法可以有平方根、自然對數等;
*每棵樹完全生成,不進行剪枝;
*每個樣本的預測結果由每棵樹的預測投票生成(回歸的時候,即各棵樹的葉節點的平均)
著名的python機器學習包scikit learn的文檔對此算法有比較詳盡的介紹: http://scikit-learn.org/stable/modules/ensemble.html#random-forests
出于個人研究和測試的目的,基于經典的Kaggle 101泰坦尼克號乘客的數據集,建立模型并進行評估。比賽頁面及相關數據集的下載:https://www.kaggle.com/c/titanic
泰坦尼克號的沉沒,是歷史上非常著名的海難。突然感到,自己面對的不再是冷冰冰的數據,而是用數據挖掘的方法,去研究具體的歷史問題,也是饒有興趣。言歸正傳,模型的主要的目標,是希望根據每個乘客的一系列特征,如性別、年齡、艙位、上船地點等,對其是否能生還進行預測,是非常典型的二分類預測問題。數據集的字段名及實例如下:PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
103Braund, Mr. Owen Harrismale2210A/5 211717.25S
211Cumings, Mrs. John Bradley (Florence Briggs Thayer)female3810PC 1759971.2833C85C
313Heikkinen, Miss. Lainafemale2600STON/O2. 31012827.925S
411Futrelle, Mrs. Jacques Heath (Lily May Peel)female351011380353.1C123S
503Allen, Mr. William Henrymale35003734508.05S
值得說明的是,SibSp是指sister brother spouse,即某個乘客隨行的兄弟姐妹、丈夫、妻子的人數,Parch指parents,children
下面給出整個數據處理及建模過程,基于ubuntu+python 3.4( anaconda科學計算環境已經集成一系列常用包,pandas numpy sklearn等,這里強烈推薦)
懶得切換輸入法,寫的時候主要的注釋都是英文,中文的注釋是后來補充的:-)
總結
以上是生活随笔為你收集整理的随机森林算法 python_Python实现的随机森林算法与简单总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 笔记本电脑销售大幅增长如何销售电脑
- 下一篇: python 分布式队列_〖Python