二分类预测
本項(xiàng)目是數(shù)據(jù)的二分類分析,針對(duì)俄亥俄州診所患者出現(xiàn)與否數(shù)據(jù)集No-show-Issue-Comma-300k進(jìn)行樣本的分類預(yù)測。首先進(jìn)行特征探究,觀察里面的連續(xù)變量,布爾值變量以及字符串變量,并繪制不同變量的分布圖。然后對(duì)變量中的離群值以及明顯錯(cuò)誤數(shù)據(jù)進(jìn)行清洗,探究各變量與狀態(tài)變量之間的關(guān)系。最后分別用決策樹,SGD,隨機(jī)森林以及梯度Boosting對(duì)數(shù)據(jù)集做二分類預(yù)測,得到梯度Boosting在ROC_AUC指標(biāo)下效果最好。
src="https://nbviewer.jupyter.org/github/wzy6642/Machine-Learning-Case/blob/master/noshowappointments/code/NoShowAppointments.ipynb" width="100%" height="1000">github:https://github.com/wzy6642/Machine-Learning-Case
總結(jié)
- 上一篇: 回归预测
- 下一篇: 利用Keras构建自动编码器