35 实战 微额借款用户人品预测
生活随笔
收集整理的這篇文章主要介紹了
35 实战 微额借款用户人品预测
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
做什么
競賽主頁:微額借款用戶人品預測大賽
通過數據挖掘來分析小額微貸申請借款用戶的信用狀況,以分析其是否逾期
?
數據在這里,鏈接: https://pan.baidu.com/s/1b2WZnS 密碼: crka
數據來源于CashBUS現金巴士贊助的微額借款用戶人品預測大賽,經CashBUS授權使用
?
冠軍團隊:不得直視本王
參考資料:https://github.com/wepe/DataCastle-Solution
?
數據概況
- train_x.csv:訓練數據特征,共1138維特征(1045為數值,93為類別),15000行
- train_y.csv:訓練數據標簽,1為正常,0為有問題,二分類
- test_x.csv:測試數據特征,共1138維特征,5000行,待分類
- train_unlabeled.csv:無標簽訓練數據,共1138維特征,50000行
- features_type.csv:1138維特征的類型說明,數值 or 類別
?
缺失值處理
統計train_x、test_x、train_unlabeled中,1138維特征的缺失情況并繪圖
?
?
缺失值數量區間化,去掉缺失值數量大于194的行(可能引入噪聲,造成過擬合)
?
特征工程
?
特征選擇
基于XGBoost,在訓練模型時,對特征重要性進行排序,以進行特征選擇
?
模型設計
1 單模型
XGBoost、SVM等,0.717
?
2 Bagging of XGBoost
36個XGBoost模型:
- 特征多樣:保留topN1個原始特征、topN2個排序特征、topN3個離散特征、10個計數特征,N1、N2、N3分別在300-500、300-500、64-100的范圍內隨機選擇
- 模型多樣:XGBoost的各項參數在經調優的最佳值附近小范圍抖動
- 融合!0.725
?
3 多模型融合
XGboost的Py、R、Java版本,BoX,SVM,加權融合,0.7279
?
4 迭代半監督
用最好的模型預測無標簽數據,并保留融合后能提升性能的數據
?
5 暴力半監督
- 每次從無標簽數據中無放回選擇10條,共有2^10=1024種可能的標簽,保留融合后性能最好的一組標簽,從而獲得5000組即5W條標注數據
- 取5000組中的top500共5000條,每次選擇20-50條,保留融合后能提升性能的選擇,得到最終模型,0.7341
?
更加詳細的內容
全過程演示+手敲代碼,課程籌備中,敬請期待!
總結
以上是生活随笔為你收集整理的35 实战 微额借款用户人品预测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机网络连接显示678是什么意思,宽带
- 下一篇: 毕设日志(二)