日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

35 实战 微额借款用户人品预测

發布時間:2023/12/14 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 35 实战 微额借款用户人品预测 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

做什么

競賽主頁:微額借款用戶人品預測大賽

通過數據挖掘來分析小額微貸申請借款用戶的信用狀況,以分析其是否逾期

?

數據在這里,鏈接: https://pan.baidu.com/s/1b2WZnS 密碼: crka

數據來源于CashBUS現金巴士贊助的微額借款用戶人品預測大賽,經CashBUS授權使用

?

冠軍團隊:不得直視本王

參考資料:https://github.com/wepe/DataCastle-Solution

?

數據概況

  • train_x.csv:訓練數據特征,共1138維特征(1045為數值,93為類別),15000行
  • train_y.csv:訓練數據標簽,1為正常,0為有問題,二分類
  • test_x.csv:測試數據特征,共1138維特征,5000行,待分類
  • train_unlabeled.csv:無標簽訓練數據,共1138維特征,50000行
  • features_type.csv:1138維特征的類型說明,數值 or 類別

?

缺失值處理

統計train_x、test_x、train_unlabeled中,1138維特征的缺失情況并繪圖

?

?

缺失值數量區間化,去掉缺失值數量大于194的行(可能引入噪聲,造成過擬合)

?

特征工程

  • 排序特征:基于7W原始數據,對數值特征排序,得到1045維排序特征
  • 離散特征:將排序特征區間化(等值區間化、等量區間化),這里采用等量區間化為1-10,得到1045維離散特征
  • 計數特征:統計每一行中,離散特征1-10的個數,得到10維計數特征
  • 類別特征編碼:將93維類別特征用one-hot編碼
  • 交叉特征:特征之間兩兩融合,x+y、x-y、x*y、x^2+y^2等,由于時間復雜度較高,暫時跳過
  • ?

    特征選擇

    基于XGBoost,在訓練模型時,對特征重要性進行排序,以進行特征選擇

    ?

    模型設計

    1 單模型

    XGBoost、SVM等,0.717

    ?

    2 Bagging of XGBoost

    36個XGBoost模型:

    • 特征多樣:保留topN1個原始特征、topN2個排序特征、topN3個離散特征、10個計數特征,N1、N2、N3分別在300-500、300-500、64-100的范圍內隨機選擇
    • 模型多樣:XGBoost的各項參數在經調優的最佳值附近小范圍抖動
    • 融合!0.725

    ?

    3 多模型融合

    XGboost的Py、R、Java版本,BoX,SVM,加權融合,0.7279

    ?

    4 迭代半監督

    用最好的模型預測無標簽數據,并保留融合后能提升性能的數據

    ?

    5 暴力半監督

    • 每次從無標簽數據中無放回選擇10條,共有2^10=1024種可能的標簽,保留融合后性能最好的一組標簽,從而獲得5000組即5W條標注數據
    • 取5000組中的top500共5000條,每次選擇20-50條,保留融合后能提升性能的選擇,得到最終模型,0.7341

    ?

    更加詳細的內容

    全過程演示+手敲代碼,課程籌備中,敬請期待!

    總結

    以上是生活随笔為你收集整理的35 实战 微额借款用户人品预测的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。