数据的预处理与特征构建(申请评分卡模型)
數(shù)據(jù)的預(yù)處理工作可以有效處理缺失值與異常值,從而增強模型的穩(wěn)定性;
而特征構(gòu)建工作則可以將信息從字段中加以提煉,形成有業(yè)務(wù)含義的優(yōu)異特征
評分卡使用策略:
1.進(jìn)件量較大,規(guī)則無法滿足更細(xì)的切分需要;
2.有許多無法判斷風(fēng)險類別的灰色客群
使用場景:人工分流、客群豁免
申請評分卡:用在貸前審核環(huán)節(jié),評估放貸后是否會違約的模型。常用特征:個人信息、央行征信信息、申請行為信息、其他輔助信息。
特征構(gòu)造:將分散在不同字段中的信息加以組合,從中提煉出有價值的、可用的信息進(jìn)而進(jìn)行評分卡模型的開發(fā)。
部分常用的特征構(gòu)造的方法有:求和、比例、頻率、平均
求和:例如過去一段時間內(nèi)的每月網(wǎng)購金額的總和
比例:例如申請貸款的月還款本息不月收入的占比
頻率:例如過去一段時間內(nèi)的境外消費次數(shù)
平均:例如過去一段時間內(nèi)平均每次信用卡取現(xiàn)額度
好的特征的優(yōu)勢:
數(shù)據(jù)的質(zhì)量檢驗:
1.數(shù)據(jù)的集中度
2.數(shù)據(jù)缺失:
1)舍棄該字段戒該條記彔:缺失占比太高
2)補缺:缺失占比不高,可用均值法、眾數(shù)法、回歸法等
3)作為特殊值:將缺失看成一種特殊值
3.異常值:
不缺失值類似,異常值在一般的數(shù)據(jù)分析場景中也會對模型產(chǎn)生一定的干擾,需要對其做處理。異常
值的判斷通常有聚類法、分位點法等等,處理方法有刪除法、替換法。
𝑥 > 𝑄3 + 3 (𝑄3 ? 𝑄1) 𝑜𝑟 𝑥 < 𝑄1 ? 3 (𝑄3 ? 𝑄1)
𝑄3,𝑄1分別是樣本的75%與25%分位點
4.數(shù)據(jù)含義的一致性
四分位數(shù)
總結(jié)
以上是生活随笔為你收集整理的数据的预处理与特征构建(申请评分卡模型)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pandas中关于DataFrame计算
- 下一篇: 风险监控报表(Word)