【机器学习PAI实践六】金融贷款发放预测
一、背景
很多農民因為缺乏資金,在每年耕種前會向相關機構申請貸款來購買種地需要的物資,等豐收之后償還。農業貸款發放問題是一個典型的數據挖掘問題。貸款發放人通過往年的數據,包括貸款人的年收入、種植的作物種類、歷史借貸信息等特征來構建經驗模型,通過這個模型來預測受貸人的還款能力。
本文借助真實的農業貸款業務場景,利用回歸算法解決貸款發放業務。 線性回歸,是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法,運用十分廣泛。本文通過農業貸款的歷史發放情況,預測是否給預測集的用戶發放他們需要的金額的貸款。
二、數據集介紹
具體字段如下:
| id | 數據唯一標識符 | string | 人 |
| name | 用戶名 | string | 人 |
| region | 用戶所屬地區 | string | 從北到南排列 |
| farmsize | 擁有土地大小 | double | 土地面積 |
| rainfall | 降雨量 | double | 降雨量 |
| landquality | 土地質量 | double | 土地質量數值越大越好 |
| farmincome | 收入 | double | 年收入 |
| maincrop | 種植作物 | string | 種植作物的種類 |
| claimtype | 貸款類型 | string | 兩種 |
| claimvalue | 貸款金額 | double | 貸款金額 |
數據截圖:
三、數據探索流程
首先,實驗流程圖:
1.數據源
數據的輸入有兩部分,貸款訓練集用來進行回歸模型的訓練,共二百條數據,是歷史貸款數據,包括一些farmsize、rainfall等特征,claimvalue是貸款收回的金額。貸款預測集是今年申請貸款者,claimvalue是農民申請的貸款金額,共71人。我們通過已有的二百多條歷史數據,預測給七十一人中的哪些申請貸款人發放貸款。
2.特征工程
將一些字符串類型的數據,根據他們的含義映射成數字。比如說region字段,我們將其中的north、middle、south按照從北到南的順序分別映射成0、1、2。然后通過類型轉換將字段轉換成double類型,這樣就可以進行下面的回歸計算了。
如下圖:
3.回歸及預測
線性回歸組件對于歷史數據訓練并生成回歸模型,在預測組件中利用回歸模型對于預測集數據進行了預測。通過合并列組件將用戶ID、預測值、申請的貸款值合并。預測值表示的是用戶的還貸能力(預期可以歸還的金額)。
4.回歸模型評估
通過回歸模型評估組件對于回歸模型進行評估。
5.發放貸款人
通過過濾與映射組件篩選出可以獲得貸款的人,這里的業務邏輯是針對每個客戶,如果他被預測得到的還款能力大于他申請貸款的金額,就對他發放貸款。
四、其它
關注作者微信公眾號:
參與討論:云棲社區公眾號
免費體驗:阿里云數加機器學習平臺
總結
以上是生活随笔為你收集整理的【机器学习PAI实践六】金融贷款发放预测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习PAI实践五】机器学习眼中的《
- 下一篇: 【干货】Kaggle 数据挖掘比赛经验分