银行大数据风控平台的建设要点与应用
金融行業(yè)是經營風險的行業(yè),風險控制能力是金融機構的核心競爭力。通常而言,金融機構一般是通過給客戶的信用狀況評分來計量貸款違約的可能性,并通過客戶的風險水平進行利率定價。
而傳統(tǒng)的信用測算主要是利用歷史借貸數(shù)據和財務數(shù)據對借款人的違約風險進行分析和判斷,這種方法盡管在很長一段時間內被廣泛的金融機構所使用,但此方法的評價標準單一,評估結果不夠全面,同時存在一定的滯后性,更為嚴重的是,這種基于歷史數(shù)據的評估方法無法對缺乏歷史借貸數(shù)據的借款人進行信用風險評估。近年來,金融機構紛紛尋找新的手段,借助新的技術,嘗試構建新的信用風險評估模型。
大數(shù)據風控技術正是隨著大數(shù)據處理技術、計算機科技和互聯(lián)網技術的出現(xiàn)和升級而產生的一種基于數(shù)據挖掘、機器學習等大數(shù)據建模方法的信用評估體系,目前被金融機構廣泛運用到貸前信審、反欺詐、貸后管理和追償清收等環(huán)節(jié)中。
一、銀行可利用的大數(shù)據有哪些?
大數(shù)據是指“無法在一定時間范圍內用常規(guī)工具進行捕捉、管理和處理的巨量數(shù)據集合”。與傳統(tǒng)數(shù)據集合相比,大數(shù)據不僅僅體現(xiàn)在規(guī)模大和復雜性,更為重要的是,大數(shù)據往往包含了大量的非結構化數(shù)據,包括圖片、視頻、語音、地理位置等,具有維度廣、時時更新等優(yōu)勢。金融業(yè),特別是銀行業(yè),近年來由于業(yè)務積累和渠道搭建,聚集了大量數(shù)據,成為大數(shù)據應用的重要領域。
以銀行為例,目前銀行能夠利用的大數(shù)據主要包括以下幾個方面:
▲ 表1 目前銀行大數(shù)據來源及分類
二、銀行大數(shù)據管理方面存在哪些問題?
1)數(shù)據使用效率低:數(shù)據的加工和使用超強依賴IT人員,不能提供自助式數(shù)據服務。
2)外部數(shù)據雜亂:外部數(shù)據源越來越多,如微博、新聞媒體、淘寶、電商數(shù)據等,如何將這些外部數(shù)據整理、加工成可供行內正常使用的真實、準確的數(shù)據需進一步探索。
3)數(shù)據類型復雜:數(shù)據資源非結構化數(shù)據占有很大比重,且數(shù)據類型越來越復雜,如視頻文件、音頻文件、圖片文件、郵件等,傳統(tǒng)的Oracle,SQL Server等數(shù)據庫不能滿足該類數(shù)據的存儲、搜索和分析。
4)存在大量的數(shù)據孤島:銀行等金融機構存在不同類型的應用系統(tǒng),數(shù)據被分散在各個應用系統(tǒng)的數(shù)據庫和文件系統(tǒng)中,導致數(shù)據不能有效的共享;跨系統(tǒng)的、綜合性的數(shù)據搜索、分析困難等。
顯然,上述數(shù)據管理方面存在的問題難以單純靠人工解決,那么如何有效地整合和利用銀行積累起來的大數(shù)據資源,讓大數(shù)據資源更高地為銀行的信用評估服務,這就需要搭建綜合型的大數(shù)據風控平臺。
三、大數(shù)據風控平臺應該是怎樣的?
大數(shù)據風控平臺是一款集大數(shù)據處理、OLAP分析、在線分析、離線分析、數(shù)據挖掘、數(shù)據模型、數(shù)據可視化展現(xiàn)于一體的綜合性大數(shù)據分析平臺,它提供了基于hadoop存儲、數(shù)據立方體預計算的OLAP可視化分析功能,使用戶通過托拉拽的簡單操作即可在亞秒級的時間內完成多維度、全方位的數(shù)據分析,并以多種可視化方式展示分析結果,集成了主流的數(shù)據挖掘算法和工具,幫助用戶快速建立數(shù)據挖掘模型。
大數(shù)據風控平臺的基本特征主要有三個:
1)大數(shù)據風控平臺能夠處理的數(shù)據種類多,維度更廣,大數(shù)據風控平臺不僅重視傳統(tǒng)的信貸變量,還可以分析借款主體的社交網絡信息等信息,能夠為信貸缺失的群體提供基本金融服務。
2)大數(shù)據風控平臺不僅僅關注歷史財務數(shù)據,還更加關注借款主體的行為數(shù)據,能夠在充分考察借款人借款行為背后的線索和線索之間的關聯(lián)性基礎上進行數(shù)據分析,降低貸款違約率。
3)大數(shù)據風控平臺對模型可以不斷迭代和動態(tài)調整。機器學習技術使得大數(shù)據風控平臺的風控模型可以將原始數(shù)據轉化成指標需要進行不斷的迭代,不同模型的權重值可以根據樣本進行動態(tài)調整,反過來也能不斷改進模型的評測效果。
四、大數(shù)據平臺的數(shù)據治理方案
搭建一款集數(shù)據采集、存儲、搜索、加工、分析為一體的大數(shù)據平臺,融合結構化數(shù)據、非結構化數(shù)據,實現(xiàn)了統(tǒng)一數(shù)據架構,對海量異構數(shù)據的存儲歸檔、信息組織、搜索訪問、安全控制、分析可視化,以及數(shù)據挖掘、數(shù)據治理等,如圖1所示。
▲ 圖1 銀行大數(shù)據平臺數(shù)據治理方案
1、數(shù)據分層數(shù)據是分層次的,不同的數(shù)據其屬性、處理方式、價值都是不同的,如圖2所示:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
1)源數(shù)據:源數(shù)據是各個業(yè)務系統(tǒng)中生成的大量的業(yè)務生產數(shù)據,應加強備份和歸檔工作,防止數(shù)據的不完整和損壞。
2)歸檔數(shù)據:歸檔數(shù)據又稱為細節(jié)數(shù)據,平臺需要抓取所有的源數(shù)據進行歸檔,形成完整的數(shù)據庫。
3)整合數(shù)據:對細節(jié)數(shù)據進行整合,形成按照主題存放的匯總數(shù)據集市。
4)指標數(shù)據:針對客戶、員工、管理者,計算生成內容豐富的指標數(shù)據源,為進一步做數(shù)據挖掘準備豐富的數(shù)據源。
5)決策支持數(shù)據:用于決策分析系統(tǒng)、智能化分析系統(tǒng)數(shù)據,如客戶產品推薦、客戶細分、銷售預測、精準營銷等等。
▲ 圖2 不同數(shù)據層次的處理方案
2、數(shù)據整理對于歷史數(shù)據來源于行內數(shù)據平臺或其他來自于數(shù)據庫的數(shù)據,行內數(shù)據可直接用ETL系統(tǒng)工具直接抽取數(shù)據,其他數(shù)據庫數(shù)據則可用Sqoop工具抽取,放入HBase通道中,從而滿足實時歷史數(shù)據的查詢需求,如圖3所示。
1)文件格式數(shù)據:直接使用行內ETL工具直接導入到大數(shù)據平臺中。
2)實時變更數(shù)據:建立專用通道,支持數(shù)據實時裝載到大數(shù)據平臺中。
▲ 圖3 行內數(shù)據和行外數(shù)據整理
3、抽取數(shù)據對現(xiàn)有各種數(shù)據庫的各類數(shù)據進行清洗、轉換、并加載到大數(shù)據平臺。根據代碼標準,整合數(shù)據類別,形成數(shù)據覆蓋全面、標準化、規(guī)范化的數(shù)據集市。
4、數(shù)據倉庫大數(shù)據平臺對結構化數(shù)據采用分布式技術的開源數(shù)據倉庫,支持各種報表軟件的訪問和第三方軟件集成,同時滿足結構化數(shù)據的計算和存儲。
5、加工數(shù)據大數(shù)據平臺定義對數(shù)據的各種加工任務,主要表現(xiàn)在以下幾個方面:
數(shù)據集成:根據原有的數(shù)據生成新的數(shù)據;如根據關聯(lián)表格設置其他維度生成新的匯總表格等;
文件處理:將視音頻文件、圖片、郵件等轉換成識別文字;
挖掘數(shù)據:對平臺數(shù)據進行各類數(shù)據挖掘處理,如關聯(lián)分析,分類,聚類,回歸預測等;
計算指標:實時計算各類指標數(shù)據,如計算客戶的活躍度,價值,忠誠度等。
大數(shù)據平臺以可視化方式呈現(xiàn)數(shù)據查詢、數(shù)據視圖、報表等。
五、銀行大數(shù)據風控平臺的建設方案
常見的大數(shù)據分析平臺架構有Hadoop、Spark、Storm、Samza等,而基于Hadoop構建大數(shù)據風控平臺具有分布式云存儲和云計算能力,提供了核心分布式數(shù)據倉庫、分布式列數(shù)據庫解決方案,還具有良好的擴展性,常用在銀行大數(shù)據風控平臺建設中。本文基于Hadoop搭建大數(shù)據硬件系統(tǒng),結合JAVA開發(fā),實現(xiàn)海量數(shù)據的分布式存儲和處理。
1、系統(tǒng)總體硬件框架圖銀行大數(shù)據風控平臺是基于PC服務器部署,無需購買數(shù)據庫的軟件及硬件,實現(xiàn)小時級別的安裝部署。甚至實現(xiàn)數(shù)據并行傳輸、實時數(shù)據更新服務、查詢數(shù)據秒出結果等等,系統(tǒng)整體硬件框架如圖4所示。
1)分布式計算和存儲,根據數(shù)據量增大快速水平擴展。
2)面向多應用系統(tǒng),多數(shù)據類型和多數(shù)據源,實現(xiàn)統(tǒng)一數(shù)據架構,融合結構化、半結構化、非結構化的數(shù)據,實現(xiàn)數(shù)據的安全控制和統(tǒng)一建模。
3)為其他應用系統(tǒng)提供API接口,實現(xiàn)第三方系統(tǒng)數(shù)據集成并提供各種數(shù)據服務。
4)以數(shù)據歸檔為核心,全面實現(xiàn)數(shù)據的全生命周期管理和全數(shù)據搜索、實時數(shù)據分析可視化以及交互式數(shù)據發(fā)現(xiàn)等。
5)支持傳統(tǒng)SQL結構化數(shù)據訪問和傳統(tǒng)BI軟件的集成。
▲ 圖4 大數(shù)據風控系統(tǒng)硬件框架圖
2、系統(tǒng)軟件架構大數(shù)據風控平臺的軟件設計理念和技術,能夠解決海量數(shù)據容納問題、多業(yè)務數(shù)據源整合問題、多數(shù)據格式轉換問題等,如圖5所示。
1)整個系統(tǒng)軟件部分可基于JAVA開發(fā),運行在Windows和Linux操作系統(tǒng)上,節(jié)點同時運行在物理機、虛擬機、Linux、Windows上。
2)所有后臺數(shù)據服務程序可直接運行在JVM上,實現(xiàn)靈活、高效的分布式運算。
3)用戶使用管理功能可基于J2EE開發(fā),WEB用JSF2.0實現(xiàn),可擴展性強,便于二次開發(fā)。
4)采用分布式存儲和搜索技術,數(shù)據集中平臺最根本的要求是處理海量的數(shù)據,高效融合結構化、半結構化、非結構化數(shù)據的管理。
▲ 圖5 大數(shù)據風控系統(tǒng)軟件架構
六、銀行大數(shù)據平臺產品應用
通過大數(shù)據平臺內置現(xiàn)成的客戶統(tǒng)一畫像,根據獲取實時數(shù)據,實現(xiàn)客戶精準畫像,通過遷移學習、機器深度學習理論,對客戶360度畫像,分析客戶行為習慣,甚至實現(xiàn)客戶精準營銷應用,智能推送優(yōu)質客戶資源,嚴格控制風險。如圖6所示。
▲ 圖6 銀行大數(shù)據平臺產品應用
1、風險控制銀行建立大數(shù)據風控平臺可用于信貸客戶的反欺詐分析、信用等級評估、貸后風險監(jiān)測預警與催收等環(huán)節(jié),嚴格進行風險防范;重點關注個人客戶或企業(yè)客戶在銀行體系內外的負面信息。
銀行體系內的負面信息包括:信用卡逾期、貸款逾期、黑名單信息等;銀行體系外的負面信息包括:P2P/小貸公司等黑名單信息、公檢法的訴訟案件信息、國家行政機關處罰信息(工商、稅務、一行三會、協(xié)會等)以及網上負面輿情(虛假宣傳、誤導消費者)等。從這些數(shù)據出發(fā),全面評估個人客戶在銀行的風險等級,為銀行的風險防范提供決策支持。如圖7所示:
▲ 圖7 大數(shù)據平臺產品之風險控制
2、客戶畫像及用戶行為分析通過大數(shù)據風控平臺將結構化數(shù)據、非結構化數(shù)據、半結構化數(shù)據統(tǒng)一存放在數(shù)據模型之中,并將外部數(shù)據與內部數(shù)據盡可能的匹配,實現(xiàn)對現(xiàn)有客戶更加全面、充分、詳盡分析,如圖8所示。
▲ 圖8 客戶全面行為特征分析和指標運算
為了滿足線上營銷和線下營銷相結合的場景,數(shù)據的進入根據營銷方式分為實時數(shù)據、批量數(shù)據、畫像指標數(shù)據、建立復雜網絡體系和客戶智能信用分模型。
1)實時數(shù)據:將客戶線上行為日志數(shù)據信息實時推送到大數(shù)據平臺,存入數(shù)據模型之中,實現(xiàn)數(shù)據標準化、統(tǒng)一化工作,并且對實時數(shù)據進行線上行為實時分析。
2)批量:每日定時將數(shù)據匯總到大數(shù)據平臺,存入數(shù)據模型庫中,實現(xiàn)數(shù)據標準化、統(tǒng)一化的工作,并對數(shù)據進行加工。
3)畫像、指標數(shù)據運算:根據預設的場景,進行客戶信息全面畫像和各項指標運算,從而獲得客戶的全面特征,以及產品特征。
4)構建復雜關系網絡體系,實現(xiàn)線上各業(yè)務通道場景互通,主要實現(xiàn)基金理財平臺、三方支付平臺、電商/O2O平臺、游戲平臺、銀行網申平臺的互通。
5)創(chuàng)建客戶智能信用分模型:以全網大數(shù)據為基礎,結合大數(shù)據風控平臺,以諸多業(yè)務驅動為導向,創(chuàng)建客戶智能信用分。輸入:身份證號,手機號;輸出:信用評分。
根據客戶的負債信息、穩(wěn)定性、負面信息、行為偏好、還款能力、還款意愿等六個維度,結合客戶旅游、社交、支付、保險、基金、理財、電商、非銀信貸、O2O、銀行信息等全網各類數(shù)據信息,依據不同加權比重,建立客戶智能信用分。
3、大數(shù)據產品應用之精準營銷分析通過深度學習理論和遷移學習理論對客戶進行精準分析,獲取客戶源,并進行理財產品的精準推薦。
1)線上實時營銷
使用數(shù)學模型算法,根據客戶或客戶群線上連續(xù)行為,自動校正客戶畫像或產品畫像之間的關聯(lián)情況分析,從而形成線上產品的推薦服務,產品推薦可按照客戶可能關心的內容放在醒目位置自動排序,從而有效提升客戶體驗。
2)線上交叉營銷
將不同產品或業(yè)務交叉推薦,根據客戶的交易記錄分析,識別小微企業(yè)客戶,然后用遠程銀行來實施交叉營銷。
3)線上個性化推薦
根據客戶的理財偏好、資產規(guī)模、年齡、工作等維度,分析其潛在的金融服務需求,進行有針對性的營銷推廣。
4)線下營銷
除了內部交叉營銷銷售、客戶忠誠度分析、向上銷售等傳統(tǒng)的分析性內容外,還需要利用大數(shù)據平臺,將行內數(shù)據與外部數(shù)據整合,建立精準營銷數(shù)學模型,尋找更多的營銷機會。
5)精準營銷模型建立
尋找理財客戶:利用大數(shù)據平臺篩選客戶資金在5萬及以上的儲蓄存款客戶,不定時的推送理財產品信息;對于行外客戶,借助于P2P平臺或第三方平臺推送的白名單客戶,可以為其提供理財服務,將資金留在本行。
尋找貸款客戶:結合行內數(shù)據、第三方房產網數(shù)據以及移動設備位置信息,通過數(shù)據平臺尋找可能購房或購車客戶群體,為其提供金融服務。
6)產品創(chuàng)新
通過對特定數(shù)據分析和提取、產品核算,對比各類客戶的產品使用率、收益率,結合互聯(lián)網輿情信息,對不同客戶群設計差異化的創(chuàng)新產品。
7)產品評價體系
根據產品評價指標建設評價模型,實現(xiàn)對產品的系統(tǒng)評分,獲取每個產品指標數(shù)據,可采用登記評分法對數(shù)據進行處理,反應每個產品的每項指標在組內產品的排序。
作者丨這里金融來源丨金融時代網(ID:jinrognshidai)>>>>
活動推薦
10月19日,成都:中生代技術金融科技私享會,攜手京東、AWS、建信金科、新金融科技專家,聚焦金融科技創(chuàng)新與敏捷轉型熱門話題。
11月15日,廣州:Gdevops全球敏捷運維峰會將舉辦2019年度收官盛會,重點圍繞智慧運維、DevOps、數(shù)據庫領域,攜手阿里、騰訊、京東、新浪微博、甜橙金融、聯(lián)通大數(shù)據、微眾銀行、貝殼找房、新炬網絡等技術代表展開年度技術總結與發(fā)展趨勢展望,掃碼汲取全年技術精華。
? ? ? ??
#專注技術人的成長#
本文由程序員茶特約播出,400位互聯(lián)網一線CTO欽點正山小種紅茶,養(yǎng)胃提神減脂神器,秋季必備
總結
以上是生活随笔為你收集整理的银行大数据风控平台的建设要点与应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《Head First Python》第
- 下一篇: 漫画:当程序员有了下一代.....