日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于知识图谱的小微企业贷款申请反欺诈方案

發(fā)布時間:2025/3/15 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于知识图谱的小微企业贷款申请反欺诈方案 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

基于知識圖譜的小微企業(yè)貸款申請反欺詐方案

金磐石1, 萬光明2, 沈麗忠3

1 中國建設銀行股份有限公司,北京 100033

2 中國建設銀行金融科技部,北京 100032;

3 建信金融科技有限責任公司廈門事業(yè)群,福建 廈門 361008

摘要近年來,在各大商業(yè)銀行競相開展小微企業(yè)信貸業(yè)務的同時,貸款欺詐風險也隨之產(chǎn)生。針對小微企業(yè)信貸業(yè)務的特點,提出了一種基于全方位企業(yè)畫像與企業(yè)關聯(lián)圖譜的貸前反欺詐模型。通過整合多源信息,形成完整的企業(yè)屬性特征,并結合從圖譜中提取的關系網(wǎng)絡結構特征,把特征共同輸入模型,以定量評估小微企業(yè)客戶的欺詐風險。實驗表明,使用隱含在關系圖譜中的信息比單純使用企業(yè)自身特征建模在測試集上的AUC提高了5%,有助于銀行機構準確地對企業(yè)申貸欺詐行為進行評估。

關鍵詞反欺詐 ; 企業(yè)畫像 ; 關聯(lián)圖譜

論文引用格式:

金磐石, 萬光明, 沈麗忠. 基于知識圖譜的小微企業(yè)貸款申請反欺詐方案. 大數(shù)據(jù)[J], 2019, 5(4):100-112

JIN P S, WAN G M, SHEN L Z.Knowledge graph-based fraud detection for small and micro enterprise loans. Big Data Research[J], 2019, 5(4):100-112

1 引言

隨著我國經(jīng)濟發(fā)展步入新常態(tài),小微企業(yè)快速發(fā)展,并逐漸成為我國市場經(jīng)濟中較活躍的主體。據(jù)相關數(shù)據(jù)統(tǒng)計,目前我國約有近1億戶小微企業(yè),這些小微企業(yè)廣泛分布于實體經(jīng)濟的各行各業(yè)。作為經(jīng)濟發(fā)展和社會穩(wěn)定的重要支柱,小微企業(yè)在促進人才有序流動、維護市場活力、推動科技創(chuàng)新等方面發(fā)揮著不可或缺的作用。然而相對于大中型企業(yè)而言,小微企業(yè)在市場競爭中仍處于弱勢地位,融資問題導致其很難保證經(jīng)營的穩(wěn)定性與持續(xù)性。

銀行貸款是企業(yè)融資的重要手段,為緩解小微企業(yè)的經(jīng)營壓力并滿足強烈的融資需求,商業(yè)銀行的小微貸款業(yè)務逐步擴張,各類信貸產(chǎn)品應運而生。截至2018年第三季度,小微企業(yè)在銀行機構的貸款總額達33.04萬億元,貸款授信戶數(shù)超過1 800萬戶。但由于小微企業(yè)在提供自身資訊上的天然弱勢,“不透明”“內部化”的非對稱數(shù)據(jù)信息使得銀行難以在業(yè)務申請階段把控小微客戶實質性的信貸風險,對小微企業(yè)信貸產(chǎn)品的管理比大型企業(yè)也困難得多。如今,欺詐風險已經(jīng)成為消費金融業(yè)務面臨的主要風險之一,反欺詐也對銀行的風險控制技術提出了更高的要求。科學合理地進行小微企業(yè)貸款欺詐風險管理已經(jīng)成為商業(yè)銀行亟須解決的問題。

小微企業(yè)貸款業(yè)務是近年來興起的一種貸款手段,由于其“新”的特征,在金融行業(yè)內對小微信貸欺詐尚沒有一個通用的定義。商業(yè)銀行在信貸申請欺詐風險的防范工作方面已經(jīng)積累了很多經(jīng)驗,但是當前的工作多為面向大中型企業(yè)或面向個人信貸的反欺詐方案。不論是較為原始的黑白名單甄別、實現(xiàn)自動決策的規(guī)則引擎,還是基于人工智能技術的風險量化與無監(jiān)督的欺詐模式識別,反欺詐的分析和度量技術在小微企業(yè)領域仍在探索的過程中。

為解決以上難題,本文針對小微企業(yè)的信貸業(yè)務特點提出了一種基于全方位企業(yè)畫像與企業(yè)關聯(lián)圖譜的貸前反欺詐模型。該模型從企業(yè)自身、企業(yè)實控人、企業(yè)干系人以及企業(yè)網(wǎng)絡關系圖譜四大維度提取特征,然后在金融行業(yè)知識的輔助下,通過數(shù)據(jù)挖掘、特征篩選等方法定義多個欺詐場景,并利用LightGBM分類器對欺詐進行概率推斷。相比傳統(tǒng)的信貸欺詐分析模型,本文方案將關系型信息和企業(yè)節(jié)點自有屬性信息有機地結合,能夠有效地挖掘小微企業(yè)與欺詐目標的非線性關系,有助于全面、有效地在申請階段評估小微企業(yè)的欺詐風險狀況。相比于傳統(tǒng)的企業(yè)風控反欺詐,本文方案的創(chuàng)新點如下。

● 針對小微企業(yè)信息不對稱的特點,整合多源數(shù)據(jù)集,在提取企業(yè)自身特征的同時,利用其關聯(lián)實控人及相關干系人的基本信息與征信狀況生成全方位企業(yè)畫像,更加完善地刻畫小微企業(yè)可能存在的信貸風險。

● 結合圖知識和金融行業(yè)知識,挖掘欺詐場景,通過分析小微企業(yè)命中欺詐場景的情況,輸出欺詐概率。

● 挖掘并構建企業(yè)與企業(yè)間的關聯(lián)信息,建立企業(yè)關聯(lián)圖譜,有利于識別出異常的欺詐行為。

● 歸約掉圖譜中的非企業(yè)節(jié)點,將復雜、龐大的異構關系網(wǎng)絡折疊為僅保留小微企業(yè)實體的同構網(wǎng)絡。這既解決了網(wǎng)絡存儲的開銷問題和網(wǎng)絡特征提取的計算復雜度高的問題,又能夠隔離無關節(jié)點的干擾,直觀地呈現(xiàn)企業(yè)之間的聯(lián)系。

● 使用 LightGBM 分類框架,采用有監(jiān)督學習模式在構建的關聯(lián)圖譜上進行基于節(jié)點自身屬性特征與網(wǎng)絡特征的欺詐概率預測,從關系和實體屬性兩個角度共同進行欺詐評估。

2 相關工作

2.1 企業(yè)傳統(tǒng)信貸反欺詐

商業(yè)銀行在貸款業(yè)務申請階段的反欺詐手段主要集中在配置規(guī)則引擎和建立機器學習模型上。規(guī)則引擎起源于基于規(guī)則的專家系統(tǒng),用來模擬人的行為,以實現(xiàn)計算機自動決策。它是一種建立在對欺詐行為的特點與模式充分認知的基礎上,針對單一或組合欺詐行為設計的啟動和觸發(fā)機制。規(guī)則引擎主要用來核實信息的真實性,如是否存在不良征信記錄、是否命中風險名單等,但無法檢測復雜的欺詐模式。

有監(jiān)督學習是當下反欺詐檢測中應用廣泛的機器學習方法,能夠基于歷史數(shù)據(jù)(即已知的欺詐申請和正常申請)建立分類模型,輸出欺詐概率,更好地量化欺詐風險。該方法收集客戶申請信息并將其作為訓練集,訓練出的機器學習模型通過對用戶特征的抽象理解,分析特征間的隱藏關系,填補并增強規(guī)則引擎無法覆蓋的復雜欺詐行為。業(yè)界常用的模型算法包括邏輯回歸、決策樹、支持向量機、XGBoost和神經(jīng)網(wǎng)絡等。

2.2 基于關聯(lián)圖譜的信貸反欺詐

在反欺詐場景中,除了考慮單一信息點的屬性,企業(yè)間的隱藏關聯(lián)往往包含更多未知的潛在信息。因此,企業(yè)信貸欺詐的識別問題也可以轉化為企業(yè)關系圖挖掘或社交網(wǎng)絡分析問題。基于知識圖譜的信貸反欺詐旨在將多源異構的數(shù)據(jù)整合成機器可以理解的知識,將“單點”的信息轉換成“平面”的相互關聯(lián)的圖譜,進行異常風險檢測,從而實現(xiàn)欺詐的識別與防御。

基于構建好的知識圖譜,可以使用半監(jiān)督或無監(jiān)督的方式進行異常子圖挖掘、社群發(fā)現(xiàn)或標簽染色。除此之外,對網(wǎng)絡特征(包括中心度、一度二度關聯(lián)特征)的直接提取也可以供各類有監(jiān)督風險評估模型使用。另外,隨著深度學習算法的普及,知識圖譜的關聯(lián)分析引入了網(wǎng)絡嵌入這種圖表示學習的思想。在盡量保留網(wǎng)絡信息的前提下,根據(jù)圖譜中的拓撲關系,用低維向量表示每個節(jié)點與其周圍節(jié)點的關聯(lián)特性。作為一種表征學習的方法,圖嵌入可以解決圖數(shù)據(jù)的高維度、稀疏性等問題。經(jīng)過向量的表征后,再利用大量算法進行邊的預測、分類、聚類。

2.3 小微企業(yè)信貸反欺詐的難點

盡管商業(yè)銀行在反欺詐方面已經(jīng)展開了較多嘗試,但是針對小微企業(yè)貸前的欺詐識別仍處于探索階段。其難點主要集中在以下方面。

(1)小微企業(yè)信息透明性差

小微企業(yè)與傳統(tǒng)的銀行貸款業(yè)務有很大差異,如果采用無差異化的風控模型和放貸標準,絕大部分小微企業(yè)無法通過審核。具體地,對于傳統(tǒng)的中大型企業(yè)信貸業(yè)務,銀行通常采用申請評分卡(application score card)的方式?jīng)Q定是否放貸以及貸款額度。這樣的方式對企業(yè)申請貸款時提交信息的完整性和真實性有極高的要求,如果信息造假或者有缺值,評分卡方式很難準確判斷企業(yè)的信用情況。中大型企業(yè)通常采用標準的財務審計制度,經(jīng)營信息也相對透明,是可以通過評分卡的方式授信放貸的。但是對于小微企業(yè)而言,其經(jīng)營規(guī)范性差、信息透明度差,評分卡的方式在很大程度上并不適用于小微信貸業(yè)務。

(2)銀行與企業(yè)之間信息不對稱

銀行與企業(yè)之間的信息不對稱與欺詐標簽的定義對有監(jiān)督學習提出了挑戰(zhàn)[1]。由于小微企業(yè)缺乏規(guī)范的財務報表和稅務審計信息,經(jīng)營透明度差,銀行難以掌握小微企業(yè)的真實狀況,無法全面刻畫客戶特征,從而進行風險評估。此外,由于銀行針對小微企業(yè)推出的大多貸款業(yè)務開展時間不足一年,對于欺詐標簽的定義尚不明確,真實欺詐標簽的嚴重不足阻礙了模型對欺詐特征的學習與把控。

(3)圖嵌入模型可解釋性有限

基于知識圖譜的方法能夠捕捉到企業(yè)間的關聯(lián),利用這些關聯(lián),可以得到全新的反欺詐分析。金融反欺詐實踐中常用的圖譜均為異構圖譜,即網(wǎng)絡中的節(jié)點與邊涵蓋多種類型,這加大了圖特征提取以及圖嵌入方法選擇的難度。以某金融機構信用卡申請關系圖譜為例,個體類型包括申請人的IP地址、設備、賬戶聯(lián)系人等,個體之間也存在不同的關系,如IP登錄行為、設備登錄行為等。盡管一些網(wǎng)絡特征指標在實際反欺詐實踐中效果非常顯著,但由于反欺詐對實時決策的高需求,這些指標都需要迅速地計算提取。節(jié)點的中介中心性、集聚系數(shù)等指標存在較高的計算復雜度,如果不采取一些近似的算法并進行預計算,難以滿足實施決策的業(yè)務需求。基于深度學習的圖嵌入算法的選擇同樣受到異構網(wǎng)絡的局限,大多網(wǎng)絡嵌入方法(如Perozzi等人提出的DeepWalk、Grover等人提出的Node2vec、適用于大規(guī)模信息網(wǎng)絡的LINE)僅適用于同構網(wǎng)絡的表征學習。而2017年由Dong等人提出的Metapath2vec雖然對DeepWalk進行了擴展,使用基于元路徑的漫游捕獲不同類型節(jié)點之間的關系,進而解決異構網(wǎng)絡的學習問題,但其網(wǎng)絡嵌入可解釋性有限,無法對任務決策做出解釋。

(4)孤立企業(yè)信息難以利用

盡管現(xiàn)有的反欺詐方案可以分別從孤立的企業(yè)信息或整體的企業(yè)網(wǎng)絡結構來甄別欺詐,但是還沒有一種明確的方案同時從這兩種維度著手。如何有效地處理并綜合利用這兩種信息,使二者相互輔助共同發(fā)揮作用是當前小微企業(yè)反欺詐著重關注的問題。

3 小微企業(yè)貸款申請反欺詐方案

在有監(jiān)督機器學習預測分析中,信貸反欺詐的目標變量是既定的欺詐標簽。在關系圖譜的學習中,目標是在給定的網(wǎng)絡中尋找高風險的欺詐模式。如果將二者結合,則需找出合適的方式在一組特征中概括網(wǎng)絡,然后將這些特征與非網(wǎng)絡(即節(jié)點屬性)特征相結合進行預測,從而得到特定節(jié)點的欺詐概率。本文提出了一種解決方案,采用有監(jiān)督的學習方法,從構建企業(yè)關聯(lián)圖譜入手,整合多個數(shù)據(jù)源,全面捕獲企業(yè)的獨立屬性與企業(yè)間的隱藏聯(lián)系。在構建圖譜時,將多維度的企業(yè)特征作為節(jié)點屬性,并將復雜的異構網(wǎng)絡歸約為僅保留申請貸款企業(yè)的同構網(wǎng)絡,既使企業(yè)關系可以直觀展現(xiàn),又能降低圖譜的存儲空間與網(wǎng)絡特征指標的計算成本。最終將節(jié)點屬性與網(wǎng)絡特征共同輸入LightGBM分類模型進行欺詐預測。方案整體模型架構如圖1所示。

圖1???模型架構

3.1 小微企業(yè)信貸欺詐的定義

與傳統(tǒng)銀行信貸不同,小微企業(yè)的信貸需求具有“短、小、頻、急”的特點,其小額、短期、分散的特征更類似于零售貸款。由于小微企業(yè)對資金流動性的要求更高,目前銀行機構對小微企業(yè)信貸業(yè)務通常采取定額循環(huán)貸款的方式,即小微企業(yè)在貸款審批通過后,可以在貸款周期內多次取出、還入貸款。這樣的靈活性適應了小微企業(yè)的信貸需求,但同時也極大地限制了傳統(tǒng)的信貸風控模型在小微企業(yè)信貸業(yè)務上的效用。近年來,受政策利好的影響,我國小微企業(yè)貸款業(yè)務蓬勃發(fā)展。但是由于小微信貸的業(yè)務特性以及當前絕大多數(shù)小微企業(yè)信貸仍未到還款期,很難直接獲取還款逾期名單,也很難采用一些傳統(tǒng)信貸欺詐判別規(guī)則來判定小微信貸欺詐。對于什么是小微信貸欺詐這個問題,業(yè)界目前沒有明確的定義,整個行業(yè)對這個問題的定義仍在不斷探索。但是,從業(yè)務角度出發(fā),仍可以定義一些高置信度的小微企業(yè)信貸欺詐場景,例如:單日多次繳稅、資金出入差異過大、與涉及P2P業(yè)務的公司頻繁往來等。筆者基于企業(yè)畫像和關聯(lián)圖譜,在金融行業(yè)知識的輔助下,挖掘出數(shù)十種小微企業(yè)信貸欺詐場景,經(jīng)過對關鍵信息的篩選和合并,最終保留了8種高置信度信貸欺詐場景,并對篩選后的欺詐場景進行了相關性排序。通過對當前圖譜中的節(jié)點進行分析,最終能夠獲得小微企業(yè)命中欺詐場景和小微信貸欺詐的概率分布。具體地,對于小微企業(yè)e以及欺詐場景集合S,如果該企業(yè)命中欺詐場景s1,s2,?,sn∈S,則可以給出該小微企業(yè)信貸欺詐概率 P(|s1,s2,?,sn),其中,代表該小微企業(yè)信貸欺詐。在實際應用中,通常設定概率閾值,若小微企業(yè)的信貸欺詐概率超過閾值,則認為該小微企業(yè)有欺詐風險。

3.2 建模粒度與標簽定義

本方案以企業(yè)為粒度進行建模,后續(xù)網(wǎng)絡的構建與特征工程都將圍繞每一家待預測的小微企業(yè)展開。此外,由于反欺詐模型的構建仍采用有監(jiān)督的學習模式,明確欺詐的定義是保證模型預測效果的前提。如第2.3節(jié)所述,由于歷史數(shù)據(jù)中缺少對企業(yè)欺詐的準確描述,本方案將根據(jù)銀行內部及相關部門披露的企業(yè)及企業(yè)干系人在2018年1月到2019年3月的嚴重違規(guī)記錄建立欺詐標簽,并將該標簽作為目標變量。相關企業(yè)和個人嚴重違規(guī)數(shù)據(jù)包括銀行內部欺詐系統(tǒng)中的名單以及行政違法記錄黑名單 。

3.3 圖譜構建與特征提取

3.3.1 數(shù)據(jù)準備

為獲取小微企業(yè)的全面信息,本方案用到的數(shù)據(jù)不僅來源于銀行提供的企業(yè)數(shù)據(jù)、個人客戶數(shù)據(jù),還通過關聯(lián)外部第三方數(shù)據(jù)形成具體的企業(yè)畫像。數(shù)據(jù)的抽取可分為實體、屬性的抽取以及關系的抽取。抽取范圍確定在企業(yè)貸款申請時間處于2018年1月到2018年12月且有還款表現(xiàn)的企業(yè)中。

小微企業(yè)申請貸款的原始數(shù)據(jù)存在于多張數(shù)據(jù)表中,經(jīng)過字段清洗、合并等預處理后,將數(shù)據(jù)存入SQL數(shù)據(jù)庫中。本文方案的輸入數(shù)據(jù)通過直接查詢數(shù)據(jù)庫獲得。數(shù)據(jù)準備完成之后,按照預定義的鍵值處理方法對不同的數(shù)據(jù)類型進行規(guī)范化處理,例如:對于個人信息中的身份信息,使用“01”代指企業(yè)實控人,使用“02”代指股東、高管等其他企業(yè)干系人 。

(1)實體和屬性抽取

以企業(yè)為粒度進行建模,即實體是企業(yè)。對企業(yè)及其主控人、干系人的數(shù)據(jù)信息進行屬性提取。

企業(yè)信息數(shù)據(jù)包括如下內容。

● 企業(yè)基礎信息:企業(yè)技術編號、注冊地址、行業(yè)分類、法人信息等。

● 企業(yè)工商類數(shù)據(jù):企業(yè)注冊日期、工商信息變更次數(shù)、法人信息變更次數(shù)等。

● 企業(yè)存款數(shù)據(jù):貸款余額、存款余額、存款月積數(shù)等。

● 轉賬數(shù)據(jù):半年內轉出次數(shù)及金額、半年內轉入次數(shù)及金額等。

● 征信數(shù)據(jù):企業(yè)黑名單、企業(yè)第三方征信等。

實控人與干系人信息數(shù)據(jù)包括如下內容。

● 個人基礎信息:年齡、學歷、職務、婚姻狀況、子女狀況等。

● 個人存款數(shù)據(jù):存款時點余額、時點個人資產(chǎn)管理規(guī)模、一年內申請貸款的次數(shù)等。

● 征信數(shù)據(jù):個人黑名單、個人征信等。

(2)關系抽取與實體歸約

構建知識圖譜的前提是建立節(jié)點間的關聯(lián),而關聯(lián)的定義需要依據(jù)業(yè)務需求,并且極為復雜。本文結合業(yè)務邏輯,將企業(yè)間風險較高的關系進行羅列并匯總為5類:企業(yè)與個人的對應關系(如控股關系)、企業(yè)干系人與企業(yè)干系人的對應關系(如親屬關系)、企業(yè)與相關屬性的對應關系(如企業(yè)共同聯(lián)系方式)、企業(yè)干系人與相關屬性的對應關系(如干系人共同聯(lián)系方式)、企業(yè)與企業(yè)的對應關系(如企業(yè)擔保關系)。

具體關系見表1。表1中建立的原始企業(yè)關系涉及多個信息來源,不同的來源對節(jié)點和邊處理差異很大,由此導致了數(shù)據(jù)異構、碎片化問題,關系中包含多個實體類型。這些非企業(yè)實體在關系的構建中僅作為連接企業(yè)節(jié)點的媒介,而非網(wǎng)絡結構分析的主體。異構網(wǎng)絡信息種類敏繁雜,很難從中提取到有用的信息。因此,保證整體企業(yè)關系網(wǎng)絡同構,實體統(tǒng)一可使網(wǎng)絡特征的提取更高效。因此,本文在構建出以上所有關系后,將關系兩端的節(jié)點限定為企業(yè),并將關系中與考察實體無關的其他類型節(jié)點(如干系人、聯(lián)系方式等節(jié)點)進行折疊歸約,減少無關節(jié)點的干擾,保證每條關系最終對應到企業(yè)本身。

3.3.2 同構網(wǎng)絡關系圖譜構建

基于實體和關系的提取,反欺詐知識圖譜的具體構建過程可總結為以下3步。● 以提交信貸申請的企業(yè)作為圖譜的節(jié)點實體。● 將企業(yè)之間的各種歸約關系作為圖譜的關系。● 刪除圖譜中存在的孤立節(jié)點。構建完成的圖譜由一個個非連通的子圖組成,這些子圖可能描述的是某家族企業(yè)、某同一控制企業(yè)、存在相同類型潛在風險的企業(yè)。圖2為放大后的子圖。

?

圖2???企業(yè)關系圖譜子圖

?

3.3.3 節(jié)點屬性特征構建

企業(yè)節(jié)點的屬性特征來自于抽取的企業(yè)信息與干系人信息。由于企業(yè)相關信息涉及的數(shù)據(jù)范圍對企業(yè)風險的描述有限,為構造全面的企業(yè)畫像,同時為每個企業(yè)匹配實控人及其他干系人的相關信息,生成基于企業(yè)的多維特征,增強總體數(shù)據(jù)的表征能力。每個企業(yè)具有唯一實控人和多個其他干系人,而實控人與企業(yè)的關聯(lián)程度與其他干系人相比更為密切。本方案在處理這些特征時,單獨將企業(yè)實控人的信息與企業(yè)信息拼接,將企業(yè)其他實控人的信息進行聚合后對企業(yè)特征進一步擴展。在對企業(yè)其他干系人進行聚合時,對不同變量選用的聚合函數(shù)有最大值、加和、中位數(shù)、均值、眾數(shù)等。最終處理過的實控人特征與干系人聚合特征被關聯(lián)到企業(yè)上。通過異常值、缺失值、變量之間相關性的分析對特征進行篩選,將剩余的60余個變量作為企業(yè)節(jié)點的屬性特征。

3.3.4 網(wǎng)絡特征構建

網(wǎng)絡中存在的關系數(shù)據(jù)為提高分類模型的效果提供了幫助。如果兩個實體相關,則一個實體的某些內容也可以幫助推斷另一個對象。具體到反欺詐的應用場景則可以解釋為,如果一個企業(yè)運營中有違法操作,那么與該企業(yè)相關的企業(yè)同樣存在違法風險。為充分利用關系信息,網(wǎng)絡特征的提取規(guī)則為計算每個企業(yè)關聯(lián)的一度鄰居企業(yè)中欺詐標簽的占比。

3.4 圖數(shù)據(jù)的存儲和維護

原始數(shù)據(jù)經(jīng)過預處理和圖關系的構建,最終獲得的圖包含約14萬個節(jié)點、20萬條邊。每個節(jié)點代表一個小微企業(yè),有60種節(jié)點屬性。圖數(shù)據(jù)被存儲在Neo4j圖數(shù)據(jù)庫中,這樣能夠快速直觀地對圖數(shù)據(jù)進行可視化分析和展示。在應用階段,利用基于Python的igraph或NetworkX等工具包加載圖數(shù)據(jù),能夠方便、快捷地實現(xiàn)模型訓練和服務部署。與中大型企業(yè)不同,小微企業(yè)的工商信息、經(jīng)營情況變化快且情況復雜,小微信貸業(yè)務也因其靈活性而迭代頻繁。為了讓模型擁有良好的時效性,對圖數(shù)據(jù)進行定期更新和維護是很有必要的。在本文方案中,對圖數(shù)據(jù)的維護分為兩個模塊。● 圖中節(jié)點屬性信息的變更:每月進行小微企業(yè)工商信息的變更檢查,從而對節(jié)點的屬性進行更新。對由于節(jié)點屬性變更而產(chǎn)生的邊增加或減少情況進行更新。● 新入節(jié)點的預處理與載入:每日對新產(chǎn)生的小微貸款業(yè)務的數(shù)據(jù)進行預處理、節(jié)點屬性構建以及邊的構建,并存入當前圖數(shù)據(jù)庫。得益于本文方案采用的LightGBM算法較低的時空復雜度,每日新入節(jié)點更新完成后,能夠實現(xiàn)當日快速模型迭代,從而保證模型的時效性,提高小微貸款業(yè)務審批流程的效率。

3.5 算法選擇

本方案整體將貸款反欺詐問題定義為對欺詐的二分類問題。以企業(yè)為粒度,以融合干系人信息的企業(yè)多維變量為企業(yè)自身的屬性特征,以基于關系圖譜提取的鄰居節(jié)點欺詐比例為企業(yè)的網(wǎng)絡特征,預測企業(yè)最終的欺詐標簽類型,同時輸出欺詐概率。大部分的機器學習模型,特別是金融行業(yè)普遍應用的邏輯回歸模型需要較長的訓練時間,難以應對變化多端的欺詐行為。除此之外,欺詐具有多樣性和復雜性,即使一些征信類數(shù)據(jù)具有較強的指示作用,但其在總體樣本上的高缺失率使得數(shù)據(jù)預處理的難度加大,最終能夠提供的信息增益微乎其微。一些與存款相關的數(shù)據(jù)之間有較高的線性關系,這違背了傳統(tǒng)回歸模型不存在多重共線性的假設,使得模型評估失真。真實的反欺詐業(yè)務場景更關注在保證泛化性、穩(wěn)定性的前提下,模型可取得的最佳效果。為了能有效地利用這些大量類似的碎片化信息,本方案選用LightGBM算法進行建模。LightGBM于2016年被微軟亞洲研究院團隊在GitHub上開源,是一種基于梯度提升樹的算法框架。該算法采用基于直方圖的決策樹算法與帶深度限制的葉子生長(leaf-wise)策略,在預測精度與XGBoost相似的情況下,可大幅提升訓練速度,降低內存占用,更好地滿足大規(guī)模特征數(shù)據(jù)處理運算與銀行對于小微企業(yè)貸款“秒申、秒審和秒貸”的業(yè)務需求。對比其他分類模型,LightGBM能夠直接讀取類別特征,無須進行獨熱編碼處理,避免構建稀疏的特征空間。其對于缺省值的自動填充也極大地簡化了數(shù)據(jù)前期預處理和后續(xù)的建模流程。

4 實驗及結果

實驗階段將分別建立兩種分類模型。模型1為基礎模型,單純使用節(jié)點屬性,不考慮網(wǎng)絡結構特征。模型2在使用節(jié)點屬性的基礎上,引入基于關聯(lián)圖譜提取的節(jié)點鄰居欺詐比例這一額外特征共同訓練。兩種模型均使用LightGBM算法框架在相同訓練集上進行模型訓練,并在相同測試集上進行評估,旨在探究融合網(wǎng)絡結構特征后的欺詐模型是否對單獨的節(jié)點自身屬性欺詐模型的預測效果有所提升。

4.1 實驗設定

4.1.1 數(shù)據(jù)集劃分

實驗將所有存在申請貸款行為的140 885家企業(yè)樣本作為總數(shù)據(jù)集,整體數(shù)據(jù)集按照4:1的比例劃分為訓練集和測試集,訓練集用于模型訓練,測試集用于模型驗證。其中,正樣本(欺詐用戶)共計389個,負樣本(正常用戶)共計140 496個。正負樣本比例約2.7‰,數(shù)據(jù)集存在不平衡現(xiàn)象。劃分后的數(shù)據(jù)集中,正負樣本的比例在訓練集與測試集中保持一致,整體樣本分布見表2。


4.1.2 網(wǎng)絡特征處理

直接運用以上劃分方式對數(shù)據(jù)集進行切割并單純使用節(jié)點屬性建模,是符合邏輯的,但當加入圖譜網(wǎng)絡的特征時會出現(xiàn)一些問題。其中與傳統(tǒng)機器學習模型中經(jīng)常做出的假設相違背的一點是數(shù)據(jù)特征的非獨立同分布(independently identically distribution,IID)特性。在關系圖譜中,節(jié)點之間的相關行為意味著一個節(jié)點的標簽信息可能會影響其相關節(jié)點的標簽信息。因此在對每個節(jié)點進行網(wǎng)絡特征提取時,模型訓練集和測試集的劃分勢必會因為整個網(wǎng)絡的互聯(lián)特性而受影響,難以實現(xiàn)完全獨立的分割。即使本文假定所構建圖譜中節(jié)點間的關系是全感知的,且在一定時間范圍內不會發(fā)生變化,圖譜中的每個節(jié)點的標簽在真實應用場景中也不一定都是已知的。因此,本文在劃分完訓練集與測試集后對節(jié)點周圍鄰居欺詐比例這一特征進行計算時,如果某節(jié)點的鄰居來自訓練集,那么其標簽被設為已知,直接加入特征計算過程中;如果來自測試集,那么標簽被設為未知(NA),以此避免關系型特征帶來的干擾。

4.2 模型訓練與參數(shù)選擇

為保證最優(yōu)模型效果,兩組實驗在模型訓練時均采用貝葉斯自動化調參對模型參數(shù)進行調優(yōu)。以優(yōu)化受試者工作特征曲線下與坐標軸圍成的面積(AUC)為目標函數(shù),對訓練集中的數(shù)據(jù)進行30輪訓練,每輪采用5折交叉驗證,并輸出平均AUC作為當前模型的表現(xiàn)。最終輸出AUC最大時選用的參數(shù)組合及訓練出的模型。

4.3 評價指標

反欺詐的業(yè)務場景中數(shù)據(jù)的不平衡程度很高,因此應選擇對數(shù)據(jù)傾斜敏感度較低的指標對模型表現(xiàn)進行客觀評價。本文選擇AUC以及KS值對模型效果進行評價。AUC與KS值均基于真正率(TPR)和假正率(FPR)計算得出。AUC值表示用不同閾值下TPR與FPR連成的ROC曲線下方的面積。AUC值越高,模型對于正負樣本的區(qū)分能力越強,效果越好。KS值表示TPR和FPR的最大差值,反映的是模型的最優(yōu)區(qū)分效果,KS值對應的閾值可作為區(qū)分好壞用戶的最優(yōu)閾值。

4.4 實驗結果

第一組實驗將企業(yè)節(jié)點的自身屬性輸入模型并進行訓練,全部特征數(shù)目為60,涵蓋了篩選過后的企業(yè)自身屬性、企業(yè)唯一實控人屬性以及企業(yè)其他干系人屬性。第二組實驗除了用到以上60個全部特征,還加入了當前企業(yè)關聯(lián)周圍鄰居節(jié)點欺詐申請的比例,共計61維。比較兩個模型在測試集上的表現(xiàn),模型效果對比如圖3所示,模型性能表現(xiàn)見表3。

圖3???模型效果對比


灰色和黑色兩條曲線分別代表是否加入網(wǎng)絡特征的模型的表現(xiàn)。其中引入網(wǎng)絡特征的模型(AUC為0.844)對欺詐樣本的區(qū)分能力明顯好于僅使用節(jié)點屬性的模型(AUC為0.791)。其在測試集上的AUC值提升了6.7%,KS值提升了24.7%。

除了模型表現(xiàn)的比較,模型對結果的可解釋性同樣確保了整個銀行貸款業(yè)務的風險可控。由于LightGBM本質上采用基于決策樹算法的梯度提升框架,在模型訓練的過程中會根據(jù)特征的信息增益來分裂葉子節(jié)點。因此,可將其作為特征重要性信息,以評價不同特征對欺詐風險預測的貢獻程度。圖4列出了模型2中重要性排名靠前的特征。可以發(fā)現(xiàn),企業(yè)鄰居的欺詐比例對模型判斷企業(yè)欺詐風險的影響最大,企業(yè)地理位置、企業(yè)存款信息位列其后。同時,在排名靠前的特征中出現(xiàn)了企業(yè)實控人與企業(yè)干系人的相關屬性,證明了建立完整的企業(yè)畫像在全面考量小微企業(yè)申貸風險時的重要性。

圖4???特征重要性排序

5 結束語

本文針對當前小微企業(yè)信貸反欺詐的痛點,提出了一種基于企業(yè)畫像與企業(yè)關系圖譜的有監(jiān)督學習解決方案,實現(xiàn)從孤立的企業(yè)實體欺詐風險到全局網(wǎng)絡風險的把控,為反欺詐實踐提供了新思路。通過對比傳統(tǒng)的信貸反欺詐風控方法,可以明顯地看到本文方法為孤立的企業(yè)畫像引入網(wǎng)絡特征的優(yōu)勢,也能夠更準確地刻畫申貸小微企業(yè)與欺詐目標之間的非線性關系。在當前普惠金融的大市場環(huán)境下,該方法可在一定程度上解決小微企業(yè)貸前反欺詐的風控難題,幫助銀行提供更加高效、可靠的金融服務。

作者簡介

金磐石(1965- ),男,中國建設銀行股份有限公司信息總監(jiān),主要研究方向為數(shù)據(jù)處理領域技術研究與應用、人工智能領域技術研究與應用等。

萬光明(1974- ),男,中國建設銀行金融科技部高級工程師,主要研究方向為應用架構管理、人工智能方向架構管理等。

沈麗忠(1978- ),男,建信金融科技有限責任公司廈門事業(yè)群大數(shù)據(jù)平臺架構師,主要研究方向為數(shù)據(jù)挖掘、分布式存儲、分布式計算、流計算、數(shù)據(jù)分析等。




《大數(shù)據(jù)》期刊

《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學會大數(shù)據(jù)專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。

關注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內容


往期文章回顧


總結

以上是生活随笔為你收集整理的基于知识图谱的小微企业贷款申请反欺诈方案的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产午夜精品在线观看 | 综合视频一区 | 国产日本一区二区 | 男男啪啪网站 | 韩国一区二区在线播放 | 成人看片免费 | 国产精品999999 | 69式视频 | 国产高清在线精品 | 日韩亚洲影院 | 日韩精品观看 | 美日韩一区二区 | 都市激情第一页 | 亚洲欧美在线一区二区 | 97精品久久久 | 好吊色一区二区三区 | yjizz视频| 欧美大胆a视频 | 爆操91 | 黄色a区| 五月婷婷综合在线 | 中文字幕欧美在线 | 蜜臀国产AV天堂久久无码蜜臀 | 国产精品免费看片 | 日本中文字幕成人 | 精品视频一区二区三区四区 | 午夜黄色小视频 | www.18av| 麻豆av在线免费观看 | 一区二区三区久久久久 | 成人国产三级 | 在线色导航 | 国产女人精品 | 成人av一区二区三区在线观看 | 欧美丰满老熟妇xxxxx性 | 亚洲乱论| 激情综合激情 | 国产精品www色诱视频 | ass日本粉嫩pics珍品 | 在线观看中文字幕一区二区 | 日本欧美久久久久免费播放网 | 天天激情站 | 97国产一区| 中文字幕一区在线播放 | 999视频在线观看 | 欧美日韩激情网 | 亚洲国产精品无码专区 | 丁香花电影免费播放在线观看 | 国产操女人 | 亚洲AV无码成人精品区明星换面 | 欧美一卡二卡在线观看 | 亚洲精品在线视频免费观看 | 91高清在线免费观看 | 日韩中文字幕观看 | 色屁屁ts人妖系列二区 | 亚洲中文字幕一区二区 | 国产麻豆天美果冻无码视频 | 午夜视频福利在线观看 | 九色丨蝌蚪丨成人 | 三区在线视频 | 麻豆成人久久精品一区二区三区 | 黄色一极片 | 精品国产乱码久久 | 神马久久久久久久久久 | 亚洲一级在线观看 | 欧美毛片在线 | 精品一区二区三区人妻 | 五月婷婷亚洲 | 黄色亚洲网站 | 日韩一区二区久久 | 亚洲一卡二卡三卡 | 国模吧一区二区三区 | 韩国女主播裸体摇奶 | 亚洲综合成人在线 | 中文字幕第页 | 久久精品麻豆 | 神马影院午夜伦理 | a天堂在线视频 | 色婷婷久久五月综合成人 | www.99色| 午夜久久久久久久久久久 | 欧美日韩69 | 一区二区三区av夏目彩春 | 久久亚洲一区 | 日韩精品极品视频免费观看 | 国产麻豆天美果冻无码视频 | 国产美女黄色 | 中文字幕日韩精品一区 | 久久公开视频 | 中文字幕亚洲图片 | 中日韩精品视频在线观看 | 狠狠操狠狠操狠狠操 | 搡老熟女老女人一区二区 | 成人开心激情 | 亚洲天堂小视频 | 在线观看毛片av | 激情久久av一区av二区av三区 | 国产一区免费看 | 欧美一级在线免费观看 |