【勉强采用】反欺诈之血缘关系分析和犯罪传导监测
?
近期,一銀行找到我,說(shuō)他們現(xiàn)在有一個(gè)立項(xiàng),題目是《數(shù)據(jù)血緣關(guān)系智能分析和犯罪風(fēng)險(xiǎn)傳導(dǎo)監(jiān)測(cè)》,希望聽(tīng)聽(tīng)我的建議。今天正好聽(tīng)到媽媽跟我說(shuō)起這件事,就想,還是針對(duì)這個(gè)課題,好好整理下思路,講一講我的看法吧。同樣還是黃姐姐的風(fēng)格,為了僅圍繞反欺詐做探討,本文僅會(huì)講解與反欺詐相關(guān)的知識(shí)點(diǎn),想系統(tǒng)學(xué)習(xí)的朋友,請(qǐng)參照其他資料。
#數(shù)據(jù)血緣關(guān)系
數(shù)據(jù)血緣關(guān)系,英文Pedigree,也稱Provenance或linkage,指的是數(shù)據(jù)源(source)到衍生(derivation)字段的鏈路,也就是數(shù)據(jù)從產(chǎn)生,到加工組合拆解,再到最后消亡的整個(gè)生命周期的過(guò)程,用一個(gè)成語(yǔ)概括,就是數(shù)據(jù)的“來(lái)龍去脈”。之所以稱為“血緣關(guān)系”,是因?yàn)檫@與人類社會(huì)很像。通過(guò)一步的加工可類比“直系血親”,通過(guò)多步的加工可類比“旁系血親”。這里舉個(gè)例子,以下是從一個(gè)用戶那里獲取的user agent
Mozilla/5.0 (Linux; Android 7.0; BAC-AL00 Build/HUAWEIBAC-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132 MQQBrowser/6.2 TBS/044022 Mobile Safari/537.36 MicroMessenger/6.6.6.1300(0x26060634) NetType/WIFI Language/zh_CN從這里,我們可以分解出:手機(jī)品牌、操作系統(tǒng)、版本號(hào)、網(wǎng)絡(luò)情況、瀏覽器信息等等,這些字段的“父親”就是user agent,屬于直系血親?,F(xiàn)在,我們通過(guò)這里解析的操作系統(tǒng)+版本號(hào),再加上從其他渠道獲得的device id和電池電量,將4個(gè)字段組合成一個(gè)新字段,命名fingerprint。那么,fingerprint則擁有4個(gè)“父親”,與user agent屬于旁系血親。市面上有很多幫忙梳理數(shù)據(jù)血緣關(guān)系的工具,基本思路都是將其鏈路可視化。一般有:信息節(jié)點(diǎn)、數(shù)據(jù)流轉(zhuǎn)線路、清洗規(guī)則節(jié)點(diǎn)、轉(zhuǎn)換規(guī)則節(jié)點(diǎn)、數(shù)據(jù)歸檔銷(xiāo)毀規(guī)則節(jié)點(diǎn)。
對(duì)于反欺詐建模,數(shù)據(jù)清洗和特征衍生往往是第一步,也是最為重要的一步??梢哉f(shuō),數(shù)據(jù)質(zhì)量直接影響著模型結(jié)果(用爛水果,無(wú)論如何都榨不出一杯美味的果汁)。而數(shù)據(jù)血緣關(guān)系,無(wú)論從數(shù)據(jù)價(jià)值評(píng)估還是從數(shù)據(jù)關(guān)系梳理上,都可以給建模人員提供有效的幫助。這里再舉一個(gè)前兩天遇到的案例,一個(gè)群組84人,我們發(fā)現(xiàn)這些人有人用wifi,有人用4G,IP卻完全相同,十分詭異。在去對(duì)這一現(xiàn)象做判斷前,我們先是要確定數(shù)據(jù)的準(zhǔn)確性,也就是追根溯源,看網(wǎng)絡(luò)信息是從哪個(gè)源頭衍生出來(lái)的,再去判斷這個(gè)源頭的有效性。如果有一個(gè)好的數(shù)據(jù)血緣分析工具,則可以快速定位。如果判斷數(shù)據(jù)準(zhǔn)確,才能再進(jìn)行下一步分析:使用4G的IP是否都是定位在運(yùn)營(yíng)商基站?同一地點(diǎn)連接的基站是否會(huì)跳轉(zhuǎn)?是否有人開(kāi)了熱點(diǎn)?還是這是模擬器造成的詭異現(xiàn)象?
總之,數(shù)據(jù)血緣關(guān)系分析,可以應(yīng)用于整個(gè)反欺詐建模過(guò)程:從數(shù)據(jù)預(yù)處理,參數(shù)初始化,到結(jié)果分析。
#犯罪風(fēng)險(xiǎn)傳導(dǎo)
一提到風(fēng)險(xiǎn)傳導(dǎo),可能很多業(yè)內(nèi)人士都會(huì)想到宏觀經(jīng)濟(jì)中的其他風(fēng)險(xiǎn)向業(yè)內(nèi)傳導(dǎo),比如整個(gè)經(jīng)濟(jì)的大蕭條;或者微觀經(jīng)濟(jì)中銀行間或同一銀行業(yè)務(wù)間的風(fēng)險(xiǎn)傳導(dǎo)。事實(shí)上,犯罪風(fēng)險(xiǎn)傳導(dǎo)與此類似,也都是從風(fēng)險(xiǎn)源,經(jīng)過(guò)某些傳導(dǎo)載體,傳導(dǎo)到各個(gè)節(jié)點(diǎn),最后再傳遞到我們的研究對(duì)象,也就是風(fēng)險(xiǎn)接受者。這一過(guò)程,可能還有外部風(fēng)險(xiǎn)的影響,比如政策影響、失業(yè)比例等等。如下圖所示:
風(fēng)險(xiǎn)傳導(dǎo)圖
為了方便大家理解,這里舉個(gè)例子。信用卡代還業(yè)務(wù)剛剛興起時(shí),銀行信用卡壞賬率有顯著的下降。因?yàn)殂y行信用卡的逾期會(huì)上征信,所以一是很多暫時(shí)沒(méi)辦法償還信用卡的人,會(huì)利用信用卡代還業(yè)務(wù)償還信用卡,這樣,銀行的信用風(fēng)險(xiǎn)降低了。另外,很多信用卡代還業(yè)務(wù)在推廣期,對(duì)人員資質(zhì)審核要求比較低,所以很多騙貸人員也盯上了這一福利,進(jìn)行大肆騙貸,也給銀行的欺詐風(fēng)險(xiǎn)減壓。某一新型業(yè)務(wù)的興起,通常會(huì)在短期內(nèi)影響整個(gè)大環(huán)境的風(fēng)險(xiǎn)分布,信用卡代還就是一個(gè)典型案例。一段時(shí)間后,信用卡代還業(yè)務(wù)的風(fēng)控不斷加強(qiáng),口子不斷收緊,會(huì)導(dǎo)致騙貸團(tuán)伙轉(zhuǎn)移到其他口子,比如P2P或者消費(fèi)貸。
對(duì)于反欺詐的犯罪風(fēng)險(xiǎn)傳導(dǎo),一是要從業(yè)務(wù)層面分析;二是從數(shù)據(jù)層面分析。對(duì)于前者,需要從政策、宏觀經(jīng)濟(jì)、失業(yè)率、同業(yè)分析、近業(yè)分析、競(jìng)業(yè)分析等等角度來(lái)看(比如信用卡代還對(duì)信用卡逾期的影響);對(duì)于后者,則可以借助各種數(shù)學(xué)模型來(lái)分析。以下以圖分析為例,簡(jiǎn)單介紹如何進(jìn)行犯罪風(fēng)險(xiǎn)傳導(dǎo)分析。圖分析理論中最經(jīng)典的要數(shù)社交網(wǎng)絡(luò)分析,關(guān)于社交網(wǎng)絡(luò)分析的基礎(chǔ)知識(shí)和應(yīng)用請(qǐng)參照黃姐姐之前的系列文章《基于社交網(wǎng)絡(luò)分析算法(SNA)的反欺詐》。
首先,我們要明確犯罪風(fēng)險(xiǎn)傳導(dǎo)監(jiān)測(cè)的目的,那就是提前預(yù)警。也就是對(duì)于一個(gè)群組,當(dāng)某幾個(gè)人開(kāi)始犯案時(shí),其犯案手段可能會(huì)傳導(dǎo)到其他人,或者帶領(lǐng)其他人一起犯案,就像文前小故事里提到的幾個(gè)例子。這里,首先犯案的可以理解成風(fēng)險(xiǎn)傳導(dǎo)圖中的“風(fēng)險(xiǎn)源”,傳導(dǎo)載體可以理解成社交網(wǎng)絡(luò)分析中的“邊”,節(jié)點(diǎn)可以理解成關(guān)聯(lián)社群(community),風(fēng)險(xiǎn)接受者就是我們想要去阻攔的潛在犯罪者。
現(xiàn)在,假設(shè)我們已經(jīng)通過(guò)社交網(wǎng)絡(luò)分析發(fā)現(xiàn)了一個(gè)團(tuán)體,其關(guān)聯(lián)性比如:
1. 同時(shí)連接過(guò)某一個(gè)wifi,假設(shè)wifi名叫“擼個(gè)口子回家過(guò)年”;
2.同時(shí)辦理了某銀行的某個(gè)卡種的信用卡;
3. 都居住在某個(gè)小區(qū),白天GPS定位顯示都集中在某個(gè)棋牌室;
4. 同一天出現(xiàn)了異地消費(fèi)。
某個(gè)社群
這時(shí),我們發(fā)現(xiàn),紅圈中圈出來(lái)的5個(gè)人都向銀行提出了貸款申請(qǐng),其中2個(gè)人審批通過(guò)且已經(jīng)出現(xiàn)M3+逾期,另外3人被拒。這時(shí),我們就有理由懷疑,整個(gè)群組都有騙貸嫌疑。那么,對(duì)于這個(gè)群體,其在進(jìn)行貸款或信用卡申請(qǐng)時(shí),我們則需要特別注意,要么拒絕,要么降低其額度,以降低風(fēng)險(xiǎn)。
進(jìn)一步分析,其背后動(dòng)機(jī)可能是這樣的:一群閑散人員,不務(wù)正業(yè),每天的工作就是打麻將,他們相互認(rèn)識(shí)。可能在某天被某個(gè)外部人員游說(shuō),帶其到某個(gè)詐騙團(tuán)伙接受培訓(xùn),并交了入伙費(fèi)(異地消費(fèi)),回來(lái)后,他們也開(kāi)始從事詐騙工作,第一步就是騙貸。而為了試探什么樣的條件才能通過(guò)銀行貸款審核,紅圈中的五個(gè)人身先士卒,進(jìn)行嘗試。對(duì)于其中2個(gè)成功騙貸的人,就可以作為成功范例,傳授其他人經(jīng)驗(yàn)(開(kāi)始傳導(dǎo))。
對(duì)于犯罪風(fēng)險(xiǎn)傳導(dǎo)監(jiān)測(cè)模型的收益,黃姐姐拿一個(gè)實(shí)際案例來(lái)舉例,在C銀行的合作項(xiàng)目中,我們采用犯罪風(fēng)險(xiǎn)傳導(dǎo)監(jiān)控,對(duì)潛伏用戶做提前預(yù)警,結(jié)果是平均可以比C銀行提前2.5天發(fā)現(xiàn)壞人,44%的用戶至少提前1天就被檢測(cè)到其犯罪動(dòng)機(jī)。如下圖所示,發(fā)現(xiàn)我們的檢測(cè)點(diǎn)都集中在0-20天,而C銀行的檢測(cè)則在0-60天均勻分布。
對(duì)于檢測(cè)量,可以看到,通過(guò)潛伏分析,可以大大改善C銀行延遲檢測(cè)的尾部效應(yīng),如下圖所示:
結(jié)語(yǔ):當(dāng)今的社會(huì)是一個(gè)關(guān)系型社會(huì),一個(gè)圈子會(huì)傾向于做同一件事,同為受害者或欺詐者。比如,孤寡老人圈子會(huì)成為電信詐騙的目標(biāo),而犯罪團(tuán)伙也通常是曾經(jīng)的朋友或者親戚組成的,就算你一個(gè)外人想加入,也必須通過(guò)熟人介紹才行,也已然成為行規(guī)。數(shù)據(jù)血緣關(guān)系分析作為反欺詐建模的基礎(chǔ),犯罪風(fēng)險(xiǎn)傳導(dǎo)監(jiān)測(cè)則作為反欺詐建模的理論依據(jù)和目標(biāo),越來(lái)越受到銀行風(fēng)控領(lǐng)域的重視。
[1] Provenance, Lineage, and Workflows:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.406.8789&rep=rep1&type=pdf
[2] 數(shù)據(jù)之間有血緣關(guān)系?數(shù)據(jù)治理不得不懂的血緣關(guān)系梳理方法
http://www.sohu.com/a/161142366_99934777
[3]風(fēng)險(xiǎn)傳導(dǎo)機(jī)理與風(fēng)險(xiǎn)能量理論
https://wenku.baidu.com/view/ef9f413ff08583d049649b6648d7c1c708a10b86.html
[4]商業(yè)銀行風(fēng)險(xiǎn)傳導(dǎo)
http://www.docin.com/p-1270342141.html
總結(jié)
以上是生活随笔為你收集整理的【勉强采用】反欺诈之血缘关系分析和犯罪传导监测的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 反欺诈评分模型之手机终端
- 下一篇: 【采用】无监督核心聚类算法