图数据库应用:金融反欺诈实践
?
?
1 背景介紹
1.1 傳統(tǒng)反欺詐技術(shù)面臨挑戰(zhàn)
數(shù)字技術(shù)與金融業(yè)的融合發(fā)展,也伴隨著金融欺詐風(fēng)險(xiǎn)不斷擴(kuò)大,反欺詐形勢(shì)嚴(yán)峻。數(shù)字金融欺詐逐漸表現(xiàn)出專業(yè)化、產(chǎn)業(yè)化、隱蔽化、場(chǎng)景化的特征,同傳統(tǒng)的詐騙相比,數(shù)字金融詐騙往往是有組織,成規(guī)模的,他們分工明確、合作緊密、協(xié)同作案,形成一條完整的犯罪產(chǎn)業(yè)鏈。傳統(tǒng)反欺詐技術(shù)面臨的三大挑戰(zhàn):維度單一、效率低下、范圍受限。(引用自《數(shù)字金融反欺詐白皮書》)
1.2 圖數(shù)據(jù)庫(kù)技術(shù)應(yīng)運(yùn)而生
面對(duì)復(fù)雜的大數(shù)據(jù),如何高效的從大規(guī)模數(shù)據(jù)中獲取有價(jià)值的信息,傳統(tǒng)技術(shù)面臨巨大挑戰(zhàn)。
圖數(shù)據(jù)庫(kù)這項(xiàng)新興技術(shù)正是反欺詐的一把利劍,基于圖數(shù)據(jù)庫(kù)技術(shù)構(gòu)建的關(guān)系圖譜可用于深度數(shù)據(jù)挖掘,包括:關(guān)系推理、關(guān)聯(lián)度檢測(cè)、集中度測(cè)量、語(yǔ)義分析、團(tuán)伙發(fā)現(xiàn)、可視化展示等。
本質(zhì)上反欺詐面臨的核心問(wèn)題就是如何處理海量的用戶關(guān)聯(lián)關(guān)系。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)在處理海量關(guān)系上做得并不好,面對(duì)復(fù)雜關(guān)系網(wǎng)絡(luò)的處理存在如下問(wèn)題:數(shù)據(jù)規(guī)模大難以存儲(chǔ)、計(jì)算效率低、關(guān)系建模難、維護(hù)性/易用性/擴(kuò)展性差等。與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)不同的是,圖數(shù)據(jù)庫(kù)在處理關(guān)聯(lián)關(guān)系上具有天生的優(yōu)勢(shì),這些問(wèn)題都能很好的一一化解。根據(jù)DB-Engines報(bào)告,從最近十年的表現(xiàn)來(lái)看圖數(shù)據(jù)庫(kù)已經(jīng)成為關(guān)注度最高,發(fā)展趨勢(shì)最明顯的數(shù)據(jù)庫(kù)類型。
HugeGraph圖數(shù)據(jù)庫(kù)就是在這個(gè)需求背景下應(yīng)運(yùn)而生的。HugeGraph是百度安全面對(duì)反欺詐、威脅情報(bào)、黑產(chǎn)打擊等業(yè)務(wù)自研的一款圖數(shù)據(jù)庫(kù)。HugeGraph通過(guò)多維度的特征檢測(cè)(屬性特征、關(guān)系特征)、關(guān)聯(lián)度檢測(cè)、團(tuán)伙檢測(cè)等技術(shù)來(lái)識(shí)別欺詐風(fēng)險(xiǎn),提供了由點(diǎn)及面的反欺詐解決方案。
2 欺詐特征檢測(cè)
根據(jù)用戶的特征檢測(cè)分析,我們可以對(duì)其進(jìn)行風(fēng)險(xiǎn)度評(píng)分,特征檢測(cè)主要包括如下幾方面:
2.1 屬性特征檢測(cè)
· 信用記錄(貸款、還款、逾期記錄等)
· 匹配電話黑名單(公檢法公開名單、數(shù)據(jù)聯(lián)盟不良名單)
· 匹配詐騙地理位置(如詐騙中介、代辦機(jī)構(gòu))
· 匹配代理服務(wù)器名單
· 檢測(cè)信息造假或隱瞞:如學(xué)歷、年齡、地址、公開簡(jiǎn)歷、IP定位等。
?
2.2 關(guān)系特征檢測(cè)
· 大量賬戶同時(shí)擁有同一個(gè)手機(jī)號(hào)
· 大量用戶同時(shí)使用同一個(gè)手機(jī)或WiFi網(wǎng)絡(luò)
· 同一個(gè)賬號(hào)或設(shè)備在多平臺(tái)申請(qǐng)借貸
· 自相矛盾關(guān)系檢測(cè),包括:用戶填寫的關(guān)系自相矛盾、用戶公司地址自相矛盾、通話記錄與職業(yè)自相矛盾等等
· 關(guān)系環(huán)路檢測(cè)(比如檢測(cè)是否有循環(huán)擔(dān)保)
· 多層關(guān)系高度聚集性檢測(cè),比如大量賬號(hào)通過(guò)大量虛假設(shè)備接入同一個(gè)網(wǎng)絡(luò)
?
2.3 關(guān)聯(lián)度檢測(cè)
近朱者赤近墨者黑,通過(guò)用戶的關(guān)系網(wǎng)絡(luò)來(lái)檢測(cè)其與風(fēng)險(xiǎn)節(jié)點(diǎn)的關(guān)聯(lián)度,可識(shí)別出其風(fēng)險(xiǎn)程度并作為一個(gè)參考指標(biāo),比如某用戶3度關(guān)系之內(nèi)是否觸黑。這個(gè)過(guò)程我們稱之為關(guān)聯(lián)度檢測(cè)。
關(guān)聯(lián)度檢測(cè)的典型技術(shù)包括:
· 檢測(cè)用戶的多層社會(huì)關(guān)系是否符合正常的圖譜特征,比如若是孤立的子圖則可能是假造的關(guān)系網(wǎng)絡(luò),該用戶存在高風(fēng)險(xiǎn)
· 檢測(cè)多層關(guān)系網(wǎng)絡(luò)中是否包含高風(fēng)險(xiǎn)節(jié)點(diǎn),比如二度觸黑
· 通過(guò)PersonalRank、PageRank等算法計(jì)算關(guān)系網(wǎng)絡(luò)中節(jié)點(diǎn)的風(fēng)險(xiǎn)評(píng)分
其中高風(fēng)險(xiǎn)節(jié)點(diǎn)包括黑/灰名單、高風(fēng)險(xiǎn)評(píng)分節(jié)點(diǎn)等;關(guān)系網(wǎng)絡(luò)是指實(shí)體(用戶ID、賬戶、手機(jī)號(hào)、設(shè)備、地點(diǎn))與各種關(guān)系(如通訊錄、通話記錄、轉(zhuǎn)賬交易、登錄地點(diǎn))之間的相互關(guān)聯(lián)組成的網(wǎng)絡(luò)。
3 欺詐團(tuán)伙檢測(cè)
3.1 使用社區(qū)發(fā)現(xiàn)算法檢測(cè)欺詐團(tuán)伙
用戶的關(guān)聯(lián)關(guān)系是一個(gè)復(fù)雜的網(wǎng)絡(luò),對(duì)復(fù)雜網(wǎng)絡(luò)的研究一直是許多領(lǐng)域的研究熱點(diǎn),其中社區(qū)結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)中的一個(gè)普遍特征,同一個(gè)社區(qū)內(nèi)的節(jié)點(diǎn)之間的連接緊密,而社區(qū)與社區(qū)之間的連接則比較稀疏。正如《數(shù)字金融反欺詐白皮書》所述,數(shù)字金融詐騙往往是有組織成規(guī)模的,如何找出這些組織本質(zhì)上就是從復(fù)雜網(wǎng)絡(luò)中找到一個(gè)一個(gè)的團(tuán)伙并加以分析。
檢測(cè)欺詐團(tuán)伙的算法我們稱之為社區(qū)發(fā)現(xiàn)算法(或者說(shuō)社區(qū)聚類算法),社區(qū)發(fā)現(xiàn)是一個(gè)復(fù)雜而有意義的過(guò)程,近幾年來(lái),分析復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)得到了許多學(xué)者的關(guān)注,同時(shí)也出現(xiàn)了很多社區(qū)發(fā)現(xiàn)算法(如LPA、SCAN、Louvain等)。
在金融關(guān)系網(wǎng)絡(luò)里面往往社交屬性比較弱,大部分用戶的社交關(guān)系很稀疏,找到關(guān)系緊密的社區(qū)就是發(fā)現(xiàn)欺詐團(tuán)伙的關(guān)鍵,當(dāng)然并不是所有的團(tuán)伙都是欺詐團(tuán)伙,因此有必要根據(jù)一個(gè)閾值來(lái)進(jìn)行評(píng)判,比如根據(jù)前述欺詐特征檢測(cè)出來(lái)各成員的風(fēng)險(xiǎn)評(píng)分,如果大于0.7分的用戶在某團(tuán)伙占比達(dá)到60%則判為欺詐團(tuán)伙。
HugeGraph圖數(shù)據(jù)庫(kù)目前提供了兩種社區(qū)發(fā)現(xiàn)算法:簡(jiǎn)單高效的標(biāo)簽傳播算法LPA,以及基于模塊度優(yōu)化迭代算法Louvain。通過(guò)圖的社區(qū)發(fā)現(xiàn)算法將用戶劃分為一個(gè)一個(gè)的群體(我們稱之為團(tuán)伙),然后根據(jù)團(tuán)伙中各成員的風(fēng)險(xiǎn)評(píng)分綜合計(jì)算整個(gè)團(tuán)伙的風(fēng)險(xiǎn)程度,從而識(shí)別出高風(fēng)險(xiǎn)的欺詐團(tuán)伙。
3.2 社區(qū)發(fā)現(xiàn)算法簡(jiǎn)介
LPA 算法簡(jiǎn)介
第一步:為所有節(jié)點(diǎn)指定一個(gè)唯一的標(biāo)簽;
第二步:逐輪刷新所有節(jié)點(diǎn)的標(biāo)簽,直到達(dá)到收斂要求為止。對(duì)于每一輪刷新,節(jié)點(diǎn)標(biāo)簽刷新的規(guī)則如下:對(duì)于某一個(gè)節(jié)點(diǎn),考察其所有鄰居節(jié)點(diǎn)的標(biāo)簽,并進(jìn)行統(tǒng)計(jì),將出現(xiàn)個(gè)數(shù)最多的那個(gè)標(biāo)簽賦給當(dāng)前節(jié)點(diǎn)。當(dāng)個(gè)數(shù)最多的標(biāo)簽不唯一時(shí),隨機(jī)選一個(gè)。
Louvain 算法簡(jiǎn)介
第一個(gè)階段:首先將每個(gè)節(jié)點(diǎn)指定到唯一的一個(gè)社區(qū),然后按順序?qū)⒐?jié)點(diǎn)在這些社區(qū)間進(jìn)行移動(dòng)。分別嘗試將節(jié)點(diǎn)移動(dòng)到相鄰節(jié)點(diǎn)所在的社區(qū),并計(jì)算相應(yīng)的模塊度變化值,哪個(gè)移動(dòng)變化最大就將節(jié)點(diǎn)移動(dòng)到相應(yīng)的社區(qū)中去。按照這個(gè)方法反復(fù)迭代,直到網(wǎng)絡(luò)中任何節(jié)點(diǎn)的移動(dòng)都不能再改善總體模塊度值為止。
第二個(gè)階段:將第一個(gè)階段得到的社區(qū)視為新的“節(jié)點(diǎn)”(一個(gè)社區(qū)對(duì)應(yīng)一個(gè)),重新構(gòu)造子圖,兩個(gè)新“節(jié)點(diǎn)”之間邊的權(quán)值為相應(yīng)兩個(gè)社區(qū)之間各邊的權(quán)值的總和,原社區(qū)內(nèi)部邊的權(quán)值之和作為新“節(jié)點(diǎn)”的權(quán)值。簡(jiǎn)單來(lái)說(shuō)如果社區(qū)內(nèi)部權(quán)值越大、社區(qū)之間權(quán)值越小,那么總體模塊度就越大。
Louvain算法包含了一種層次結(jié)構(gòu),正如對(duì)一個(gè)學(xué)校的所有初中生進(jìn)行聚合一樣,首先我們可以將他們按照班級(jí)來(lái)聚合,進(jìn)一步還可以在此基礎(chǔ)上按照年級(jí)來(lái)聚合,兩次聚合都可以看做是一個(gè)社區(qū)發(fā)現(xiàn)結(jié)果,就看想要聚合到什么層次與程度。
社區(qū)發(fā)現(xiàn)算法總結(jié)
LPA算法優(yōu)勢(shì)是算法簡(jiǎn)單,效率高;Louvain的優(yōu)勢(shì)是支持多層聚類,可以先把所有用戶劃分為小組,然后以小組為單位進(jìn)一步聚類,劃分為大組,以此類推,這樣可以發(fā)現(xiàn)更大或者更為隱蔽的詐騙團(tuán)伙。
?
未來(lái),我們也將持續(xù)利用各種新技術(shù)、新手段、新模型,結(jié)合互聯(lián)網(wǎng)業(yè)務(wù)風(fēng)控場(chǎng)景的典型特征,探索更多行之有效的方法,應(yīng)用到金融反欺詐中,相信很快,圖數(shù)據(jù)庫(kù)技術(shù)會(huì)發(fā)揮出更大的價(jià)值。
總結(jié)
以上是生活随笔為你收集整理的图数据库应用:金融反欺诈实践的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 一个非典型产品经理的创业心得
- 下一篇: sklearn-GridSearchCV