當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

信用卡欺诈检测：2021 年顶级机器学习解决方案

發布時間：2023/12/20 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了信用卡欺诈检测：2021 年顶级机器学习解决方案小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在公眾號「python風控模型」里回復關鍵字：學習資料

從電子商務支付系統出現的那一刻起，總是有人會找到新的方法來非法獲取某人的資金。這已成為現代時代的一個主要問題，因為只需輸入您的信用卡信息即可輕松在線完成所有交易。即使在 2010 年代，許多美國零售網站用戶在使用兩步驗證進行網上購物之前就已經成為網上交易欺詐的受害者。當數據泄露導致金錢失竊并最終失去客戶忠誠度和公司聲譽時，組織、消費者、銀行和商家都會面臨風險。

2017 年，未經授權的信用卡操作達到了驚人的 1670 萬受害者。此外，據美國聯邦貿易委員會 (FTC) 報告，2017 年信用卡欺詐索賠數量比上一年高出 40%。加利福尼亞州報告了大約 13,000 起案件，佛羅里達州報告了 8,000 起案件，這兩個州是此類犯罪人均最多的州。到 2020 年，所涉金額將超過約 300 億美元。以下是一些信用卡欺詐統計數據：

機器學習信用卡欺詐檢測和傳統欺詐檢測有什么區別？

基于機器學習的欺詐檢測：

自動檢測欺詐
實時流媒體
驗證方法所需的時間更少
識別數據中隱藏的相關性

常規欺詐檢測：

確定方案的決策規則應手動設置。
需要大量時間
需要多種驗證方式；從而給用戶帶來不便
僅發現明顯的欺詐活動

什么是信用卡欺詐檢測？

“欺詐檢測是一系列旨在防止通過虛假借口獲取金錢或財產的活動。”

欺詐可以以不同的方式在許多行業實施。大多數檢測方法結合了各種欺詐檢測數據集，形成有效和無效支付數據的連接概覽，以做出決策。該決定必須考慮 IP 地址、地理位置、設備標識、“BIN”數據、全球緯度/經度、歷史交易模式和實際交易信息。在實踐中，這意味著商家和發卡行部署基于分析的響應，這些響應使用內部和外部數據來應用一組業務規則或分析算法來檢測欺詐。

使用機器學習進行信用卡欺詐檢測是數據科學團隊進行數據調查的過程，并開發了一個模型，該模型將在揭示和防止欺詐交易方面提供最佳結果。這是通過將卡用戶交易的所有有意義的特征（例如日期、用戶區域、產品類別、金額、供應商、客戶的行為模式等）結合在一起來實現的。然后通過一個經過巧妙訓練的模型來運行信息，該模型會發現模式和規則以便它可以對交易是欺詐還是合法進行分類。

信用卡詐騙及防范技巧

秩類別報告數量

1	互聯網服務	62,942
2	信用卡	51,129
3	衛生保健	47,410
4	電視和電子媒體	38,336
5	外幣優惠和偽造支票詐騙	27,443
6	計算機設備和軟件	18,350
7	投資相關	14,884

克隆交易。

克隆交易通常是一種與原始交易類似的交易或復制交易的流行方法。當組織試圖通過向不同部門發送相同的發票來多次從合作伙伴那里獲得付款時，就會發生這種情況。

基于規則的欺詐檢測算法的傳統方法不能很好地將欺詐交易與不規則或錯誤交易區分開來。例如，用戶可能會不小心點擊提交按鈕兩次或訂購同一產品兩次。
更好的選擇是，如果系統能夠將欺詐交易與錯誤交易區分開來。在這里，機器學習方法將更有效地區分由人為錯誤和真實欺詐引起的克隆交易。

帳戶盜竊和可疑交易。

當個人的個人信息（例如社會安全號碼、秘密問題答案或出生日期）被犯罪分子竊取時，他們可以使用這些信息進行財務操作。許多欺詐交易都與身份盜用有關，因此金融欺詐預防系統應最關注創建對用戶行為的分析。

如果客戶付款的方式有一定規律，例如某人每周同一時間訪問某個酒吧一次，并且總是花費大約 40 到 60 美元。如果使用同一個帳戶在位于城鎮另一部分的酒吧支付超過 60 美元的款項，則這種行為將被視為不正常。下一步是向卡號所有者發送驗證請求，以驗證他或她是否進行了交易。

標準偏差、平均值和高/低值等指標對于發現不規則行為最有用。將單獨的付款與個人基準進行比較，以識別具有高標準偏差的交易。然后，如果發生這種偏差，最好的選擇是驗證帳戶持有人。

虛假申請欺詐。

應用程序欺詐通常伴隨著帳戶/身份盜竊。這意味著某人以另一個人的名義申請新的信用賬戶或信用卡。首先，犯罪分子竊取將作為其虛假申請的支持證據的文件。

異常檢測有助于識別交易是否有任何異常模式，例如日期和時間或商品數量。如果算法發現這種異常行為，銀行賬戶的所有者將受到一些驗證方法的保護。

信用卡略讀（電子或手動）。

信用卡竊取是指使用可讀取和復制原始卡信息的設備制作信用卡或銀行卡的非法副本。欺詐者使用名為“撇渣器”的機器提取卡號和其他信用卡信息，將其保存并轉售給犯罪分子。

與身份盜竊的情況一樣，通過電子或手動卡的副本進行的可疑交易將因交易信息而被披露。分類技術可以根據硬件、地理位置和有關客戶行為模式的信息來定義交易是否具有欺詐性。

帳戶接管。

欺詐者可以向持卡人發送欺騙性電子郵件。這些消息看起來非常合法（例如，非常相似的銀行 URL 和值得信賴的徽標），就好像它們是由銀行發送的一樣。實際上，此類消息可用于竊取某人的個人信息、銀行帳號和在線密碼。如果您點擊錯誤的鏈接或提供有價值的信息以響應來自虛假銀行網站的消息，則在幾個小時內，您的銀行賬戶將被犯罪分子轉移到他們持有的賬戶中。

為了避免這種欺詐模式，人工智能驅動的解決方案依賴于神經網絡或模式識別。神經網絡可以學習可疑的模式以及檢測類別和集群以使用這些模式進行欺詐檢測。

信用卡詐騙是如何發生的？

信用卡欺詐通常是由于持卡人對其數據的疏忽或網站安全性遭到破壞。這里有些例子：

消費者向不熟悉的人透露他的信用卡號。
卡片丟失或被盜，被其他人使用。
郵件從目標收件人處竊取并被犯罪分子使用。
企業員工復制其所有者的卡片或卡號。
制作假信用卡。

當您的卡丟失或被盜時，可能會發生未經授權的收費；換句話說，發現它的人使用它進行購買。不法分子還可以偽造您的姓名并使用該卡或通過手機或電腦訂購一些商品。此外，還存在使用假信用卡的問題——一張具有從持有人那里竊取的真實賬戶信息的假卡。這是特別危險的，因為受害者擁有他們的真實卡，但不知道有人復制了他們的卡。這種欺詐性卡片看起來非常合法，并且帶有原始卡片的標識和編碼磁條。欺詐性信用卡通常在多次成功付款后被犯罪分子銷毀，就在受害者意識到問題并報告之前。

信用卡欺詐檢測系統和實施人工智能欺詐檢測系統的步驟

信用卡欺詐檢測系統：

從第三方反欺詐公司提取的現成欺詐風險評分。
從先前數據中學習并估計欺詐性信用卡交易的概率的預測機器學習模型。
設置交易必須通過才能獲得批準的條件的業務規則（例如，沒有 OFAC 警報、SSN 匹配、低于存款/取款限額等）。

在這些欺詐分析技術中，預測性機器學習模型屬于智能互聯網安全解決方案。

AI欺詐檢測系統實施步驟：

數據挖掘。意味著對數據進行分類、分組和分段，以搜索數百萬筆交易以查找模式并檢測欺詐。
模式識別。意味著檢測可疑行為的類別、集群和模式。此處的機器學習代表選擇最適合某個業務問題的模型/模型集。例如，神經網絡方法有助于自動識別欺詐交易中最常見的特征；如果您有大量交易樣本，此方法最有效。

一旦機器學習驅動的欺詐保護模塊被集成到電子商務平臺中，它就會開始跟蹤交易。每當用戶請求交易時，它都會被處理一段時間。根據預測的欺詐概率水平，存在三種可能的結果：

如果概率小于 10%，則允許交易。
如果概率介于 10% 和 80% 之間，則應應用額外的身份驗證因素（例如一次性 SMS 代碼、指紋或秘密問題）。
如果概率超過 80%，則交易被凍結，因此應手動處理。

使用基于 AI 的方法進行支付欺詐檢測的要求

要為信用卡欺詐分析運行 AI 驅動的策略，應滿足許多關鍵要求。這些將確保模型達到其最佳檢測分數。

數據量。

訓練高質量的機器學習模型需要大量的內部歷史數據。這意味著如果您之前沒有足夠的欺詐和正常交易，則很難在其上運行機器學習模型，因為其訓練過程的質量取決于輸入的質量。因為很少有訓練集包含兩個類中等量的數據樣本的情況，所以使用降維或數據增強技術。

數據質量。

模型可能會因歷史數據的性質和質量而存在偏差。這種說法意味著，如果平臺維護者沒有對數據進行整齊、適當的收集和排序，甚至將欺詐交易的信息與正常交易的信息混合在一起，那么很可能會導致模型結果出現重大偏差。

因素的完整性。

如果您有足夠多的結構良好且無偏見的數據，并且您的業務邏輯與機器學習模型完美匹配，那么欺詐檢測很可能對您的客戶和您的業務有效。

先進的信用卡欺詐識別方法及其優勢

高級信用卡欺詐識別方法分為：

無監督。如PCA、LOF、One-class SVM、Isolation Forest。
監督。例如決策樹（例如 XGBoost 和 LightGBM）、隨機森林和 KNN。

我們已經介紹了機器學習用于欺詐檢測的工作原理的基本愿景。現在讓我們深入研究使之成為可能的確切模型。

無監督。

無監督機器學習方法使用未標記的數據來查找信用卡欺詐檢測數據集中的模式和依賴關系，從而可以通過相似性對數據樣本進行分組，而無需手動標記。

**PCA（主成分分析）**可以執行探索性數據分析，以揭示數據的內部結構并解釋其變化。PCA 是最流行的異常檢測技術之一。

PCA 搜索特征之間的相關性——在信用卡交易的情況下，可能是時間、地點和花費的金額——并確定哪些值的組合會導致結果的可變性。這種組合的特征值允許創建名為主_成分_的更緊密的特征空間。

**LOF（Local Outlier Factor）**是幫助了解某個數據樣本成為異常值（異常）的可能性有多大的分數因子。這是另一種最流行的異常檢測方法。

為了計算 LOF，考慮相鄰數據點的數量來計算其密度并將其與其他數據點的密度進行比較。如果某個數據點與其近鄰相比具有低得多的密度，則它是一個異常值。

**一類 SVM（支持向量機）**是一種分類算法，有助于識別數據中的異常值。該算法允許人們處理與數據不平衡相關的問題，例如欺詐檢測。

One-class SVM 背后的想法是僅對大量合法交易進行訓練，然后通過將每個新數據點與它們進行比較來識別異常或新奇事物。

**隔離森林 (IF)**是決策樹系列中的一種異常檢測方法。IF 區別于其他流行的異常值檢測算法的主要思想是它精確檢測異常而不是分析正數據點。隔離森林由決策樹構建，其中數據點的分離首先發生，因為在所選特征的最小值和最大值中隨機選擇一個分割值。

隨后，如果我們有一組合法交易，隔離森林算法將根據它們的價值來定義欺詐性信用卡交易——這通常與正交易的價值非常不同（即它們發生在離正常數據點更遠的地方）特征空間）。

監督

有監督的 ML 方法使用標記的數據樣本，因此系統將預測這些標記在未來數據之前看不見。在受監督的 ML 欺詐識別方法中，我們定義了決策樹、隨機森林、KNN 和樸素貝葉斯。

K-Nearest Neighbors是一種分類算法，它根據多維空間中的距離計算相似性。因此，數據點將被分配到最近鄰居所具有的類別。

這種方法不易受到噪聲和數據點缺失的影響，這意味著可以在更短的時間內組成更大的數據集。此外，它非常準確，并且需要開發人員進行較少的工作來調整模型。

**XGBoost (Extreme Gradient Boosting)和Light GBM (Gradient Boosting Machine)**是一種單一類型的梯度提升決策樹算法，它的創建是為了速度以及最大化計算時間和內存資源的效率。該算法是一種混合技術，其中添加新模型以修復由現有模型引起的錯誤。

Light GBM 與其他基于樹的技術的不同之處僅在于它遵循葉子方向而不是水平方向來構建條件（圖 1,2）。一般來說，所有基于樹的梯度提升算法背后的思想都是一樣的。

為了將交易歸類為欺詐性費用，許多決策樹的結果（概率）被匯總——而每個未來的決策樹都根據其前輩所犯的錯誤來改進其結果。

隨機森林是一種由許多決策樹組成的分類算法。每棵樹都有帶條件的節點，這些節點定義了基于最高值的最終決策。

用于欺詐檢測和預防的隨機森林算法有兩個主要因素，使其擅長預測事物。第一個是隨機性，這意味著數據的行和列是從數據集中隨機選擇的，并適合不同的決策樹。假設樹 1 接收前 1,000 行，樹 2 接收 4,000 到 5,000 行，而樹 3 有 8,000 到 9,000 行。

第二個因素是多樣性，這意味著有一片樹林有助于最終決策，而不僅僅是一棵決策樹。這里最大的優勢是這種多樣性降低了模型過度擬合的機會，而_偏差_保持不變。

可以使用不同的 ML 模型來檢測欺詐；它們中的每一個都有其優點和缺點。有些模型很難解釋、解釋和調試，但它們具有很好的準確性（例如神經網絡、Boosting、Ensembles 等）；其他的更簡單，因此它們可以很容易地被解釋和可視化為一堆規則（例如決策樹）。

每當有新數據到達時，不斷訓練欺詐檢測模型非常重要，因此可以學習新的欺詐模式/模式并盡早檢測欺詐數據。關于更多風控模型知識，請參考《python金融風控評分卡模型和數據分析》，提供邏輯回歸評分卡，集成樹xgboost，lightgbm，catboost，svm，神經網絡等諸多主流算法實戰案例。

常見的信用卡欺詐問題

讓我們回答一些經常與信用卡欺詐相關的有趣問題。

誰應對信用卡欺詐負責？

在美國，聯邦法律（即《公平信用賬單法案》）為持卡人設定了 50 美元的責任限額，無論未經授權的用戶收取多少費用。此規則適用于不安全的在線連接或數據泄露的情況。

如果受害者在未經授權的交易發生之前報告卡丟失或被盜，他或她將不承擔任何費用。

個人信息被盜是很危險的，因為雖然受害者不承擔任何經濟損失，但他或她可能會花幾年時間處理犯罪分子造成的所有金融和信用欺詐。

銀行會調查信用卡欺詐嗎？

在用戶通知銀行他或她注意到可疑的信用卡交易后，銀行會開始信用卡欺詐調查。

受害者必須立即通知銀行有關欺詐交易的信息，并且不得遲于事件發生后的 60 天。他或她必須提供有關損失的確切金額、日期以及交易看似欺詐的原因的描述的信息。然后，銀行開始調查，必須在不超過 45 天內解決。如果 10 天后銀行發現欺詐確實發生，銀行必須向受害者賠償被盜的金額。

銀行必須將調查結果書面通知持卡人。如果這些文件影響了銀行的決定，持卡人有權要求銀行在調查過程中創建或收集的任何文件的副本。

總結

欺詐是整個信用卡行業的一個主要問題，隨著電子貨幣轉賬的日益普及，該行業變得越來越大。為有效防范導致銀行賬戶信息泄露、盜刷、偽造信用卡、每年數十億美元被盜以及聲譽和客戶忠誠度損失的犯罪行為，信用卡發卡機構應考慮實施高級信用信用卡欺詐預防和欺詐檢測方法。基于機器學習的方法可以根據每個持卡人的行為信息不斷提高欺詐預防的準確性。

總結

以上是生活随笔為你收集整理的信用卡欺诈检测：2021 年顶级机器学习解决方案的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：军火库（第一期）：无线电硬件安全大牛都用
下一篇： gitbook asciidoc 项目生