风控建模 python 知乎_风控建模基本要求及面试问题小结
(本文是寫給風控入門同學的建議!)
一 準備工作
根據核心職業CD法則,找工作前,你得先清楚自己有什么,自己要什么;面試單位有什么,面試單位要什么。就筆者近一年的學習及工作經驗總結而言:
科班同學,最好直接從統計分析、應用統計角度入手,從事金融、生物、醫藥等領域里的數據分析或數據挖掘相關工作;
非科班轉行來的,建議直接做金融,需要的專業知識不多,行業知識也易懂,而且信用中國還有很長的路要走,在這個領域扎根越久,收益越高,因為我們要學的這些知識首先是保值甚至是增值的。可掌握的技能基本可以選擇大數據、數據提取、處理、分析、建模這五大塊兒,內容及要求總結如下:前搞MIS(報表分析):業務報表及報告的生產,掌握excel手動報表匯總、透視等功能,tableaue等線上BI報表制作、分析。
后搭數倉(數據提取):數據倉庫,包括關系型、非關系型、大數據、圖數據等數據庫、數據表的設計(常為后端人員開發,數據人員需要了解表結構、字段類型等),數據存儲、提取、轉換、清洗、處理;需熟練掌握SQL、HQL、NQL等語言,可以做json、dict、frame、pkl等數據格式的轉換。
左建模型(模型開發):金融風控模型,不單單指評分卡,而是針對產品營銷、定價、授信、管理、催收、監測等業務流程開發的一系列策略、規則、評分卡的集合,通常我們認為,利用有監督、無監督、半監督、深度學習等算法開發的評分卡是風控模型中卓有成效的技術。
右通算法(數據挖掘):LR、RF、XGBoost、SVM等常見算法。對跨領域轉行過來的同學來說,算法這塊,既有趣,又神秘,關鍵還難懂,讓人又愛又恨。好的算法工程師,需要扎實的計算機算法、算力、數據結構等基礎,需要扎實的概率、統計、多元回歸、矩陣等基礎,我等渣渣勵志做算法的話,3~5年起步吧。
核心懂業務:P2P、消費分期、現金貸、傳統金融、大額、小額、信用卡、車貸、抵押、資產、標的等業態;風險定價、反欺詐、信用循環、信審、提額等環節;滾動、遷徙、賬齡、遞延、回收、壞賬等指標。要懂的東西,也多也不多。
所以,除非奔著算法工程師去,否則最好的入行策略就是熟知行業業務流程,從數據庫、數據提取、數據挖掘、數據分析、風控建模等崗位中擇一良木而棲,夯實基本數據提取、挖掘、建模等流程所用到的技術。算法這塊兒,只需要掌握常用LR、樹模型等算法的原理,能夠使用編程工具實現即可。
畫個VISIO:
所有知識點都掌握,并且能夠熟練運用,已然建立體系,胸有成竹,你就可以驕傲的自封一個全能數據戰士的名號了,簡直朝陽區中最靚的仔。(悄悄說一句,全棧離經理和總監更近,產品、前后端都得給你點個贊)
那針對金融風控崗,我們的面試準備工作,就從以上幾點出發,重點從模型著手。
1、行業經驗互聯網金融風控崗位的業務理解,比如:信用循環體系;核撥率、遞延率、壞賬率等運營指標;滾動率、賬齡分析等分析指標。
風控模型的開發流程,比如:信用模型評分卡的開發、上線、優化等過程及方法。
2、知識基礎
(以下詳細內容請看筆者其他相關文章) - 數據存取與處理: 基礎能力,這是數據分析類工作的技能基礎,也是任何一個數據類工種都需要的基礎能力,不熟練的話就再學一段時間。 - 統計學習: 機器學習的基礎是概率論與統計學習,這塊兒你可以不必特別扎實,但像五位數、方差、正態分布、相關系數、假設檢驗常用知識點得了解并掌握。 - 數據挖掘: 不論是規則還是評分卡,風控建模類工作的大量工作內容就是對用戶特征的挖掘、定義、擴展、轉換、處理、分析、運用,以產生對業務有幫助的決策數據。所以特征工程來龍去脈需要懂,并且會熟練使用。 - 常用算法: 用于特征工程及建模工作,同樣不必全懂,但一到兩種常用算法的推導及一到兩種融合算法的原理必須掌握,常用的元模型為邏輯回歸、決策樹;常用的融合模型有隨機森林;神經網絡則有ANN。
3、代碼能力python | R | sas,把一門代碼類工具運用熟練即可。就python而言,像pandas、numpy、statsmodels、sklearn,這幾個包學扎實就行。
(選工具的話,建議python,別問為什么,怕被隔壁用R、spss、PHP、java、excel的媛兒們暴錘)
二 面試問題
1、風控建模談談你對風控模型的理解?
模型如何設計? 可以從滾動率、遷徙率來回答,也可以從反欺詐、ABC卡回答。
對客群進行細分建模的本質是什么? 其實分客群進行建模,實質也是一種交叉特征,能提高模型穩定性。
拒絕推斷應該怎么做,作用是什么?效果怎么樣? (多查資料,博學審問慎思明辨)
簡要說明下標準評分卡開發流程 (多查資料,博學審問慎思明辨)
2、特征工程如何對數據做質量檢驗? 在完成數據匹配工作之后,建模之前,我們需要對數據進行整體的質量檢測,主要有兩個方面: 1、數據分布。 2、數據集中度檢測。 3、數據臟亂情況。缺失值(是否隱藏風險)、離群值、錯誤值、重復值,根據其是否符合業務邏輯,判斷數據是否存在異常。
特征工程流程 關鍵詞: 特征預處理、特征選擇、特征衍生、特征提取等。用到的技術主要有連續變量離散化、分類變量啞編碼、卡方分箱、特征編碼、共線性檢驗、PCA降維、交叉驗證等。
篩選變量的常用方法 篩選變量有很多種方法,隨機森林、GBDT、邏輯回歸顯著性、VIF共線性、相關性圖譜等、隨機邏輯回歸篩選、遞歸法篩選等。
好的特征需要具備哪些優勢? 1、穩定性高 2、區分度高 3、差異性大 4、符合業務邏輯
如何衍生特征? 變量的衍生并不復雜,通常我們會從三種角度出發: 1、數學運算。求和、比例、頻率、平均等。 2、時間窗口。有些變量的意義只有在一段時間內才有效,所以針對時間比如說注冊如期、交易日期等變量,需要計算其到現在的時間段,完成變量的衍生。 3、交叉組合。GBDT\XGBoost、LDA主題模型、用戶畫像分等等都可以做特征衍生。 衍生出來的特征要符合實際業務含義,并且要保持穩定。
3、機器學習算法簡單介紹你熟悉的幾種算法及其在應用場景中的差別!
一些基本公式的推導,比如LR、xgb之類的,這些可以自己推導一下。
簡單評價幾種常用算法的優缺點: 1、邏輯回歸 優點:簡單、穩定、可解釋、技術成熟、易于監測和部署 缺點:一定不能有缺失數據;必須是數值型特征,需要編碼;準確度不高 2、決策樹 優點:對數據質量要求不高,易解釋 缺點:準確度不高 3、其他元模型 4、組合模型 優點:準確度高,穩定性強,泛化能力強,不易過擬合 缺點:不易解釋,部署困難,計算量大
4、模型評估模型評估的常用方法? 從三方面回答: 1、區分度:主要有KS和GINI指標,理解KS的定義及用法 2、準確性:主要有roc曲線和AUC指標,理解AUC的定義及用法 3、穩定性:主要有PSI指標,理解PSI的定義及用法
auc和ks的關系? 有人說auc是衡量整個模型的排序能力,KS是衡量某個分段的區分能力。
5、模型部署模型的部署上線應用類似的問題,偏開發,分析人員可能不太擅長。主要就是api接口安裝、測試、等級劃分、額度設計、風險定價、ABtest的設計等等。
6、模型監測上述一些運營數據和風控指標的關注
三 寫在后邊
在全世界,分析能力都有同質化的趨勢——大量的技術已經進入這個領域,壁壘幾乎已經沒了。長期、可持續的優勢,來自企業擁有的人才和你手里的數據。
總體而言,中國的金融科技市場是全世界最先進的,而且領先了很多。不過,在一個領域,中國的進步沒有世界上其他國家大,那就是綜合數據分析領域。如何更明智地使用數據,是全世界留給中國人的機會。關于學什么這件事情。原本一直非常猶豫要不要學習編程,現在非常明確了,這件事最好的開始時間是大學,其次是現在,而且必須是直接掌握最先進的編程語言,主攻數據挖掘和數據分析的方向,并與這方面的專業人士建立鏈接。 ——北大經濟學博士 香帥老師
風險管理絕不只是數據、模型,它是產品、流程和分析的有效結合。好的風險管理能真正理解流程,真正進入流程、著眼于流程。它能理解產品,理解客戶和競爭對手的意圖,然后將數據和分析與之結合。 ——數據驅動風險分析之父 阿什·古普塔
別怕,難者不會,會者不難,稀缺意味著價值。每當堅持不下去的時候,回頭看看你自己走過的那段路,雖然曲折,但異彩紛呈,關鍵還有這么一群可愛又努力的人陪著。
總結經驗,昂首闊步,心里裝著善良和堅強,到哪都會散發光芒。
我是正陽, 很高興能通過文字認識你,點個關注,后會有期。
微信公眾號:正陽能量場
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的风控建模 python 知乎_风控建模基本要求及面试问题小结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: notepad++ vim插件_是时候摒
- 下一篇: 干生蚝的功效与作用、禁忌和食用方法