日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

量化派基于Hadoop、Spark、Storm的大数据风控架构--转

發布時間:2025/4/5 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 量化派基于Hadoop、Spark、Storm的大数据风控架构--转 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文地址:http://www.csdn.net/article/2015-10-06/2825849

量化派是一家金融大數據公司,為金融機構提供數據服務和技術支持,也通過旗下產品“信用錢包”幫助個人用戶展示經濟財務等狀況,撮合金融機構為用戶提供最優質的貸款服務。金融的本質是風險和流動性,但是目前中國對于個人方面的征信行業發展落后于歐美國家,個人消費金融的需求沒有得到很好的滿足。按照央行最新數據,目前央行征信中心的數據覆蓋人口達到8億人[1],但其中有實際征信記錄的只有3億人左右,有5億人在征信系統中只是一個身份證號碼。此外,我國還有5億人跟銀行從來沒有信貸交易關系,這5億人對金融部門來說是陌生人。這樣算下來,有征信記錄的人只占到全國人口數的23.7%,遠低于美國征信體系對人口的85%的覆蓋率。如何在信用記錄缺失的情況下,做好多個人用戶的風險定價,是個棘手的難題。量化派通過基于機器學習和互聯網化的風險定價,整合互聯網及傳統數據源,對個人在消費金融應用場景里的信用風險進行評估。這篇文章就主要介紹一下量化派的大數據平臺,以及機器學習在量化派的應用。

一、互聯網化的風控創新

量化派及“信用錢包”的核心任務是讓用戶可以憑借其良好的信用,而無需抵押或者擔保就可以貸款。也就是說,用戶僅憑信用即可開啟財富之門。為了達到這個目的,信用錢包需要把用戶個性化的需求與信貸產品信息精準匹配到一起。在幫助用戶找到合適自己的信貸產品的同時,也幫助信貸產品公司找到了最合適的貸款用戶,從而實現信貸消費者和信貸產品提供者的雙贏。為了確保貸款的高成功率,為了更好的掌握用戶需求以及對個人進行信用評級,我們需要大數據平臺的支持。?

目前,可以接入央行征信中心的金融機構僅僅只有銀行、持牌照的第三方征信服務商以及部分地區的小貸公司,絕大多數的P2P平臺還無法接入央行的征信數據,這無疑加大了P2P平臺的風控難度。在征信思路上,傳統征信是用昨天的信用記錄來判斷今天的信用價值,這未見得就是最合理的。在征信技術上,傳統的方法是從線下采集信用數據,效率比較低。可以說,傳統的線下征信技術限制了數據來源和信用評估思路,而互聯網的技術、工具和思維則具備了改變這一切的可能性。回歸到征信的本質,其實就在于解決兩方面問題:信用能力和信用意愿,換而言之,即解決個人的還款能力和還款意愿,再追根溯源一點,即解決壞賬和逾期兩個問題[2]。量化派公司基于大數據的用戶征信和傳統征信殊途同歸,所不同的是,傳統征信中,數據依賴于銀行信貸數據,而大數據征信的數據并不僅僅包括傳統的信貸數據,同時也包括了與消費者還款能力、還款意愿相關的一些描述性風險特征,這些相關性描述風險特征的抽取與篩選是量化派的技術核心。相比于傳統征信數據的強相關性,這些大數據征信的數據與消費者的信用狀況相關性較弱,量化派就利用大數據技術,通過用戶授權等方法搜集了更多的數據維度來加強這些弱相關數據的描述能力。這樣就使大數據征信不依賴于傳統信貸數據,就可以對傳統征信無法服務的人群進行征信,實現對整個消費者人群的覆蓋[3]。我們的數據來源如下圖所示:?

?

?
圖一?量化派的數據來源?

二、量化派的大數據平臺架構

量化派的信用錢包每天都會獲取大量的用戶的注冊信息等結構化數據以及爬蟲抓取的非結構化數據,還有第三方的接入數據,系統運行產生的日志數據等等,數據的形式多種多樣,如何保護好、利用好這些數據,是公司重中之重的任務。量化派的業務也決定了公司是數據驅動型的。為了更好的滿足公司日益增長變化的業務,在大數據平臺建設中全面擁抱開源的基礎上,進行了不停迭代設計,對數據平臺中采用的開源軟件進行了深度應用開發,同時還開發了很多契合業務需求的工具軟件,很好的支撐我們去實現普惠金融的理想。量化派公司的數據平臺架構如圖二所示。

?

?
圖二?量化派的數據平臺架構

相比我國的網民數量,信貸用戶只占其中的一小部分,所以我司產品的用戶基數并不是非常大,但是,為了給信貸用戶更準確的信用評級,對于每個信貸用戶我們都會從多個渠道獲取大量的有效數據,這些數據聚合起來也是海量數據規模。公司發展伊始,幾乎將所有的數據都存放在Mysql關系數據庫中,工程師使用標準SQL語句來存儲或者調用數據資源。Mysql很快就遇到了性能瓶頸,雖然可以通過不停地優化整個Mysql集群以應對數據的快速增長,但是面對復雜的數據業務需求,Mysql顯然無法提供最優的解決方案。所以我司最終決定將數據遷移到大數據平臺上,Mysql僅用來存儲需要經常變化的狀態類數據。除了系統運行日志直接存放在HDFS之中,大量的數據利用HBase來進行管理。HBase中的數據按照不同的數據源存放在不同的表中,每張表按照業務和存儲需求對rowkey進行精心設計,確保海量數據中查詢所需數據毫秒級返回。

根據業務的不同特點,對于常規的數據ETL處理,我們使用MapReduce[4]框架來完成;BI和數據挖掘這些工作都放到了Spark[5]上。這樣一來,依賴不同任務或不同計算框架間的數據共享情況在所難免,例如Spark的分屬不同Stage的兩個任務,或Spark與MapReduce框架的數據交互。在這種情況下,一般就需要通過磁盤來完成數據交換,而這通常是效率很低的。為了解決這個問題,我們引入了Tachyon[6]中間層,數據交換實際上在內存中進行了。而且,使用了Tachyon之后還解決了Spark任務進程崩潰后就要丟失進程中的所有數據的問題,因為此時數據都在Tachyon里面了,從而進一步提升了Spark的性能。Tachyon自身也具有較強的容錯性,Tachyon集群的master通過ZooKeeper[7]來管理,down機時會自動選舉出新的leader,并且worker會自動連接到新的leader上。

多維度的征信大數據可以使得量化派可以融合多源信息,采用了先進機器學習的預測模型和集成學習的策略,進行大數據挖掘。不完全依賴于傳統的征信體系,即可對個人消費者從不同的角度進行描述和進一步深入地量化信用評估。公司開發了多個基于機器學習的分析模型,對每位信貸申請人的數千條數據信息進行分析,并得出數萬個可對其行為做出測量的指標,這些都在數秒之內完成。

三、不同場景的機器學習方法

上部分說到量化派首先需要對用戶進行信用風險的評估,為了讓用戶可以僅憑信用,而無需抵押和擔保就可貸款成功。美國有著很完善的征信體系,以及成熟的信用評估系統。通過幾十年的發展,美國的三大征信局[8]對85%的公民有著詳細的信用記錄:包括信用卡,房貸,以往的住址,工作等情況都有記錄在案。而且在找工作,租房時候也會查詢個人信用記錄,如果有違約等不良行為也會反饋給征信局。Fair?Issac公司的FICO評分是業界應用最為廣泛的評分,是建立在詳細的個人征信記錄上的預測系統。FICO從最開始的用圖表畫出的評分,到后來演化為logistic?regression類的回歸算法,用來預測用戶在未來一段時間內違約的可能性。近年來,在predictive?analytics?方面的發展,deep?learning?在supervised?learning里面得到了廣泛應用。

中國由于在征信方面的數據缺失,需要通過更為自由的模式來創新和跨越式發展。宜信[9]作為國內最大的p2p機構,擁有多年的業務積累,以及一流的風控團隊。傳統上是通過線下風控的手段,對用戶進行詳盡的背景調查。收集用戶的資料例如他們有的曾提交過信用報告、聯系人信息、教育水平、工資單、銀行流水等一系列傳統征信數據。這樣的貸款審核流程耗時較長,貸款申請人往往需要少則幾天,多則數月的等待。時間成本過大,流程繁瑣,是用戶痛點所在,造成了潛在貸款用戶的大量流失。提高審核效率,優化貸款流程,把申請人貸款體驗做到極致,最終做到極速放貸是大勢所趨。到目前,宜信也開始從傳統的線下業務,開始往線上做業務拓展,宜信的瞬時貸通過大數據進行實時授信,用戶授權系統讀取信用卡賬單郵箱、電商、運營商相關記錄信息,得到有關你性格、消費偏好的個人畫像。同時進行交叉驗證形成風控機制,進而計算出每一個用戶的風險評分,最終判斷是否應該放款,以及該用戶的授信額度、?還款周期等并最快達到10分鐘放款。另外,螞蟻金服的芝麻信用[10],根據個人淘寶、支付寶等交易數據以及其他授權數據,對個人進行信用評分。芝麻信用綜合考慮了個人用戶的信用歷史,行為偏好,履約能力,身份特質,人脈關系等五個緯度的信息得出的。于此同時,騰訊系的騰訊征信都會考慮到一些信貸之外的一些信息。除了微信支付、QQ錢包綁定的銀行卡外,騰訊還能夠從更大范圍獲取數據,比如很多銀行都在微信上開通了公眾號,向用戶發送消費數據;微信的社交狀況也能夠對個人的資質進行有效的評估。

量化派對用戶的信息整合也包括了用戶的社交信息,不光包含了用戶的畫像?(性別、職業、愛好等等),也包含了用戶之間的關系。如果說每個人是圖中的一個節點,那么人與環境所形成的關系就是兩點間的線。當把“點和線”綜合起來分析時,我們對個人的性格特征、信用狀況、財富屬性都會有更深層、更全面的理解。Google?的?PageRank?算法考慮到了web頁面的相關性來提高頁面的質量,例如權重高的頁面指向鏈接的頁面對應的權重相對來說會比較高。類似來說,信貸風險低的用戶的常用聯系人的小圈子,個人資質的也應該是比較好的。

另一個方面,“信用錢包”需要把用戶個性化的需求與信貸產品信息精準匹配到一起。幫助用戶找到合適自己的信貸產品,實現信貸消費者和信貸產品提供者的雙贏。我們對信貸產品向用戶做了基于協同過濾的和基于產品信息匹配的推薦。在對用戶做了較為準確的信用評價之后,我們的分發平臺(如圖三所示)會根據貸款用戶的貸款需求來分派給相應的貸款產品,這樣就出現了一個客戶面對多款信貸產品的情況。我們會根據批貸額度、貸款利率、承諾放款速度等因素在多個信貸產品中選出最適合用戶的產品。?

?

?
圖三?分單平臺系統

四、美國的風控系統案例

打造一流的風控系統不是光靠數據分析師團隊能夠做到的,整個風控是需要在公司的DNA里面。美國的Capital?One是最早利用大數據分析來判斷個人借款還款概率的公司,本文的作者都曾經在Capital?One?工作過,并在金融危機發生的時候也在那邊,目睹了他是如何發展壯大成第五大銀行的。在危機開始的時候,非常果斷的把有潛在問題的GreenPoint?Mortgage整體出售,并在危機發生的時候,謹慎挑戰風險政策來控制風險,并在危機發生的時候以非常低廉的價格收購華盛頓地區的Chevy?Chase?銀行,?ING?Direct,?HSBC?Card北美分部。并完善其Local?Banking,?Global?Lending的策略。

Capital?One的風控系統是通過多年的積累和演變而形成的。Capital?One?的?Analytics?部門里面分為幾個種類,Data?Analyst,?Business?Analyst,?Statistician/Modeler.?不僅僅是分析師專注的做模型,做風控來對模型進行大數據分析。所有的決策者,包括商務的總監,運營副總等,所有的決策都會有大量的數據分析,模型策略做支撐。

Capital?One在各個業務部門都有很多的決策引擎和模型來支撐。在獲取用戶時,根據不同的業務線prime,?subprime,?汽車金融等,有專門的?customer?model,risk?model等。在用戶關系管理方面,有cross-sell?model,?customer?contact?model等。除此還有專門的反欺詐模型,包含identify-fraud?model,?payment?fraud?model等等。不同的業務線有著這么多種類的模型,對于這些模型的監管也都是有一套系統的流程的。對于每個模型,模型開發人員會對模型開發寫出詳細的文檔,有著一套類似于code?review,?unit?test的檢驗機制。公司層面,部門設有專門的中高級別scoring?officer?(模型官),?負責定期對模型進行監管和監測。除了對于整體模型的效果的監管,整體評分的分布的穩定性;還包括在變量層面的監管,監測模型的重要變量的穩定性。?Capital?One?用到的大量征信局的數據和在自身平臺上沉淀的用戶數據,根據以往的用戶的個人行為和違約記錄,建立的用戶風險決策模型對用戶進行評估,模型的效果會比FICO分數高40%以上。

面向個人消費的風控體系的搭建是一個長期的,系統的工程。在中國目前的市場情況,缺失的個人信用風險和高速發展的互聯網金融,以及未被滿足的普惠金融需求是十分矛盾的。移動互聯網時代的到來,對個人風險評估帶來了嶄新的視角。大數據平臺和機器學習的結合能夠帶來多樣化的創新,量化派的使命就是通過這兩者的結合來服務互聯網金融機構,降低全行業的風險。

?

  • 王瑩,“央行征信數據單薄?難解P2P風控之渴”,第一財經日報,2014年09月24號
  • 劉新海,丁偉,“大數據征信應用與啟示-以美國互聯網金融公司ZestFinance為例”,清華金融評論,2014年10
  • 楊萬國,“量化派:讓吊絲一分鐘貸10萬”,新京報,2015年1月29日
  • The?Apache?Software?Foundation,??http://hadoop.apache.org
  • ?UC?Berkeley?AMP?Lab,??http://www.tachyon-project.org/index.html
  • ?UC?Berkeley?research?project,??http://spark.apache.org/document-ation.html
  • The?Apache?Software?Foundation,??http://zookeeper.apache.org
  • ?杜淼淼,“美國個人信用評分系統及其啟示”,南方金融,2008年8期
  • ?張小沛,“宜信大數據-大數據金融怎么做”,創業邦,2014年5月
  • ?祝劍禾,馬文婷,“螞蟻金服開評草根信用”,京華時報,2015年1月?
  • ?

    關于作者:王倪,量化派聯合創始人;于博,量化派大數據架構師 。

    轉載于:https://www.cnblogs.com/davidwang456/p/6296653.html

    總結

    以上是生活随笔為你收集整理的量化派基于Hadoop、Spark、Storm的大数据风控架构--转的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 成人精品视频一区二区 | 国产精品国语自产拍在线观看 | 欧美亚洲色综久久精品国产 | 调教驯服丰满美艳麻麻在线视频 | 色5月婷婷 | 一级片一级 | 歪歪视频在线观看 | 青青青手机视频在线观看 | 国产91在线视频 | 爱操av| 天天综合网久久综合网 | 美女被捅个不停 | 午夜精品一区二区三区在线播放 | 狠狠躁夜夜躁av无码中文幕 | 蜜桃av一区二区 | 中文字幕电影av | 久久久五月天 | 男裸体无遮挡网站 | 国产精品4区 | 国产麻豆精品在线观看 | 香蕉国产精品视频 | 丰满熟女人妻一区二区三 | 国产精品ⅴa有声小说 | 看片日韩| 深夜免费福利 | 青草热视频 | 色天使在线视频 | 91九色网站 | 久久99久久99精品免观看软件 | 少妇脱了内裤让我添 | 日韩一区二区三免费高清在线观看 | 超碰av免费 | 亚洲 欧美 中文字幕 | 99国产精品久久久久久久成人热 | 91爽爽| 蜜臀av一区二区三区有限公司 | 69堂视频 | 日韩人妻无码精品久久免费 | 成人黄色免费观看 | 日韩欧美一二三四区 | 黄色a级在线观看 | 亚洲高潮无码久久 | 蜜桃成人av | 九九影院最新理论片 | 在线观看二区 | 又黄又色又爽 | 99热热热热 | 91小视频在线 | 99999视频| 91影音| 黄黄视频在线观看 | 久久久美女视频 | 色在线视频观看 | 日韩成人免费在线观看 | 精品午夜一区二区 | 成人黄色动漫在线观看 | 国产乱欲视频 | 在线观视频免费观看 | 国产欧美一区二区三区视频 | 精品国内自产拍在线观看视频 | 亚洲无打码 | 北岛玲av| 免费黄色在线看 | 精品一区二区三区在线视频 | 欧美另类精品 | 久久久穴 | 丰满双乳秘书被老板狂揉捏 | 在线视频综合网 | v天堂中文在线 | 精品久久久久久久久久久久久久久久久 | 色妞在线| 黄色网页在线看 | 69精品人妻一区二区三区 | 久久1024| 91视频在线免费看 | 国产男男gay体育生网站 | 一本大道东京热无码aⅴ | 欧美极品少妇 | 欧美日韩亚洲不卡 | 哪里可以看免费毛片 | 黑人巨大猛烈捣出白浆 | av在线地址 | 欧美成人一级 | 国产高潮呻吟久久 | 日本一区二区在线看 | 久久精品人妻av一区二区三区 | 成人自拍视频在线 | 国产福利小视频在线观看 | 欧美一级黄视频 | 日韩天堂| 91重口味 | 久久都是精品 | 国产乱淫av片 | 91精品国产一区二区三区香蕉 | 国产精品果冻传媒潘 | 91草视频 | 国产成人精品一区二区三区四区 | 久操不卡 | 毛片网在线观看 |