“刺激的”2017双11 阿里安全工程师首度揭秘智能风控平台MTEE3
摘要: “太刺激了,太刺激了!如果那個48%真出問題,整個安全部的雙11就可能是3.25!”
“太刺激了,太刺激了!如果那個48%真出問題,整個安全部的雙11就可能是3.25!”知命推了推眼鏡,語速明顯快了一些。伴隨著肢體語言,知命表現出來的是程序員解除了重大Bug時的那種興奮與激動。
用這部IMDB評分最高的電影向阿里安全的工程師致敬
MTEE3是什么?那個48%又是什么鬼?
知命,阿里安全業務安全產品技術高級專家,智能風控平臺MTEE3的技術負責人。這一切,他向我們和盤托出。
MTEE3,性能、智能雙重加持
MTEE3的中文名稱叫業務安全智能風控平臺,最后面的3代表這是全新一代的3.0系統。這套系統的功用是為阿里經濟體的各類核心業務提供賬號安全、黃牛刷單、活動反作弊、內容安全、人機識別等幾十種風險的防護與保障。據悉,在2017天貓雙11當天,MTEE3處理了超過300億次的業務風險掃描,掃描峰值超過200萬次/秒,這組數據在全球來看也是獨一無二的,同時也證明了系統的性能非常強悍。
為了便于我們更了解,知命先做了業務安全的概念普及。
“MTEE3是業務層的安全防控平臺。”知命向筆者解釋道。據知命介紹,從業務層來看,傳統的安全威脅,如盜號、垃圾賬號(通過機器批量申請的帳號)等,對于網站的正常運營是有影響的。黑灰產利用這些賬號來搶紅包、薅羊毛。
“防羊毛黨,我們叫營銷反作弊;還有就是黃牛黨,我們的平臺有很多熱銷產品,比如酒水、手機等;還有識別機器行為的人機防控;還有就是內容方面的防控。這些都是在網絡層以上的,我們叫業務安全。”知命說。
據介紹,阿里的業務安全,基于大數據實時分析建模技術,通過每個用戶行為背后數千個數據指標的實時計算,利用規則引擎、模型引擎、關系網絡、團伙分析、設備畫像、語義分析、機器視覺等技術對風險進行快速有效的防控,而運行的平臺就叫MTEE3。MTEE3上部署了大量的規則和模型,為阿里經濟體多個業務提供防護。“我們將用戶的行為稱為‘事件’,比如用戶的注冊、登錄、修改基礎信息、聊天、下單、支付、發貨、收貨、評價等等,每個行為點上我們都會去進行防控。”知命告訴筆者,正是因為進行全鏈路的防控,所以MTEE3能夠“輕易地”識別出惡意賬號等。
MTEE3的“輕易地”還包含了其毫秒級的響應能力,今年雙11,MTEE3將下單環節的風險掃描控制在10毫秒左右,用戶幾乎無感知。
綜上所述,MTEE3的性能是非常強大的,但除此之外,它還具備了智能的特性。對此,知命也進行了詳細的解釋。
對于正常的用戶、機器賬號,抑或是黃牛,MTEE3會分析很多的變量(指標),然后綜合進行判斷。這些變量有多個維度,這些維度包括有賬號、設備、環境、內容以及用戶的行為等。
“MTEE3對這些信息進行實時的計算和分析,而且這個過程需要在極短的時間內完成。”知命說。
知命表示,MTEE3都是基于信息流的計算,它并不是將所有的數據保存下來,然后再通過數據庫去查詢,因為這樣效率會非常低。阿里安全的工程師賦予MTEE3的是一邊計算一邊存儲的模式,經過計算后,得出結論,然后將結果返回給交易,最后再存下來。“MTEE3其實具備的是流式計算的能力。”知命說。
知命告訴筆者,基于規則和模型的安全防控,基本上歷年都在用。而今年安全策略中心團隊在雙11智能化上的突破,是全新啟用了決策天平,利用機器學習算法進行智能化決策,并在雙11中使用,首戰告捷。決策天平綜合考慮風險防控、用戶體驗、商業考量等多方面因素,利用全局尋優算法計算當前最優解,并考慮到風險分布的變化,利用強化學習對最優解進行修正,產出下一時刻的風險處置決策,通過系統自動化執行決策,同時利用實時計算做到了秒級的決策方案更新。決策天平打造了未來風控模式的雛形。
“刺激的”2017雙11
對于知命和他的團隊來說,2017年的雙11是相當“刺激”的。
首先,他們要解決性能的問題。如果只是簡單地疊加資源,比如增加服務器數量,這個問題看上去似乎也不是那么的難。然而,事實卻是,知命面對的是資源的增長只有那么一點點,但要求的指標,比如交易峰值,卻是要比去年雙11翻倍。
這個問題怎么解?
阿里安全的工程師對計算引擎進行了完全重寫方式的改造,目的就是讓它算得更快,性能提升100%有余;同時,對策略體系的部署進行優化;而與其他安全防護層,比如網絡層,進行實時聯動,提升整體的效率。
另外,2017雙11,安全策略中心團隊和產品技術團隊一起針對策略體系也進行了重構改造,建立起層次化、體系化的策略架構,去除策略孤島,規則和機器學習模型有機組合,筑起全新的防控大壩,提升對風險的覆蓋率和精準度。
知命告訴筆者,由于補貼方案到最后兩天都還會有變更,因此相應的策略、模型和規則等都會產生實時的變化,同時,黑產從哪里來,這個也無法確定。這三方面的“不確定”,讓阿里安全的技術團隊承受著極大的壓力。
然而,知命和他的團隊還是提出了解決方案。“由于這些不確定性,所以我們今年決定要容忍一些變化。特別是計算引擎,我們希望在策略變化的前提下,系統的性能是能保證的,資源消耗要在同一量級,而不是說線性增長。”知命說。據介紹,MTEE3項目團隊做了相當多的工作,比如,將規則引擎、模型引擎進行重構改造,特別是規則引擎全部重寫。經過改造之后,MTEE3的性能成倍增長。
“我們做這個項目,雙11是個重要的節點,但并不是只為了它,更是要為未來做準備,是為了策略的重構做升級。計算引擎一直在運行,運行過程中進行升級,相當于是給飛行中的飛機換引擎,這是相當大的挑戰。”知命說。
實際上,MTEE3是2017年3月份才上線的。但是,到618的時候并沒有被應用,而99酒水節才是真正意義上的實戰檢驗。而這次之后,就是雙11了。
我們非常好奇,雙11前夕,知命和他的團隊是怎樣的狀態和節奏?
11月8日,MTEE3接到最后一個需求變更。這個時間點,原本是不再允許接受新的需求變更了,但經過各個Leader的綜合判斷,這個變更必須進行。
11月9日晚上十點的時候,知命和小伙伴們還在反復地測試MTEE3。到了11月10日早上七點,反復測試多輪,所有功能點終于全部驗證完畢。
一切看上去似乎風平浪靜。
然而,早11月10日零點的時候,又發現了一個“大問題”。“安全策略工程師發現:下單場景下,安全防控策略存在48%的防控攔截失敗?最大的挑戰在于阿里安全的工程師不確定究竟是所有策略出了問題,還是只有一條策略是這樣。但此時,距離2017雙11已經不足24小時。”知命說。
“本來大戰前1天是希望大家休息一下了,但還是趕緊把所有人叫起,排查這個問題。”知命說,“最后搞到11月10日凌晨三點多,幸好最終查證是虛驚一場。這個是真的非常刺激!”
MTEE3保護著上億的資金,如果雙11當天,這48%攔截失敗,后果無法想象。“今年跟以前不一樣,今年是前期的準備壓力特別大。特別是那個48%,太刺激了,太刺激了。如果這個沒防住,整個安全部的雙11就可能是3.25!”知命說。
直到11月10日晚上,知命還在和策略中心團隊對焦重點防控人群的問題,而最終敲定具體的策略已經是當晚八點多鐘。
但真正到了11月11日零點的時候,負責MTEE3系統的工程師反而放松下來。“去年,我們整整待了36個小時,加上跨境,一共是38個小時。今年,待到晚上2點多,很多同學就已經可以回去睡覺了。”知命淡淡地說到。
作者:華蒙
總結
以上是生活随笔為你收集整理的“刺激的”2017双11 阿里安全工程师首度揭秘智能风控平台MTEE3的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Redis 究竟适不适合当队列来用?
- 下一篇: 匿名提问:rm -rf了怎么办?