日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

听一听蚂蚁金服机器学习算法中台周俊谈共享智能技术实践:如何降低数据共享的难度?

發布時間:2024/2/28 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 听一听蚂蚁金服机器学习算法中台周俊谈共享智能技术实践:如何降低数据共享的难度? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?

人工智能目前存在的難題是魚與熊掌不可兼得,也就是隱私性跟可用性難以兼顧。如果想要 AI 系統發揮作用,就可能需要犧牲隱私。但是,在大量真實場景中,如果做不到同時兼顧隱私和可用性,會導致很多 AI 落地的困境。

隨著對數據安全和重視和隱私保護法案的出臺,曾經粗放式的數據共享受到挑戰,各個數據擁有者重新回到數據孤島的狀態。同時,互聯網公司也更加難以收集和利用用戶的隱私數據,數據孤島反而成為了常態。如果希望更好的利用數據,就必須在滿足隱私保護和數據安全的前提下,在不同的組織、公司與用戶之間進行數據共享。

為了解決這一問題,國內外不少科技公司先后推出了解決方案,比如谷歌推出的聯邦學習、螞蟻金服提出的共享智能等。本文,InfoQ 對螞蟻金服機器學習算法中臺負責人周俊進行了采訪,了解共享智能如何解決金融領域的數據共享問題。

共享智能與聯邦學習的區別

在介紹技術實踐之前,我們需要花些時間厘清共享智能與聯邦學習之間的區別,以方便讀者了解本文的討論范圍。

當前,業界解決隱私泄露和數據濫用的數據共享技術路線主要有兩條。一條是基于硬件可信執行環境(TEE:Trusted Execution Environment)技術的可信計算,另一條是基于密碼學的多方安全計算(MPC:Multi-party Computation)。

TEE 字面意思是可信執行環境,核心概念為以第三方硬件為載體,數據在由硬件創建的可信執行環境中進行共享。目前在生產環境可用的 TEE 技術,比較成熟的基本只有 Intel 的 SGX 技術,基于 SGX 技術的各種應用也是目前業界的熱門方向,微軟、谷歌等公司在這個方向上都有所投入。

MPC(Multi-party Computation,多方安全計算)一直是學術界比較火的話題,但在工業界的存在感較弱,之前都是一些創業小公司在這個方向上有一些探索,例如 Sharemind,Privitar,直到谷歌提出了基于 MPC 的在個人終端設備的“聯邦學習”(Federated Learning)的概念,使得 MPC 技術一夜之間在工業界火了起來。

當前,業界針對數據共享場景,利用如上技術路線推出了一些解決方案,包括隱私保護機器學習 PPML、聯邦學習、競合學習、可信機器學習等,不同解決方案采用的技術路線相互也會有一些重疊。周俊表示,螞蟻金服提出的共享智能(又稱:共享機器學習)結合了 TEE 與 MPC 兩條路線,同時結合螞蟻的自身業務場景特性,聚焦于金融行業的應用。

簡單來說,共享智能的概念,或者說理念,是希望在多方參與且各數據提供方與平臺方互不信任的場景下,能夠聚合多方信息進行分析和機器學習,并確保各參與方的隱私不被泄漏,信息不被濫用。

關于共享智能與聯邦學習的差異,周俊表示,目前,聯邦學習涉及兩個不同的概念:

第一種是谷歌提出的聯邦學習,旨在解決云 + 端訓練過程中,端上隱私不暴露的問題,這是一個 To C + 數據水平切分的場景。除了保護端上的數據隱私外,其重點還在于如何解決訓練過程中,端自身可能掉線等問題。

第二種是國內提出的聯邦學習,主要用于解決 To B 場景中各方隱私不泄露的問題,既可應用于數據的水平切分場景,也可應用于數據垂直切分的場景。它們側重于不同的數據共享場景,技術上有不同的側重點。

2019 年,一篇由多個知名大學和企業撰寫的關于聯邦學習的綜述文章《Advances and Open Problems in Federated Learning》,對聯邦學習的定義和描述是比較清晰的。首先,聯邦學習的架構是由一臺中心服務器和多個計算節點構成,中心服務器會參與到整個計算過程,因此不適用于一些不需要中心服務器節點的應用場景(文章中將這種模式稱為 Fully Decentralized Distributed Learning )。此外,聯邦學習要求原始數據不能出域,這也限制了其可以使用的技術方案,而共享智能是從問題出發,作為一個新興的技術領域,在面臨當前各種復雜場景的時候,很難用一套技術方案去解決所有問題,因此共享智能的解決方案中不僅包含有類似聯邦學習的有中心服務器參與計算的模式,也包含完全去中心化的方案,還有基于 TEE 的共享學習方案。

在不同的場景下,不同的方案各有優劣。周俊表示,目前,數據共享下的機器學習仍然還有很多待突破的地方,我們并不糾結于解決問題的是聯邦學習還是去中心化的分布式學習,或者是其它任何技術方案,最終還是希望大家能夠合力解決這個業界難題。

螞蟻金服共享智能應用實踐

2016 年開始,螞蟻金服就開始投入到共享智能的研究中,出發點是為了解決業務中遇到的問題,比如機構與螞蟻金服的信息協同問題。基于此,螞蟻金服調研了差分隱私、矩陣變換等多種方案,確定了目前的技術大方向。

縱觀整個研發階段,周俊認為大致可以分為探索期、技術攻堅和技術應用三個時期。

  • 探索期:對業界相關技術進行全面摸底,并設計了上百個方案,逐一驗證可行性,并在真實場景反復錘煉技術,實現從 0 到 1 的突破;

  • 技術攻堅期,經過前面的摸索,確定了幾個可能適用于工業界的方案,進一步在大規模工業場景下,對這些方案的安全性和性能等逐一優化提升;

  • 技術應用期,開始大規模在真實業務場景中應用,直面業務需求,進一步淬煉技術,接受市場檢驗。

在共享智能的技術細節上,周俊表示,可以按照 TEE 和 MPC 兩條路線來理解。

基于 TEE 的共享學習

螞蟻共享學習底層使用 Intel 的 SGX 技術,并可兼容其它 TEE 實現。下面著重介紹一下基于 TEE 的共享學習中的一種數據加密出域的方案,目前,這種方案已支持集群化的模型在線預測和離線訓練。

1. 模型在線預測

預測通常是在線服務。相對于離線訓練,在線預測在算法復雜度上面會相對簡單,但是對穩定性的要求會更高。提升在線服務穩定性的關健技術之一就是集群化的實現——通過集群化解決負載均衡,故障轉移,動態擴容等穩定性問題。

但由于 SGX 技術本身的特殊性,傳統的集群化方案在 SGX 上無法工作。

為此,螞蟻金服設計了如下分布式在線服務基本框架:

該框架與傳統分布式框架不同的地方在于,每個服務啟動時會到集群管理中心(ClusterManager,簡稱 CM)進行注冊,并維持心跳,CM 發現有多個代碼相同的 Enclave 進行了注冊后,會通知這些 Enclave 進行密鑰同步,Enclave 收到通知后,會通過遠程認證相互確認身份。當確認彼此的 Enclave 簽名完全相同時,會通過安全通道協商并同步密鑰。

2. 模型離線訓練

模型訓練階段,除了基于自研的訓練框架支持了 LR 和 GBDT 的訓練外,螞蟻金服還借助于 LibOS Occlum(螞蟻主導開發,已開源)和自研的分布式組網系統,成功將原生 Xgboost 移植到 SGX 內,并支持多方數據融合和分布式訓練。通過上述方案,不僅可以減少大量的重復性開發工作,并且在 Xgboost 社區有了新的功能更新后,可以在 SGX 內直接復用新功能,無需額外開發。目前,螞蟻金服正在利用這套方案進行 TensorFlow 框架的遷移。

此外,針對 SGX 當下詬病的 128M 內存限制問題(超過 128M 會觸發換頁操作,導致性能大幅下降),螞蟻金服通過算法優化和分布式化等技術,大大降低內存限制對性能的影響。

上述方案在多方數據共享學習訓練流程如下:

  • 機構用戶從 Data Lab 下載加密工具

  • 使用加密工具對數據進行加密,加密工具內嵌了 RA 流程,確保加密信息只會在指定的 Enclave 中被解密

  • 用戶把加密數據上傳到云端存儲

  • 用戶在 Data Lab 的訓練平臺進行訓練任務的構建

  • 訓練平臺將訓練任務下發到訓練引擎

  • 訓練引擎啟動訓練相關的 Enclave,并從云端存儲讀取加密數據完成指定的訓練任務。

  • 此外,針對有一些數據提供方不希望數據出域的場景,螞蟻還提供了使用 TEE 對訓練過程中的參數信息進行加密的技術方案,篇幅原因,就不在這里展開了。

    基于 MPC 的共享學習

    螞蟻基于 MPC 的共享學習框架分為三層:

    • 安全技術層:安全技術層提供基礎的安全技術實現,比如在前面提到的秘密分享、同態加密、混淆電路,另外還有一些跟安全密切相關的,例如差分隱私技術、DH 算法等;

    • 基礎算子層:在安全技術層基礎上,螞蟻金服會做一些基礎算子的封裝,包括多方數據安全求交、矩陣加法、矩陣乘法,以及在多方場景下,計算 sigmoid 函數、ReLU 函數等;同一個算子可能會有多種實現方案,用以適應不同的場景需求,同時保持接口一致;

    • 安全機器學習算法:有了基礎算子,就可以很方便的進行安全機器學習算法的開發,這里的技術難點在于,如何盡量復用已有算法和已有框架,螞蟻金服在這里做了一些有益的嘗試,但也遇到了很大的挑戰。

    目前,這套基于 MPC 的共享學習框架已支持了包括 LR、GBDT、DNN 等頭部算法,后續一方面會繼續根據業務需求補充更多的算法,同時也會為各種算子提供更多的技術實現方案,以應對不同的業務場景。

    基于 MPC 的多方數據共享學習訓練流程如下:

  • 機構用戶從 Data Lab 下載訓練服務并本地部署

  • 用戶在 Data Lab 的訓練平臺上進行訓練任務的構建

  • 訓練平臺將訓練任務下發給訓練引擎

  • 訓練引擎將任務下發給機構端的訓練服務器 Worker

  • Worker 加載本地數據

  • Worker 之間根據下發的訓練任務,通過多方安全協議交互完成訓練任務

  • 訓練引擎的具體架構如下:

    其中 Coordinator 部署于螞蟻平臺,用于任務的控制和協調,本身并不參與實際運算。Worker 部署在參與多方安全計算的機構,基于安全多方協議進行實際的交互計算。

    用戶在建模平臺構建好的訓練任務流會下發給 Coordinator 的 Task Flow Manager,Task Flow Manager 會把任務進行拆解,通過 Task Manager 把具體算法下發給 Worker 端的 Task Executor,Task Executor 根據算法圖調用 Worker 上的安全算子完成實際的運算。

    利用這套方法,可以做到數據不出域就可以完成數據共享,訓練工具可以部署在本地的服務器。

    對金融領域的重要意義

    無論是聯邦學習還是共享智能,很多技術實踐都優先選擇了在金融領域落地。相較于其他領域,金融領域對數據的管控更為嚴格,對數據隱私更加重視,因此也是最需要通過技術手段解決數據孤島問題的領域。

    周俊表示,在金融領域,共享智能側重在解決“開放”這個大領域中的問題,比如聯合營銷、聯合風控等,這兩個場景相對更容易看到具體實施效果。相比其他領域,金融領域對數據保護看的更重,數據的流轉在該領域中更難,因此采用共享智能技術,可以做到更好的隱私保護,實現數據可用不可見,是一個關鍵的助推器。

    舉例來說,通過數據融合,螞蟻金服的共享智能幫助中和農信大幅度提高了風控性能,把原來傳統的線下模式,變成線上自動過審模式,完成授信只需 5 分鐘,8 個月累計放款 31.9 億,授信成功人數 44 萬人,業務覆蓋 20 多個省區,300 多縣城,10000 多個鄉村。

    企業落地難,如何解決?

    雖然該技術的落地對金融企業有著重要意義,但很多公司在實際的落地過程中遇到了問題,可能是技術原因,也可能是處于對結果的擔憂。

    采訪中,周俊表示,共享智能技術屬于交叉領域,涉及到密碼學、機器學習等技術,有一定的門檻,企業部署這樣的技術,需要結合自身技術能力以及業務需求來綜合考量。當然,螞蟻金服也在積極探索降低企業落地門檻的技術和方案,隨著越來越多的企業一起參與進來,相信不遠的將來,共享智能的技術落地將不再會有太高的門檻。

    此外,螞蟻金服的共享智能是一個開放的生態,希望更多的企業能參與進來一起共建,而不需要重新再去走螞蟻金服之前走過的很多彎路。金融企業可以根據自身業務發展的需要,及時跟進業界最新進展,從而選擇更合適的技術和合作方來解決業務難題。能夠讓業務贏,解決業務痛點,是這里面最重要的因素。

    更為重要的是,共享智能解決的是信任問題,所以大規模落地的前提是用戶對共享智能有一個全面的認知和信任。螞蟻金服通過立標桿、推標準、定向開源等方式來逐步建立用戶對共享智能的信任。目前,螞蟻金服已經在智能信貸領域的多家機構落地了標桿型業務場景。同時,牽頭在推進共享智能的行業標準、聯盟標準、國家標準以及 IEEE、ITU-T 等國際標準。周俊表示,我們相信,隨著技術和用戶心智的同步發展,共享智能的大規模落地將會很快發生,而最先受益的,是數據驅動的、并且對隱私保護有強需求的金融科技和醫療科技行業。

    結束語

    面向未來,周俊表示,重點還是繼續推動全行業共同解決數據共享問題。螞蟻金服會逐步開放技術能力,賦能行業中有需求的企業,同時會聯合更多單位,包括研究機構、企業等共同推進解決技術難題。最終希望全行業能夠共同打造一個可以在保護用戶隱私和防止數據濫用的前提下實現數據互聯互通的共享智能網絡,更好的實現普惠金融。

    嘉賓 | 周俊

    作者 | 鈺瑩

    來源 | ai前線

    總結

    以上是生活随笔為你收集整理的听一听蚂蚁金服机器学习算法中台周俊谈共享智能技术实践:如何降低数据共享的难度?的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 欧美偷拍少妇精品一区 | 欧美成人a| 国产午夜精品理论片在线 | 黄色欧美在线 | 电影桑叶2在线播放完整版 222aaa | 亚洲影视一区 | 中文毛片 | 青青草久久久 | 在线黄视频 | 亚洲精品在线91 | 九九热中文字幕 | 黄色91免费| 五月激情视频 | 少妇极品熟妇人妻无码 | 日韩中文字幕免费视频 | 九月婷婷丁香 | 天堂网中文字幕 | 国产区在线观看视频 | 成人黄色电影网址 | 成人在线免费视频播放 | 国产高潮久久久 | 白浆影院 | 女人脱裤子让男人捅 | 国产又粗又猛又爽又黄的视频一 | 日韩 国产 | 调教丰满的已婚少妇在线观看 | 麻豆视频在线观看免费网站黄 | 日本视频色 | 在线播放精品视频 | 中文字幕在线播出 | 夜夜嗨av一区二区三区 | 丁香婷婷一区二区三区 | 成人综合激情网 | 国产精品国产三级国产传播 | 女女高潮h冰块play失禁百合 | 99久久婷婷国产综合精品电影 | 成年人爱爱视频 | 日韩福利一区二区三区 | 久热伊人 | 精品久久影视 | 精品一区二区欧美 | 18岁禁黄网站| 日韩中字在线 | 男人桶女人桶爽30分钟 | 亚洲69视频| 日韩三级黄色片 | 这里只有精品999 | 在线观看亚洲a | 男插女在线观看 | 国产精品一区二区久久久 | 国产福利资源在线 | 亚洲伦理在线视频 | 杨贵妃颤抖双乳呻吟求欢小说 | 午夜999| 刘亦菲久久免费一区二区 | 亚洲射色 | 色眯眯视频 | 美国毛片基地 | 亚洲人成电影一区二区在线 | 手机看片福利在线 | 双女主黄文 | 免费一级网站 | 午夜影院免费 | 日韩精品视频免费在线观看 | 手机在线一区二区三区 | 午夜影院在线观看视频 | 国产精品无码自拍 | 国产精品区一区二 | 中国美女洗澡免费看网站 | 91操人 | 一本之道高清无码视频 | 欧美性爱精品在线 | 亚洲av无码一区二区三区观看 | 亚洲欧美日韩国产 | 亚洲一区 中文字幕 | 国产欧美日韩综合精品一区二区 | 99视频只有精品 | 最新在线观看av | 国产91亚洲精品 | av在线成人| 欧美成人精精品一区二区频 | 亚洲熟妇一区二区 | 日韩精品视频在线播放 | 四虎最新域名 | 手机在线观看免费av | 欧美精品乱码视频一二专区 | 男女黄色片 | 欧美巨乳在线观看 | 色悠悠视频 | 黄色录像毛片 | 97caocao| 亚洲国产精品毛片av不卡在线 | 国产精品一区二区三区在线看 | 日韩精品视频免费在线观看 | 无码人妻精品一区二区蜜桃网站 | 大屁股一区二区三区 | 成人国产精品视频 | 豆花av在线 | 欧美福利在线视频 |