在企业里管理机器学习:来自银行和医疗行业的经验
編者注:文中超鏈接如果不能訪問可以點擊“閱讀原文”訪問本文原頁面;讀者可查看“2020年3月15日至18日舉辦的Strata圣何塞數據大會”來獲取更多相關內容。
隨著企業在更廣泛的產品和服務組件中使用機器學習(ML)和人工智能技術,對新的工具、最佳實踐和新的組織結構的需求變得越來越清晰。在最近的一些文章中,我們介紹了在企業和機構內支撐機器學習實踐所需的基礎技術,以及在機器學習中用于模型開發、模型管理和模型運維/測試/監控的專用工具。
為了適應機器學習以及人工智能的興起,需要進行哪些文化和組織變革?在這篇文章中,我們將從一個受到高度監管的行業(金融服務業)的視角來分析這個問題。金融服務業公司擁有悠久的作為許多新技術的早期采用者的傳統。當然人工智能也不例外:
圖1 人工智能技術被采用的階段(按行業分)。圖片來源:Ben Lorica與醫療行業類似,在另一個受到嚴格監管的行業(金融服務業)里,長時間以來企業必須在它們的一些算法(例如,信用評分)中建立可解釋性和透明性。根據我們的經驗,大部分最受歡迎的關于模型可解釋性和可理解性的會議發言是來自金融行業的人士。
圖2 在金融和醫療行業里的人工智能項目。圖片來源:Ben Lorica在2008年金融危機之后,美聯儲發布了一套新的監管模型指南——SR 11-7:《模型風險管理指南》。SR 11-7的目標是對一些早期規范進行擴展,并主要側重于模型驗證。雖然SR 11-7中沒有任何令人驚訝的事情,但一旦企業和機構開始使用模型為重要的產品和服務提供能力,它就會提供出重要的需要考慮的因素。在本文的其余部分,我們將列出SR 11-7中涵蓋的關鍵領域和建議,并解釋它們如何與機器學習的最新發展相關。請注意,SR 11-7關注的重點是風險管理。
模型風險的來源
我們應該澄清的是SR 11-7還涵蓋了未基于機器學習的模型,如“使用統計、經濟、金融或數學理論、技術和假設來處理輸入數據以進行定量估計的定量工具、系統或方法。”鑒于這一點,SR 11-7強調對模型的錯誤或不恰當使用就會導致很多潛在的模型風險來源,以及基本錯誤。機器學習開發人員正在開始關注更廣泛的風險因素。在之前的文章中,我們列出了機器學習工程師和數據科學家可能需要管理的事情,例如歧視、隱私、安全性(包括針對模型的攻擊)、可解釋性,以及安全性和可靠性。
圖3 模型風險管理。圖片來源:Ben Lorica和Harish Doddi模型開發和實施
SR 11-7的作者強調了有一個明確的意圖說明的重要性,這樣才能保證模型與其預期用途相一致。這與機器學習開發人員早已了解的理念是一致的:為特定應用構建和訓練的模型很少可被(直接)用于其他場景。SR 11-7背后的監管機構也強調了數據的重要性,特別是數據質量、相關性和文檔化。雖然各種模型在新聞報道里的覆蓋率最高,但實際情況是數據仍然是大多數機器學習項目的主要瓶頸。鑒于到這些重要的因素,研究機構和初創公司正在開發構建專用于數據質量、治理和血緣的工具。開發人員還在構建可以實現模型復現性、協作和部分自動化的工具。
模型驗證
SR 11-7對如何進行模型驗證有一些具體的對企業和機構的建議。它的基本原則是:企業和機構需要由能夠識別模型的局限性的合格團隊進行批判性分析。首先,模型驗證團隊應該由不負責模型開發的人員組成。這與The Future of Privacy Forum和Immuta最近發布的報告中提出的建議類似(他們的報告是專門針對機器學習的)。其次,考慮到一般會傾向于展示和獎勵模型構建者的工作而不是模型驗證者的工作,應該有適當的權力、激勵和補償政策來獎勵執行模型驗證的團隊。特別的,SR 11-7中引入了“有效挑戰”的概念:
進行驗證工作的員工應有明確的權力來挑戰開發人員和用戶,并向上級報告他們的發現,包括問題和缺陷。……有效挑戰依賴于激勵、能力和影響力的結合。
最后,SR 11-7建議制定流程來選擇和驗證第三方開發的模型。鑒于SaaS的興起和開源研究原型的激增,這是一個與使用機器學習的企業和機構非常相關的問題。
模型監控
一旦把模型部署到生產環境中后,SR 11-7的作者強調了向決策者提供監控工具和有針對性的報告的重要性。這與我們最近提出的一些建議相一致,機器學習運維團隊需要為所有的利益相關方(運維團隊、機器學習工程師、數據科學家和管理者)提供可自定義視圖的儀表盤。SR 11-7的作者還列舉了需要建立獨立的風險監控團隊的另一個重要原因。作者指出,在某些情況下,挑戰特定模型的動機可能是不對稱的。根據企業和機構通常的獎勵結構,某些團隊不太可能挑戰那些有助于提升其自身特定關鍵績效指標(KPI)的模型。
管理、策略和控制
SR 11-7強調了維護一個模型的目錄的重要性。該目錄應該包含所有模型的完整信息,包括當前部署的、最近退役的和正在開發的模型。作者還強調文檔應該足夠詳細,以便“不熟悉模型的各方可以理解模型如何運作,其局限性和關鍵假設”。這些內容是針對于機器學習的。同時對于機器學習生命周期開發和模型管理的早期工具和開源項目,需要補充有助于創建適當文檔的工具。
對于已經開始在產品和服務中使用機器學習的企業和機構,SR 11-7的一部分還對可能有用的角色提出了具體建議:
模型所有者:他們會確保正確開發、部署和使用模型。在機器學習的世界中,這些人是數據科學家、機器學習工程師或其他專家。
風控人員:他們關注風險的測量、限制、監控和獨立驗證。在機器學習的語境里,他們可能是一個由領域專家、數據科學家和機器學習工程師組成的獨立團隊。
合規人員:他們確保有現成的具體流程供模型所有者和風控人員使用。
外部監管者:他們負責確保法規里的要求都被所有的商業機構正確地遵循了。
總體呈現
在許多案例里,看似做好準備的金融機構,由于沒有恰當地考慮到模型的風險,從而沒能及時發現一些流氓部門或流氓交易員。為此,SR 11-7建議金融機構不僅需要考慮單個模型的風險,還要考慮源于模型間交互和依賴性所帶來的總體風險。許多機器學習團隊還沒有開始考慮用于管理同時部署多個模型所帶來的風險的工具和流程,但很明顯許多應用需要這種規劃和思考。依賴于許多不同數據源、管道和模型(例如,自動駕駛汽車、智能建筑和智能城市)的新興應用的創建者將需要有總體上的風險管理。新的數字原生公司(媒體、電子商務、金融等)非常依賴數據和機器學習,更需要有系統來單獨和集成地監控多個機器學習模型。
醫療和其他行業
雖然這篇文章專注于為金融機構編寫指南,但所有行業里的企業都將需要開發和制定管理模型風險的工具和流程。許多企業已經受到現有(GDPR)的和即將發布的(CCPA)的隱私法規的影響。而且如前所述,機器學習團隊也已經開始構建工具來幫助檢測歧視、保護隱私、防范針對模型的攻擊以及確保模型的安全性和可靠性。
醫療行業是另一個受到高度監管的行業,這個行業里的人工智能正在迅速變化。今年早些時候,通過發布《基于人工智能/機器學習的軟件作為醫療設備的修改建議監管框架》,美國FDA針對監管向前邁出了一大步。該文件開篇就指出“傳統的醫療設備監管模式沒有被設計用于自適應的人工智能/機器學習技術,這些技術有可能實時適應和優化設備性能,以持續改善患者的醫療保健。”
該文件接著提出了發展此類基于人工智能/機器學習的系統的風險管理框架和最佳實踐。作為第一步,作者列出了那些會對用戶產生影響的修改,以及由此帶來的需要進行管理的內容:
對分析性能的修改(例如,模型的重新訓練)
更改軟件的輸入
改變軟件的預期用途。
FDA提出了一種需要不同監管機構批準的總的產品生命周期方法。對于上市前的系統,需要對安全性和有效性進行上市前認證。對于運行中的實時性能,必須要進行監控,以及做日志、跟蹤和支持質量文化的其他流程,但不是每個變更都需要監管部門的批準。
該監管框架是相當新的,并已公示,以便在全面實施之前收集公眾的反饋意見。不過它仍然缺乏對安全性和有效性的本地化測量要求,以及評估和消除歧視的要求。然而,這是通過明確的監管框架為醫療和生物技術開發快速增長的人工智能產業所邁出的重要的第一步,我們建議從業者在這個監管框架的演進過程中持續保持關注。
總結
每一個重要的新技術浪潮都會帶來益處和挑戰。管理機器學習中的風險是企業和機構需要越來越多解決的問題。來自美聯儲的SR 11-7包含許多建議和指南。這些建議和指南很好地對應著那些希望將機器學習集成到產品和服務中的企業的需求。
相關資源
《管理機器學習的風險》
《什么是模型管理和模型運維?》
《成為一個機器學習企業意味著對基礎技術的投資》
《對高質量數據的要求》
Andrew Burt和Steven Touw所寫的《企業如何管理那些它們無法完全解釋的模型》
David Talby所寫的《在調優機器學習模型成為真正的產品和服務過程中學到的經驗教訓》
Ira Cohen所寫的《應用機器學習來獲取關于機器學習算法的洞察》
《你開發了一個機器學習的應用。現在需要確保它是安全的》
Jike Chong所寫的《金融服務業里的數據科學和機器學習的應用》
Gary Kazantsev所寫的《數據科學是如何對華爾街帶來影響的》
Ben Lorica是O’Reilly Media公司的首席數據科學家,同時也是Strata數據會議和O’Reilly人工智能會議的內容日程主管。他曾在多種場景下應用商業智能、數據挖掘、機器學習和統計分析技術,這些場景包括直銷、消費者與市場研究、定向廣告、文本挖掘和金融工程。他的背景包括在投資管理公司、互聯網初創企業和金融服務公司就職。
Harish Doddi是Datatron Technologies的聯合創始人兼首席執行官。在此之前,他先在Oracle任職。后來在推特從事開源技術方面的工作,包括Apache Cassandra和Apache Hadoop,并建立了推特的照片存儲平臺Blobstore。在Snapchat,他關注于Snapchat的后端。他還在Lyft研究了激增定價模型。Harish擁有斯坦福大學的計算機科學碩士學位,專業方向是系統和數據庫,他還擁有海德拉巴得國際信息技術學院的計算機科學學士學位。
David Talby是Pacific AI的首席技術官。他正在幫助各類快速發展的公司應用大數據和數據科學技術來解決醫療保健、生命科學和相關領域的實際問題。David在構建和運營互聯網規模的數據科學和業務平臺以及構建世界一流的敏捷分布的團隊方面擁有豐富的經驗。在加入Pacific AI前,他曾在微軟的Bing Group工作,負責Bing Shopping在美國和歐洲的業務運營。他還在在西雅圖和英國為亞馬遜工作。在那里他建立并管理分布的團隊,幫助擴展亞馬遜財務系統。David擁有計算機科學博士學位和計算機科學與工商管理碩士學位。
This article originally appeared in English: "Managing machine learning in the enterprise: Lessons from banking and health care".
總結
以上是生活随笔為你收集整理的在企业里管理机器学习:来自银行和医疗行业的经验的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 背景图片居中显示
- 下一篇: 【计算机网络】Socket聊天室程序