成为一家机器学习公司意味着投资基础技术
編者注:文中超鏈接如果不能訪問可以點擊“閱讀原文”訪問本文原頁面;為了讓您的數(shù)據(jù)策略發(fā)揮作用,您需要獲取必要的關(guān)于工具和技術(shù)的專業(yè)知識。我們2019年9月23日至26日在紐約舉辦O’Reilly Strata數(shù)據(jù)會議,歡迎加入。
在這篇文章中,我分享今年早些時候我在倫敦的Strata數(shù)據(jù)會議上發(fā)表主題演講的幻燈片。我將重點介紹最近一項關(guān)于機器學習被采納情況的調(diào)查結(jié)果,并描述公司內(nèi)部數(shù)據(jù)和機器學習的最新趨勢。現(xiàn)在是評估企業(yè)活動的好時機,有許多跡象表明大量公司已經(jīng)開始使用機器學習。例如,在2018年7月的這份調(diào)查吸引了超過11000名受訪者,我們發(fā)現(xiàn)公司有很強的參與感:51%的公司表示他們已經(jīng)在生產(chǎn)環(huán)境中使用了機器學習模型。
隨著圍繞人工智能的過度宣傳,人們很容易跳入涉及您不熟悉的數(shù)據(jù)類型的坑中。我們發(fā)現(xiàn),那些成功利用機器學習的公司,要么把機器學習建立在現(xiàn)有數(shù)據(jù)產(chǎn)品和服務的基礎上,要么更新現(xiàn)有模型和算法來實現(xiàn)對當前業(yè)務的支持。以下是一些組織開始使用機器學習的典型方式:
建立在現(xiàn)有數(shù)據(jù)分析用例的基礎上:例如,可以將現(xiàn)有數(shù)據(jù)源用于商業(yè)智能和分析,并在機器學習程序中使用它們。
更新現(xiàn)有應用程序,如推薦系統(tǒng)、搜索排名、時間序列預測等。
使用機器學習解鎖對新的數(shù)據(jù)類型的分析,這些數(shù)據(jù)類型包括圖像、音頻、視頻。
處理全新的用例和應用。
以深度學習為例,這是一種特殊形式的機器學習,在2011/2012年因語音和計算機視覺的創(chuàng)紀錄模型而重新出現(xiàn)。當我們繼續(xù)閱讀語音和計算機視覺方面令人印象深刻的突破時,公司開始使用深度學習來擴充或取代現(xiàn)有的模型和算法。著名的例子是谷歌的機器翻譯系統(tǒng),它從“以統(tǒng)計為核心”的方法轉(zhuǎn)移到了使用TensorFlow來做。在我們自己的會議中,我們看到了人民對時間序列和自然語言處理的深度學習培訓課程/教程的濃厚興趣,這兩個領域里,公司可能已經(jīng)有了現(xiàn)有的解決方案,深度學習也開始顯示出一些希望。
機器學習不僅出現(xiàn)在更多的產(chǎn)品和系統(tǒng)中,而且正如我們在之前一篇文章,機器學習也將改變應用程序本身在未來的構(gòu)建方式。開發(fā)人員會發(fā)現(xiàn)自己越來越多地構(gòu)建具有機器學習元素的軟件。因此,許多開發(fā)人員需要整理數(shù)據(jù),訓練模型,并分析模型的結(jié)果。話雖如此,我們?nèi)匀惶幵谝粋€高度經(jīng)驗主義的時代:我們需要大數(shù)據(jù)、大模型和大計算機。
圖1 一種典型的機器學習數(shù)據(jù)管線。資料來源:O’Reilly不得不提到,深度學習模型比數(shù)據(jù)科學家先前最青睞算法更需要大量數(shù)據(jù)。數(shù)據(jù)是機器學習應用程序的關(guān)鍵,讓數(shù)據(jù)流動、被清洗、并以可用的形式出現(xiàn),將是維持機器學習實踐的關(guān)鍵。
著眼于機器學習日益增長的重要性,我們最近完成了數(shù)據(jù)基礎設施調(diào)查,這個調(diào)查吸引了超過3200受訪者。我們的目標有兩個:(1)找出人們在使用什么工具和平臺,以及(2)確定公司是否正在構(gòu)建維護機器學習項目所必須的基礎工具。許多受訪者表示他們正在使用開源工具(Apache Spark、Kafka、TensorFlow、PyTorch等)。)和云中的托管服務。
我們問的一個主要問題是:你目前正在構(gòu)建或評估什么技術(shù)?
毫不奇怪,數(shù)據(jù)集成和ETL名列前茅,60%的受訪者目前正在構(gòu)建或評估該領域的解決方案。在一個數(shù)據(jù)渴求算法的時代,一切都真正從收集和匯總數(shù)據(jù)開始。
讓您的數(shù)據(jù)為機器學習做好準備的一個重要部分,是對其進行規(guī)范化、標準化,并使用其他數(shù)據(jù)源對其進行擴充。52%的受訪者表示,他們正在構(gòu)建或評估數(shù)據(jù)準備和清理解決方案。這些工具包括用于數(shù)據(jù)準備的Human-In-The-Loop系統(tǒng):這些工具允許領域?qū)<矣柧氉詣踊到y(tǒng)進行大規(guī)模的數(shù)據(jù)準備和清理。事實上,有一個令人興奮的新研究領域叫做數(shù)據(jù)編程,它統(tǒng)一了訓練集的程序化創(chuàng)建技術(shù)。
您還需要能夠讓您了解您擁有哪些數(shù)據(jù),以及誰可以訪問這些數(shù)據(jù)的解決方案。調(diào)查中約三分之一的受訪者表示他們對數(shù)據(jù)治理系統(tǒng)和數(shù)據(jù)目錄感興趣。一些公司開始構(gòu)建自己的解決方案,一些公司將在今年秋天在紐約的地層數(shù)據(jù)上展示它們,例如,Marquez和DataBook(Uber)。同時初創(chuàng)公司——Alation、Immuta、Okera等公司也在相同領域開發(fā)有趣的產(chǎn)品。
21%的受訪者表示,他們正在構(gòu)建或評估數(shù)據(jù)譜系解決方案。過去,我們對數(shù)據(jù)源的態(tài)度很隨意。關(guān)于數(shù)據(jù)倫理、隱私和安全的討論已經(jīng)讓數(shù)據(jù)科學家意識到數(shù)據(jù)譜系和來源的重要性。具體來說,公司需要知道數(shù)據(jù)來自哪里,數(shù)據(jù)是如何收集的,以及數(shù)據(jù)是如何被修改的。審計或復制ML管線的需求日益成為一個法律和安全問題。幸運的是,我們開始看到開源項目(包括DVC, Pachyderm, Delta Lake, DOLT)解決了對數(shù)據(jù)譜系和來源的需求。在最近的會議上,我們還與建立了數(shù)據(jù)譜系系統(tǒng)的公司進行了會談——Intuit、Lyft、Accenture、NetFlix等公司,更多關(guān)于數(shù)據(jù)治理/譜系的系統(tǒng)將于今年秋天在紐約Strata 數(shù)據(jù)會議上一起展示。
隨著組織內(nèi)數(shù)據(jù)科學家和機器學習工程師數(shù)量的增長,工具必須標準化,模型和特征需要共享,需要開始引入自動化流程。58%的受訪者表示他們正在構(gòu)建或評估數(shù)據(jù)科學平臺。我們的Strata數(shù)據(jù)會議持續(xù)舉行幾次會議,討論公司如何構(gòu)建內(nèi)部數(shù)據(jù)科學平臺,特別是他們做出了哪些權(quán)衡、選擇了哪些設計,以及在此過程中吸取了哪些經(jīng)驗教訓。
那么云服務呢?在我們最近的調(diào)查中,我們發(fā)現(xiàn)大多數(shù)人已經(jīng)在部分數(shù)據(jù)基礎設施中使用公共云服務,超過三分之一的人一直在使用serverless(無服務器技術(shù))。我們在最近的會議上已經(jīng)舉辦了許多關(guān)serverless的培訓課程、輔導課和講座,包括Eric Jonas討論UCBerkeley最近一篇關(guān)于serverless論文的演講,還有一個Avner Braverman的講座,闡述了serverless在人工智能和數(shù)據(jù)應用中的作用。
公司剛剛開始構(gòu)建機器學習應用程序,我相信機器學習的應用將在未來幾年繼續(xù)增長,原因如下:
5G正開始推出,5G將導致機器對機器應用程序的發(fā)展,其中許多應用程序?qū)瑱C器學習。
機器學習(特別是深度學習)的專用硬件將上線:我們已經(jīng)看到了用于邊緣設備和服務器模型推斷的新硬件。在2019年第三季度/第四季度左右,用于訓練深度學習模型的專用硬件將會推出。想象一下讓數(shù)據(jù)科學家和機器學習專家以很少的成本和時間運行實驗的系統(tǒng)。這種用于機器學習訓練和推理的新一代專用硬件將允許數(shù)據(jù)科學家探索和部署許多新類型的模型。
有幾個早期的跡象表明機器學習將繼續(xù)在公司內(nèi)部發(fā)展,這兩個跡象都表明越來越多的公司對機器學習感興趣。首先,幾年前當我們在媒體上已經(jīng)讀到大量關(guān)于數(shù)據(jù)科學家的文章時,一個致力于機器學習進入生產(chǎn)環(huán)境的新崗位才剛開始出現(xiàn)。
圖3 數(shù)據(jù)來自推特的投票。資料來源:O’Reilly機器學習工程師介于數(shù)據(jù)科學和工程運維之間,他們的工資往往比數(shù)據(jù)科學家高,而且他們通常擁有更強的技術(shù)和編程技能。正如我在推特上的投票調(diào)查顯示的那樣,似乎有早期跡象表明數(shù)據(jù)科學家正在將自己為符合這個新崗位進行“重塑”。
圖4 像MLflow這樣的模型開發(fā)工具正在流行起來。資料來源:O’Reilly另一個機器學習興起的信號是,有一些像MLflow這樣具有很大吸引力的新項目。在它推出后的大約10個月內(nèi),我們已經(jīng)看到許多公司對此很感興趣。正如我們在最近一篇文章中提到的,MLflow的一個常見用例是實驗跟蹤和管理—在MLflow出現(xiàn)之前,還沒有好的開源工具。MLflow和Kubeflow等項目(以及comet.ml和Verta.AI等公司的產(chǎn)品)使機器學習的開發(fā)更容易管理。
MLflow是一個有趣的新工具,但是它專注于模型開發(fā)。隨著您的機器學習實踐擴展到組織的許多部分,很明顯您將需要其他專門的工具。在與許多已經(jīng)為機器學習構(gòu)建了數(shù)據(jù)平臺和基礎設施的公司交談時,出現(xiàn)了一些在設計工具鏈時必須考慮的重要因素:
支持不同的建模方法和工具:雖然深度學習變得更加重要,但事實是,即使是領先的技術(shù)公司也使用各種建模方法,包括SVM、XGboost和統(tǒng)計學習方法。
模型訓練的持續(xù)時間和訓練頻率會有所不同,這取決于用例、數(shù)據(jù)量和所使用的特定算法類型。
具體應用中涉及到多少模型推理?
正如數(shù)據(jù)是需要專門工具(包括數(shù)據(jù)治理解決方案和數(shù)據(jù)目錄)管理的資產(chǎn)一樣,模型也是需要管理和保護的寶貴資產(chǎn)。正如我們在之前一篇文章提到的,模型管理和模型維護工具也將變得越來越重要:機器學習民主化的下一個重要步驟是使其更易于管理。模型治理和模型維護將需要包含以下項目的解決方案:
用于授權(quán)和安全的數(shù)據(jù)庫:誰對某些模型具有讀/寫權(quán)限
列出模型的目錄或數(shù)據(jù)庫,包括模型的測試、訓練和部署時間
審計所需的元數(shù)據(jù)和中間組件
用于部署、監(jiān)控和警報的系統(tǒng):誰批準模型將其推到生產(chǎn)環(huán)境,誰能夠監(jiān)控其性能并接收警報,以及誰對此負責
為各種主體(運維部門、機器學習工程師、數(shù)據(jù)科學家、企業(yè)主)提供自定義視圖的儀表板
公司正在了解到,隨著機器學習使用的興起,隨之而來的是有許多重要的需要考慮的方面。萬幸的是,研究團體已經(jīng)開始推出技術(shù)和工具來解決機器學習提出的一些重要挑戰(zhàn),包括公平性、可解釋性、安全性和可靠性,尤其是安全性和隱私性。機器學習經(jīng)常與用戶互動并影響用戶,因此公司不僅需要制定流程,讓他們負責任地部署機器學習,還需要構(gòu)建基礎技術(shù),讓他們保持對模型的監(jiān)督,尤其是在出現(xiàn)問題時更是如此。我上面提到的技術(shù)——數(shù)據(jù)治理、數(shù)據(jù)譜系、模型治理——都將有助于管理這些風險。特別是,審計和測試機器學習系統(tǒng)將依賴于我上面描述的許多工具。
風險和考慮是真實存在的,而不僅僅是只存在于理論中。這些基本工具將越來越重要,不再可有可無。例如,最近一個DLA Piper調(diào)查提供了向監(jiān)管機構(gòu)報告的GDPR違規(guī)事件的估計:截至2019年2月,有超過59000起個人數(shù)據(jù)違規(guī)濫用事件。
圖6 機器學習涉及一系列相關(guān)的算法。資料來源:O'Reilly雖然我們傾向于認為機器學習產(chǎn)生一個我們部署的“模型”或“算法”,但是審計機器學習系統(tǒng)可能是一項挑戰(zhàn),因為實際上有兩種算法需要跟蹤:
在產(chǎn)品應用中部署和使用的實際模型
使用數(shù)據(jù)來產(chǎn)生最優(yōu)化某些目標函數(shù)的模型的算法(“訓練優(yōu)化器”和“數(shù)據(jù)管線”)。
因此,管理機器學習意味著構(gòu)建一套工具來管理一系列相關(guān)的算法。基于我在上面描述的調(diào)查結(jié)果,公司開始構(gòu)建重要的基礎技術(shù)——數(shù)據(jù)集成和ETL、數(shù)據(jù)治理和數(shù)據(jù)目錄、數(shù)據(jù)譜系、模型開發(fā)和模型治理——這些對于維持負責任的機器學習實踐非常重要。
但是挑戰(zhàn)依然存在,尤其是那些公司,在不得不應付大量信息技術(shù)、軟件和云解決方案( 管理“保持燈光常亮”這種基本任務除外)的同時,機器學習的使用還在增加。好消息是,有早期跡象表明,公司開始認識到,構(gòu)建或獲取必要的基礎技術(shù)是必須的。
相關(guān)資源:
“在企業(yè)中持續(xù)進行機器學習”
“用于機器學習開發(fā)和模型治理的專用工具變得至關(guān)重要”
“機器學習中的風險管理”
“什么是機器學習工程師?”: 一種專注于創(chuàng)建數(shù)據(jù)產(chǎn)品,使數(shù)據(jù)科學在生產(chǎn)中發(fā)揮作用的新崗位
“機器學習對軟件開發(fā)而言意味著什么”
“機器學習中的深度自動化”
“在實踐中,什么是硬核數(shù)據(jù)科學?”:將數(shù)據(jù)科學引入生產(chǎn)環(huán)境的架構(gòu)剖析
“將機器學習模型轉(zhuǎn)化為真實產(chǎn)品和服務時,所獲得的經(jīng)驗教訓”
This article originally appeared in English: "Becoming a machine learning company means investing in foundational technologies".
Ben Lorica
Ben Lorica是O'Reilly Media, Inc. 的首席數(shù)據(jù)科學家,也是Strata數(shù)據(jù)會議和人工智能會議的日程主管。他在各種場景中應用了商業(yè)智能,數(shù)據(jù)挖掘,機器學習和統(tǒng)計分析,這些場景包括:直銷,消費者和市場研究,精準廣告,文本挖掘和金融工程。他的背景涵蓋了投資管理公司,互聯(lián)網(wǎng)創(chuàng)業(yè)公司和金融服務公司。
總結(jié)
以上是生活随笔為你收集整理的成为一家机器学习公司意味着投资基础技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 12 个组织良好的网络监控工具
- 下一篇: Kubesphere之ks-instal