机器学习下一个万亿级的增长从哪来?
在“哈利.波特”的世界中,分院帽是一種算法,可以獲得學生的行為歷史、喜好和性格等方面的數(shù)據(jù),然后據(jù)此作出決定,確定學生應該進入霍格沃茨學校里的哪一個分院。如果現(xiàn)實世界里存在這樣的分院帽的話,它應該會是機器學習應用程序,可以根據(jù)復雜的數(shù)據(jù)集自主地做出決策。如今,機器學習正在推動數(shù)萬億規(guī)模的全球產(chǎn)業(yè),例如醫(yī)療保健、安全和農(nóng)業(yè)等。
如果機器學習有望創(chuàng)造可觀的價值,那么問題來了:這些價值將在哪里產(chǎn)生呢?在本文中,筆者將介紹三種類型的公司創(chuàng)造并獲取價值的方式:應用機器學習的傳統(tǒng)公司、構(gòu)建無行業(yè)屬性機器學習工具的公司以及構(gòu)建垂直集成機器學習應用的公司。
機器學習不僅僅是科技巨頭的游戲
科技巨頭在機器學習方面的創(chuàng)新廣為人知,從新聞推送到推薦引擎不一而足,但是絕大部分人還沒有意識到傳統(tǒng)行業(yè)對機器學習的需求正在日益增長。預計到2023年,全球人工智能系統(tǒng)支出將達到980億美元,比2019年支出規(guī)模的2.5倍還要多,其中金融服務,零售和汽車領域處于領先地位。
比如,掌管了超過7萬億美元資產(chǎn)的投資管理公司黑石(Blackrock)在2018年推出了幾款機器學習支撐的ETF產(chǎn)品。而目前,機器學習也已經(jīng)在醫(yī)療保健行業(yè)引發(fā)了廣泛的關注,涉及醫(yī)療影像、診斷和藥物發(fā)現(xiàn)的機器學習解決方案的預算有望在未來三年內(nèi)達到100億美元的規(guī)模。
在這些企業(yè)客戶中,出現(xiàn)了三個廣泛的客戶群:軟件工程師、數(shù)據(jù)科學家和業(yè)務分析師,業(yè)務分析師有時也被稱為“公民數(shù)據(jù)科學家”。盡管業(yè)務分析師受過的技術培訓水平較低,但是他們構(gòu)成了一個龐大并且不斷增長的用戶群體,這個群體正在應用機器學習幫助他們的企業(yè)利用自身不斷增長的數(shù)據(jù)存儲庫。
機器學習工具已經(jīng)滲透進入各行各業(yè)
為了適應這些客戶群體,希望在這輪淘金熱中賣鎬的公司數(shù)量不斷激增。曾經(jīng)在特斯拉和Snap擔任過工程副總裁的Stuart Bowers表示:“挑戰(zhàn)并不在于讓機器學習變得透明,而是讓痛苦的部分(例如日志記錄、數(shù)據(jù)管理、部署和可再現(xiàn)性)變得容易,然后讓模型訓練變得高效并且可調(diào)試。”
作為銷售更多基礎架構(gòu)服務策略的一部分,現(xiàn)存的供應商——特別是那些公有云供應商已經(jīng)采用了“端到端平臺”的方式。對于巨頭來說,銷售機器學習工具是一種推動其客戶增加基礎設施支出的方式,這意味著他們有能力以很低的成本提供這些工具。
然而,企業(yè)從業(yè)人員們開始要求“同類最佳”解決方案,而不是那些意在吸引他們購買更多基礎架構(gòu)的工具。為了解決這個問題,下一代的創(chuàng)業(yè)企業(yè)將會追求更具針對性的方法。和當前各大現(xiàn)有平臺廣泛采用的模式相反,初創(chuàng)企業(yè)可以選擇特定問題并開發(fā)專用工具,這樣可以更有效地解決這些問題。在機器學習工具領域,現(xiàn)在存在著三大問題對用戶構(gòu)成了重大挑戰(zhàn)。
數(shù)據(jù)集管理
雖然機器學習的結(jié)果可能看起來很優(yōu)雅,但實際上,從業(yè)人員要將大部分的時間花在數(shù)據(jù)清理、整理和轉(zhuǎn)換工作上。因為數(shù)據(jù)越來越多地以各種不同的格式分散在多臺機器和云之中,因此將數(shù)據(jù)變成同一種可消費的格式,讓團隊能夠輕松使用并且將其用于協(xié)作是非常困難的一件事。
為了解決這個問題,Tecton 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Mike Del Balso 正在通過他新的創(chuàng)業(yè)公司使他在 Uber 倡導的最佳實踐民主化。他表示:“被破壞的數(shù)據(jù)是導致生產(chǎn)機器學習系統(tǒng)出現(xiàn)問題的最常見原因。建模人員將大部分時間都花在訓練時選擇和轉(zhuǎn)換功能,然后建立管道,將這些功能傳遞到生產(chǎn)模型之中?!?Tecton 構(gòu)建了一個平臺來管理這些“功能”,并以這種方式來簡化數(shù)據(jù)層的復雜性,從企業(yè)原始數(shù)據(jù)中收集到的智能實時信號對于優(yōu)化機器學習至關重要。
在更上游,Liquidata 正在為數(shù)據(jù)庫構(gòu)建開源的 GitHub 等效項。在我與 Liquidata 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Tim Sehn (他曾經(jīng)是 Snap 的前工程副總裁)的談話中,他強調(diào)“就像開源軟件一樣,我們需要在開放數(shù)據(jù)方面進行協(xié)作——在互聯(lián)網(wǎng)級別。這就是為什么我們創(chuàng)建了 DoltHub 的原因,DoltHub 是互聯(lián)網(wǎng)上免費存儲、托管和協(xié)作數(shù)據(jù)的地方?!?/p>
實驗跟蹤和版本控制
另一個常見的問題是結(jié)果之間缺乏可重復性。機器學習模型版本控制的缺位讓實驗變得很難復現(xiàn)。
正如 Weights and Biases 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Lukas Biewald 在接受我們的采訪時分享的那樣,“如今,最大的痛苦是缺乏基本的軟件和最佳實踐來管理全新的編碼風格。你無法使用糟糕的畫筆很好地作畫,你沒有辦法在糟糕的 IDE (集成開發(fā)環(huán)境)中很好地編寫代碼,你也無法使用我們現(xiàn)在擁有的工具構(gòu)建和部署很棒的深度學習模型?!彼墓居?2018 年推出了一個實驗跟蹤解決方案,讓 OpenAI 等客戶能夠?qū)⒁娊鈴膯蝹€研究人員擴散到整個團隊。
模型可擴展
對于這個正在成熟的市場來說或,建立基礎架構(gòu)以在生產(chǎn)中擴展模型部署并監(jiān)控結(jié)果是另一個重要的問題。
Anyscale 是開源框架 Ray 背后的公司,這家初創(chuàng)公司已經(jīng)抽象出了分布式應用程序和可擴展機器學習的基礎架構(gòu)。在我同 Anyscale 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Robert Nishihara 的交談中,他分享了自己的想法,“就像微軟的操作系統(tǒng)為開發(fā)人員工具和應用程序創(chuàng)造了一個生態(tài)系統(tǒng)一樣,我們也在創(chuàng)造基礎架構(gòu),以支持應用程序和庫的富生態(tài)系統(tǒng),從模型訓練到部署,讓開發(fā)人員可以輕松地擴展機器學習應用程序。”
在自然語言處理或者被稱為 NLP 的領域中,可擴展性也在飛速發(fā)展。Hugging Face 建立了一個開源庫來構(gòu)建、訓練和共享 NLP 模型。該公司的聯(lián)合創(chuàng)始人兼首席執(zhí)行官 ClémentDelangue 表示:“過去三年中發(fā)生了范式轉(zhuǎn)變,NLP 的轉(zhuǎn)換學習開始極大地改變了將 NLP 集成到業(yè)務應用程序中的可用性和準確性?!彼硎?#xff1a;“我們讓企業(yè)有可能在一周而不是幾個月之內(nèi),將最新研究的 NLP 模型應用于生產(chǎn)。”
其他有前途的初創(chuàng)公司包括 Streamlit,該公司讓開發(fā)人員可以僅僅使用幾行 Python 就創(chuàng)建機器學習應用并立刻進行部署。OctoML 為機器學習應用了附加的智能層,是系統(tǒng)變得更加易于優(yōu)化和部署。Fiddler Labs 已經(jīng)建立了 Explainable AI Platform (可解釋的人工智能平臺),可以不間斷地解釋和監(jiān)控生產(chǎn)結(jié)果。
要想在與老牌公司的激烈競爭中建立起長期穩(wěn)固的公司,初創(chuàng)公司必須問自己兩個問題:對于哪些客戶來說我們是必不可少的?接觸這些客戶的最佳方式是什么?
很多初創(chuàng)公司會提出想法,要在某個大市場中占據(jù) 1% 的份額,但是通常來說,這些大市場就算沒有過度擁擠,其中的需求也已經(jīng)得到了很好地滿足。專注于贏得核心客戶群的公司必須展現(xiàn)出強大的早期吸引力,這將轉(zhuǎn)化為長期擴展?jié)摿?。為了吸引這些客戶,Databricks 和 Datarobot 等大多數(shù)成型企業(yè)都采用了自上而下的企業(yè)銷售方式。與我們在開發(fā)人員工具領域中看到的情況類似,我期待著機器學習初創(chuàng)企業(yè)最終將從單純的企業(yè)銷售發(fā)展為推動自下而上的采用,并獲得更多優(yōu)勢,勝過當今以企業(yè)為中心的成型公司。
垂直集成的機器學習應用程序正在顛覆現(xiàn)狀
機器學習領域中一些最令人興奮的公司正在開拓新的商業(yè)模式以顛覆整個行業(yè)。汽車行業(yè)就是個最明顯的例子,僅僅在 2019 年一年,就有 100 億美元的資金投入到了這個行業(yè)。機器學習也將產(chǎn)生革命性影響的下一代垂直市場還包括醫(yī)療保健、工業(yè)、安全和農(nóng)業(yè)。
Salesforce 的首席科學家 Richard Socher 表示:“在‘機器學習 + X’的模式下,機器學習最為有效?!彼硎?#xff0c;“最好的機器學習公司都有著清晰的垂直重點。他們甚至不會將自己定義為機器學習公司?!彼J為醫(yī)療保健領域是一個非常獨特的領域,極有前途:Athelas 已將機器學習應用于免疫監(jiān)測,通過收集病人白血球數(shù)量的數(shù)據(jù)幫助他們優(yōu)化藥物攝入。Curai 利用機器學習技術來提高醫(yī)生推薦的效率和質(zhì)量,讓他們可以把更多的時間花在治療患者的工作上。Zebra 和AIdoc 通過訓練數(shù)據(jù)集來更快地確定醫(yī)療狀況,從而提高了放射科醫(yī)生的工作能力。
在工業(yè)和物流領域,Covariant 是一家結(jié)合了強化學習和神經(jīng)網(wǎng)絡的初創(chuàng)公司,該公司讓機器人能夠管理大型倉庫設施中的物體;Agility and Dexterity 同樣在構(gòu)建機器人,以越來越復雜的方式適應各種不可預測的情況;Interos 應用機器學習技術評估全球供應鏈網(wǎng)絡,幫助企業(yè)圍繞供應商管理、業(yè)務連續(xù)性和風險做出關鍵決策。
在安全和國防領域,Verkada 通過智能地分析實時視頻并從中學習,重新構(gòu)想了企業(yè)物理安全;Anduril 建立了一個機器學習主干,該主干可以集成來自傳感器塔的數(shù)據(jù),以增強國家安全的智能;Shield AI 的軟件讓無人系統(tǒng)可以解釋信號,并且在戰(zhàn)場上智能行動。
農(nóng)業(yè)是另一個從機器學習技術中獲得巨大收益的垂直領域。John Deere 收購了 Blue River Technology,后者是一家開發(fā)智能農(nóng)作物噴灑設備的初創(chuàng)公司。合并后的公司 Intelligent Solutions Group 的首席科學家Lee Redden 表示:“我們引入計算機視覺技術來識別單株植物并針對單株植物采取行動,通過這種方式改變了農(nóng)業(yè)世界?!逼渌霓r(nóng)科企業(yè)還包括 Indigo,該公司將機器學習用于“精準農(nóng)業(yè)”,利用數(shù)據(jù),以更有利可圖、更具可持續(xù)性的方式生產(chǎn)食品。
我們將何去何從?
總結(jié)來說,機器學習已經(jīng)悄然成為我們?nèi)粘I畹囊徊糠?#xff0c;支撐我們的汽車,醫(yī)院的運營并保障我們所吃的食物。到目前為止,大型企業(yè)孵化了最先進的技術,但是真正的希望存在于下一波機器學習應用程序和工具,將圍繞著機器智能各種華而不實的炒作從哈利.波特式的幻想轉(zhuǎn)化為有形的社會價值。
對于機器學習能夠在未來幾年內(nèi)創(chuàng)造的價值,我們有很多理由保持樂觀。傳統(tǒng)企業(yè)將訓練數(shù)以百萬計的公民數(shù)據(jù)科學家,將破碎的行業(yè)重塑為更高效的行業(yè)。機器學習工具將降低構(gòu)建智能應用程序的門檻,推動數(shù)以百萬計的新想法變成產(chǎn)品。垂直機器學習業(yè)務模型將讓人們獲得健康的食品,可靠的人身安全保障和負擔得起的醫(yī)療保健服務,這是一個民主化的進程。
我們將在這些地方找到機器學習的真正價值。
文章來源:https://yqh.aliyun.com/detail/17328
原文鏈接:https://developer.aliyun.com/article/768653?
版權聲明:如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,歡迎發(fā)送郵件至:developerteam@list.alibaba-inc.com 進行舉報,并提供相關證據(jù),一經(jīng)查實,本社區(qū)將立刻刪除涉嫌侵權內(nèi)容。總結(jié)
以上是生活随笔為你收集整理的机器学习下一个万亿级的增长从哪来?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开放下载!《大促背后的前端核心业务实践》
- 下一篇: 一文总结:分布式一致性技术是如何演进的?