NVIDIA针对大规模数据分析和机器学习推出RAPIDS开源GPU加速平台!
2018年10月10日,NVIDIA發布了一款針對數據科學和機器學習的GPU加速平臺,該平臺已為多個行業領先者所采用,并能幫助超大規模公司以前所未有的速度分析海量數據并進行精準的業務預測。
RAPIDS? 開源軟件幫助數據科學家顯著地提高了工作績效,對于這些數據科學家來說,種種業務挑戰應接不暇,其中包括預估信用卡詐騙、預測零售存貨及理解顧客購買行為等。
眾多公司,無論是Databricks和Anaconda等開源社區先驅還是Hewlett Packard Enterprise、IBM和Oracle等技術領袖,在GPU對數據分析的重要性方面日益達成共識,并對RAPIDS表現出越來越多的支持。
據分析師估計,面向數據科學和機器學習的服務器市場每年價值約為200億美元,加上科學分析和深度學習市場,高性能計算市場總價值大約為360億美元。
“數據分析和機器學習是高性能計算市場中最大的細分市場,不過目前尚未實現加速,“NVIDIA創始人兼首席執行官黃仁勛在GPU技術大會主旨演講中發布RAPIDS時表示,”全球最大的行業均在海量服務器上運行機器學習算法,目的在于了解所在市場和環境中的復雜模式,同時迅速、精準地做出將直接影響其決策的預測。
黃仁勛表示,“得益于CUDA及其全球生態系統以及與開源社區緊密合作,我們已創建了RAPIDS GPU加速平臺。該平臺已與全球最流行的數據科學庫及工作流無縫整合,可加速機器學習。如同深度學習一樣,我們正在不斷地為機器學習提速。”
RAPIDS已為GPU加速分析和機器學習提供了一整套開源庫,數據可視化即將是下一個目標。RAPIDS由NVIDIA工程師與主要的開源貢獻者在過去兩年的合作成果。
RAPIDS第一次為數據科學家提供了他們需要用來在GPU上運行整個數據科學管線的工具。最初的RAPIDS基準分析利用了XGBoost機器學習算法在NVIDIA DGX-2??系統上進行訓練,結果表明,與僅有CPU的系統相比,其速度能加快50倍。這可幫助數據科學家將典型訓練時間從數天減少到數小時,或者從數小時減少到數分鐘,具體取決于其數據集的規模。
與開源社區開展緊密合作
RAPIDS構建于Apache Arrow、pandas和scikit-learn等流行的開源項目之上,為最流行的Python數據科學工具鏈帶來了GPU提速。為了將更多的機器學習庫和功能引入RAPIDS,NVIDIA廣泛地與開源生態系統貢獻者展開合作 ,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs 負責人兼Apache Arrow締造者Wes McKinney以及迅速增長的Python數據科學庫pandas等等。
McKinney表示,“作為GPU加速的數據科學平臺,RAPIDS是由Apache Arrow驅動的新一代的計算生態系統。NVIDIA與Ursa Labs的合作將加速Arrow核心數據庫的創新步伐,并有助于大幅提升分析及特征工程的績效。”
為了推動RAPIDS的廣泛應用,NVIDIA正努力將RAPIDS與Apache Spark進行整合,后者是分析及數據科學方面領先的開源框架。
Databricks聯合創始人、首席技術官兼Apache Spark 創始人Matei Zaharia表示,“在Databricks公司中,我們對RAPIDS在加速Apache Spark工作量方面的潛力感到非常興奮。我們目前開展的多個項目都意在將Spark更好地與本地加速器進行整合,其中包括借助Project Hydrogen實現的Apache Arrow的支持以及GPU調度。我們相信,就擴大我們客戶數據科學及AI工作量來說,RAPIDS將是全新的、振奮人心的機會。”
廣泛的生態系統支持及應用
各個行業技術領先的企業均是NVIDIA GPU加速平臺及RAPIDS的率先應用者。
沃爾瑪執行副總裁兼首席技術官Jeremy King表示,“NVIDIA的GPU加速平臺及RAPIDS軟件極大改進了我們使用數據的方式,幫助我們實現了復雜模式大規模地運行,同時進行更加精準的預測。RAPIDS的應用得益于NVIDIA和沃爾瑪工程師之間的深度合作,我們準備繼續推進這種合作關系。”
此外,一些全球領先的技術公司也力圖通過全新的系統、數據科學平臺和軟件解決方案支持RAPIDS:
“HPE致力于改進客戶生活和工作的方式。人工智能、分析和機器學習技術能在揭示洞察方面扮演關鍵的角色,這有助于幫助客戶實現突破性的成果,同時改善我們所生存的世界。HPE提供全面的人工智能和數據分析解決方案并在市場中保持獨一無二的優勢,其中既包括戰略咨詢,也包括專為特定需求開發的GPU加速器技術、運行支持以及強大的伙伴生態系統;我們旨在為每位客戶定制合適的解決方案。我們對與NVIDIA在RAPIDS方面的合作感到非常興奮,此舉能加快數據科學和機器學習的應用,推動我們的客戶更快地實現更具洞察力的成果。”
— 惠普企業首席執行官Antonio Neri
“IBM已為企業人工智能構建了全球領先的、在任何部署模式上均能運行的平臺。我們期望能拓展與NVIDIA已有的成功合作,利用RAPIDS來為客戶提供全新的機器學習工具。”
— Hybrid Cloud高級副總裁兼IBM Research董事 Arvind Krishna
“當今的計算領域要要強大的處理能力,以便應對數據科學和分析智能等紛繁復雜的工作,而這正是NVIDIA GPU的優勢。RAPIDS正在不斷加速處理和機器學習培訓的速度。能在Oracle Cloud Infrastructure上支持這套全新的開源軟件讓我們感到非常興奮,我們也希望能與NVIDIA繼續合作,以在我們的Oracle Data Science Cloud等各種平臺上支持RAPIDS,并進一步加速客戶端到端數據科學工作流。RAPIDS軟件在Oracle Cloud上無縫運行,這使客戶得以支持各種高性能計算、人工智能和數據科學需求,同時利用Oracle Cloud Infrastructure 上可獲得的GPU實例組合。”
— Oracle Cloud Infrastructure軟件開發部門高級副總裁Clay Magouyrk
行業更多支持性引言
Anaconda 公司首席執行官——Scott Collison
?“NVIDIA已經使復雜的人工智能模型的培訓和部署具有可擴展性和經濟可行性。NVIDIA今天發布的RAPIDS聲明將同樣的好處擴展到數據科學生命周期的早期數據轉換階段。Anaconda為幫助NVIDIA開發這些新功能而感到自豪,這些新功能將通過我們的公共包存儲庫提供給Anaconda發行版的700萬用戶社區。此外,我們還會將這些功能納入Anaconda企業版,該企業版與NVIDIA DGX相結合,為企業提供一種高性能、行之有效的解決方案。NVIDIA DGX上的Anaconda企業版將使各種規模的組織能夠加快數據科學和人工智能工作流程。”
BlazingDB公司首席執行官——Rodrigo Aramburu
“我們很激動能成為NVIDIARAPIDS開源軟件的早期貢獻者,并且已經在RAPIDS上構建了BlazingSQL,這是我們分布式GPU SQL引擎的一個免費使用版本。作為一家初創公司,我們與RAPIDS團隊合作,我們與NVIDIA的伙伴關系為我們提供了巨大的價值,作為cuDF的主要貢獻者加入,并將繼續支持RAPIDS軟件,因為我們的愿景是將數據湖(Data Lakes)與人工智能集成,全部使用SQL。”
CISCO數據中心集團產品管理副總裁——Kaustabh Das
“CISCO和NVIDIA正在NVIDIA GPU優化的CISCOUCS平臺上合作開發人工智能/機器學習軟件堆棧,以簡化和加速人工智能/機器學習工作負載部署。我們很高興地獲悉,借助RAPIDS,NVIDIA正在通過加速的軟件堆棧來擴展其GPU適用性,以解決傳統的機器學習和大數據分析問題。我們期待著能夠實現我們GPU加速服務器組合的可能性,包括最近推出的CISCO UCS C480 ML M5機架服務器,這是一個一流的配有8個NVIDIA V100 GPU和NVIDIA NVLink互連專用的服務器。”
DELL EMC公司服務器和基礎設施系統部產品管理和市場營銷高級副總裁——Ravi Pendekanti
?“DELL EMC致力于為我們的客戶提供世界級的IT基礎設施,使他們能夠獲得真正的、有競爭力的商業優勢。我們與生態系統合作伙伴合作,以確保我們的客戶擁有最新的數據科學工具,幫助他們將數據洞察力轉換為業務成果。我們的目標在于,把NVIDIA新的GPU加速的開放源數據科學軟件與我們NVLink啟用的Dell EMC PowerEdge服務器組合相結合,從而顯著地加速機器學習和大數據分析領域的發展。”
FASTDATA.io公司創始人兼首席執行官——Alen Capalik
“NVIDIA發起的RAPIDS開源項目將徹底改變數據科學管道。在FASTDATA.io公司,我們很高興我們的Plasma引擎——第一個充分利用NVIDIA圖形處理器實時處理無限運動數據的軟件——將在這場變革中發揮作用。”
喬治亞理工學院教授 ——David Bader
“喬治亞理工學院很高興為RAPIDS作出貢獻,這是NVIDIA GPU加速分析的開源平臺。在這個海量數據的時代,我們對RAPIDS圖形庫的貢獻將有助于數據科學家從不斷增長的數據集中獲得有意義的知識。”
Graphistry公司聯合創始人兼首席執行官——Leo Meyerovich
?“Graphistry公司是最早的GPU云創業公司之一,已經悄悄地為那些必須梳理金融、網絡安全、運營和銷售記錄的敏感的F500和聯邦團隊帶來了可視性的新高度。作為RAPIDS早期貢獻者以及Apache Arrow背后的力量,Graphistry在RAPID上下了很大的賭注。該公司將可視化計算結構重新定義為瀏覽器和云圖形處理器的實時結合,因此而聞名并且正在與RAPIDS團隊合作,將下一級表格分析添加到其現有的圖形GPU可視化分析核心中。”
H2O.ai公司創始人兼首席執行官——Sri Ambati
?“機器學習正在改變企業并且NVIDIA圖形處理器正在加速企業發展。在開源社區和客戶的支持下,H2O.ai使GPU上的機器學習成為主流,并獲得了高德納的認可,成為數據科學和機器學習平臺方面的領導者。NVIDIA利用RAPIDS(開源數據科學庫)支持GPU機器學習社區,這是為發展GPU數據科學生態系統而作出的及時努力,也是對我們將人工智能帶入數據中心這個共同使命的認可。由于了我們的合作,由NVIDIA圖形處理器驅動的H2O無驅動人工智能一直呈指數型采用曲線,使人工智能更快捷、更低廉、更容易。”
INRIA((scikit-learn))Scikit-Learn 運營部總監——Gael Varoquaux
?“NVIDIA正在用RAPIDS等新的生產力工具證明加速數據科學的真正進步。結合高級語言中的非常快速計算是數據分析團隊的一項變革。我們很高興NVIDIA已經選擇使RAPIDS與scikit-learn兼容。我們相信它可以造福于我們的社區,并期待著與NVIDIA合作。”
Kinetica公司聯合創始人兼首席技術官——Nima Negahban
?“開源庫的RAPIDS套件是一個重大改進,使數據科學家能夠在他們的模型開發工具鏈上利用GPU的力量。RAPIDS可以極大地簡化和優化培訓,提高模型精度,而不需要數據科學家進行任何復雜邏輯的再設計。我們很高興在這個過程中與NVIDIA合作,使人工智能民主化——借助NVIDIA驅動模型的開發和培訓以及Kinetica對這些模型的驅動操作化和部署,使企業能從他們的數據中獲得最大的洞察力。”
聯想數據中心集團總裁——Kirk Skaugen
?“企業客戶和學術界在開發和測試新戰略時,不斷面臨處理和分析大量數據的挑戰。新的RAPIDS開源軟件承諾通過在NVIDIA圖形加速器上端到端運行工作流來加速工作流。我們相信,這種創新與合作將對客戶產生重大影響。”
MapR公司首席執行官——John Schroeder
?“RAPIDS是數據科學的一項突破性公告,更重要的是,它能夠用數據科學直接影響組織。MapR通過側重互補數據管理和部署活動來支持這項工作,以配合端到端的RAPIDS數據科學培訓和模型工作流程。”
NERSC Python數據分析負責人——Rollin Thomas
?NERSC支持大學、國家實驗室和工業領域的7000多名研究人員。他們越來越希望通過高效、高性能的方式與來自復雜科學模擬或實驗和觀測設備(如粒子加速器和望遠鏡)的數據進行交互。我們期待著與NVIDIA合作,將新的高性能Python數據分析工具(如RAPIDS)交到我們的用戶手中,以加快其在眾多科學領域中的發現速度。” ?
NetApp公司ONTAP高級副總裁 ——Octavian Tanase
?“組織必須利用新的人工智能功能來驅動競爭優勢并加速數字化轉型。由NVIDIA圖形處理器驅動的RAPIDS與NetApp的AFF A800云連接的全閃存存儲相結合,將有助于客戶自信地利用不斷增長的數據資源,這些數據資源具有提供、培訓和操作急需數據的人工智能應用程序需要的幾乎無限的可擴展性和性能。”
NumFOCUS董事會董事長——Andy Terrel
?“NVIDIA對NumFOCUS的支持代表著對社區的投資。作為數據科學領域的兩個領導者,我們認為我們的合作將為科學和企業等帶來更好的工具。”
OmniSci首席執行官兼聯合創始人——Todd Mostak
“創建機器學習模型時,數據科學家在NVIDIA圖形處理加速器上使用OmniSci來加速數據探索和特性工程。現在,我們的用戶可以在OmniSci中交互式地查詢和可視化數據,然后將結果通過管道輸入到RAPIDS的開源庫中,從而實現強大的端到端數據科學工作流。此外,NVIDIA與OmniSci一起加快了在模型上構建和迭代,從而提高了準確性和加速了部署時間。”
Pure Storage公司 FlashBlade總經理——Matt Burr
?“我們的客戶著眼于那些將其與競爭對手分開的洞察力數據,為其終端用戶提供不斷增長的價值。RAPIDS擴大了NVIDIA圖形處理器加速和Pure Storage公司 FlashBlade對數據科學和機器學習工作流的影響,以幫助更多的數據科學家加快其培訓管道,同時為更快實現結果保持最佳的低延遲性能。 ?”
Quansight公司NumPy 及SciPy 開創者、Anaconda聯合創始人兼總監、Quansight創始人兼首席執行官——Travis Oliphant
?“長期以來,NVIDIA一直是先進分析加速工具的領導者,一直免費提供高速庫,供數據科學社區的開發人員使用。我很高興看到他們擴展的數據科學開源框架及其對端到端軟件和硬件解決方案的承諾。這些創新將極大地加速整個數據科學工作流程,并在更廣泛的開源生態系統中發起創新。”
SAP首席創新官——Juergen Mueller
“SAP在過去幾年里與NVIDIA密切合作,將GPU加速應用于眾多SAP Leonardo機器學習支持的解決方案。目前我們正在進一步推進這種合作,以探索由RAPIDS提供的可能性,它承諾對GPU上的數據科學管道進行超荷充電。對于數據科學家來說,這是加速數據科學和機器學習的重要一步,因為我們通過SAP Leonardo和SAP HANA為企業帶來了智能。”
SAS人工智能和機器學習的負責人——Saratendu Sethi
“我們正在與NVIDIA緊密合作,從而為新的GPU加速數據科學庫做出貢獻。我們期待著今后的SAS Viya產品能夠利用RAPIDS,這樣以來我們的客戶便能更快地從他們的數據中獲得有價值的見解。”
SQream公司首席執行官——Ami Gal
?“NVIDIA在RAPIDS方面所做的工作為大大地加速數據科學管道的發展提供了一個激動人心的機遇。通過將大量數據中SQream DB的管道功能融入RAPIDS數據科學平臺,我們期望數據科學家能夠比以前更快地運行模型,并能夠在更多的數據上運行模型。”
加利福尼亞大學,教授兼Gunrock項目負責人,Davis - John Owens
?“我們很高興成為RAPIDS社區的一員,并期待著與NVIDIA及其合作伙伴合作,打造性能最高、最全面的數據分析生態系統。”
總結
以上是生活随笔為你收集整理的NVIDIA针对大规模数据分析和机器学习推出RAPIDS开源GPU加速平台!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: matlab 读取脉冲数,已知一段波形,
- 下一篇: centos1-修改ip地址、更换密码