数据科学产业中哪些架构最热门?本文为你盘点了 5 款!
作者 |?Sai Krishna
譯者 | 火火醬,責(zé)編 | Carol
封圖 |?CSDN?付費(fèi)下載自視覺(jué)中國(guó)
地球上的數(shù)據(jù)量每分每秒都在增加,海量的數(shù)據(jù)源源不斷地從四面八方涌入各種機(jī)構(gòu)組織,而這些數(shù)據(jù)最終或許會(huì)成為能夠指引我們做出戰(zhàn)略決策的寶貴財(cái)富。
這就是數(shù)據(jù)科學(xué)行業(yè)存在的根本意義。它將數(shù)據(jù)轉(zhuǎn)化為知識(shí),將信息轉(zhuǎn)化為可行的方法,并協(xié)助人們做出以數(shù)據(jù)為依據(jù)的決策。在此背景下,各企業(yè)都在不斷加強(qiáng)數(shù)據(jù)的收集和利用,各企業(yè)急需能夠解析數(shù)據(jù)的人,通過(guò)應(yīng)用人工智能(AI)、機(jī)器學(xué)習(xí)(ML)以及其他技術(shù)來(lái)得出解決方案。
同樣,在數(shù)據(jù)領(lǐng)域工作也是很多人謀求成功的首選之路。這里有最前沿的工具技術(shù)知識(shí)、體面的薪水和廣闊的晉升空間。此外,不可否認(rèn)的是,“數(shù)據(jù)科學(xué)家”這個(gè)頭銜絕對(duì)會(huì)為你的簡(jiǎn)歷錦上添花。
接下來(lái),我們將一起來(lái)了解在該領(lǐng)域中最熱門(mén)的前五名數(shù)據(jù)科學(xué)架構(gòu)。
Apache Kafka
最初,LinkedIn公司以“消息隊(duì)列”的構(gòu)想開(kāi)發(fā)了Kafka,后來(lái)將其捐贈(zèng)給了Apache軟件基金會(huì)(Apache Software Foundation)。而現(xiàn)在,Kafka成為了一個(gè)由Java和Scala編寫(xiě)的開(kāi)源流處理軟件平臺(tái),旨在實(shí)現(xiàn)高吞吐、低延遲以及實(shí)時(shí)數(shù)據(jù)處理。由于它能從各內(nèi)部平臺(tái)訪問(wèn)并提供大量數(shù)據(jù),所以在數(shù)據(jù)科學(xué)行業(yè)中大受歡迎。包括Airbnb、LinkedIn 和Netflix在內(nèi)的多家企業(yè)都在使用Apache Kafka。
Jupyter Notebooks
Jupyter Notebooks起源于2014年的IPython Project項(xiàng)目,該項(xiàng)目旨在為跨所有編程語(yǔ)言的交互式數(shù)據(jù)科學(xué)和科學(xué)計(jì)算提供支持。作為一款開(kāi)源web應(yīng)用程序,它能夠創(chuàng)建并共享包含實(shí)時(shí)代碼、方程、可視化和敘述性文本的文檔。
Jupyter Notebook是一款能夠協(xié)助數(shù)據(jù)從業(yè)者進(jìn)行交互式開(kāi)發(fā)和呈現(xiàn)數(shù)據(jù)科學(xué)項(xiàng)目的強(qiáng)大工具。其工作流的直觀性使其適用于各種目的:包括數(shù)據(jù)清理和轉(zhuǎn)換、數(shù)據(jù)可視化、數(shù)值模擬、統(tǒng)計(jì)建模等等。
目前,該項(xiàng)目與多家公司(Continuum Analytics、Github、谷歌、微軟、Rackspace)和大學(xué)(喬治華盛頓大學(xué)、紐約大學(xué)、加州大學(xué)伯克利分校)都建立了合作關(guān)系。
Pandas
Pandas是一款針對(duì)Python語(yǔ)言編寫(xiě)的開(kāi)源軟件庫(kù)(有時(shí)也被稱為Python的Microsoft Excel),可用于數(shù)據(jù)的分析、操作和可視化。框架中提供的多種工具可對(duì)數(shù)據(jù)集進(jìn)行合并、處理、二次處理和切片,因此是處理不完整、雜亂和未標(biāo)記數(shù)據(jù)的不二之選。它能夠處理數(shù)值表和時(shí)間序列的數(shù)據(jù)結(jié)構(gòu)和操作。
毫無(wú)疑問(wèn),Pandas是在工程、金融、社會(huì)科學(xué)和統(tǒng)計(jì)領(lǐng)域進(jìn)行數(shù)據(jù)分析的最佳選擇,而熟練使用Pandas絕對(duì)會(huì)為你的Python生涯增加成功籌碼。
Scikit-learn
作為熱門(mén)Python開(kāi)源ML庫(kù)之一,Scikit-learn是行業(yè)內(nèi)許多大神的首選,它通過(guò)一致的調(diào)用接口為Python用戶提供了通用算法。該框架中包含了對(duì)數(shù)據(jù)進(jìn)行分類、回歸、聚類和降維的強(qiáng)大算法集,但同時(shí),它也常被用來(lái)處理小型數(shù)據(jù)集。
鑒于Scikit-learn在開(kāi)發(fā)人員社區(qū)和ML專家中有口皆碑,我們有理由相信,針對(duì)其進(jìn)行的各種研究將會(huì)為其帶來(lái)更好的數(shù)據(jù)處理能力、更好的內(nèi)存和速度效率以及更優(yōu)化的模型。
TensorFlow
TensorFlow是一款由谷歌開(kāi)發(fā)的開(kāi)源ML庫(kù),通過(guò)使用數(shù)據(jù)流圖來(lái)進(jìn)行數(shù)值計(jì)算。圖中的節(jié)點(diǎn)表示數(shù)據(jù)運(yùn)算,線表示節(jié)點(diǎn)間相互聯(lián)系的多維數(shù)據(jù)數(shù)組(即張量)。該架構(gòu)能為那些想要?jiǎng)?chuàng)建和試驗(yàn)深度學(xué)習(xí)架構(gòu)的人提供方便的數(shù)據(jù)集成公式,例如將圖表、SQL表和圖像輸入到一起。
此外,它還實(shí)現(xiàn)了可移植性,能夠在CPU、GPU、臺(tái)式機(jī)、移動(dòng)設(shè)備和服務(wù)器上運(yùn)行。鑒于其谷歌開(kāi)發(fā)背景,因此不會(huì)出現(xiàn)斷更的情況,可以放心使用。包括Airbus、IBM 和 Twitter在內(nèi)的多家企業(yè)都是其忠實(shí)用戶。
原文鏈接:https://datafloq.com/read/the-popular-frameworks-data-science-industry/8543
本文由 CSDN 云計(jì)算翻譯,轉(zhuǎn)載請(qǐng)注明出處
推薦閱讀如何成為一名黑客?
一篇與眾不同的 String、StringBuilder 和 StringBuffer 詳解
干貨 | 大白話徹底搞懂 HBase RowKey 詳細(xì)設(shè)計(jì)
發(fā)送0.55 ETH花費(fèi)近260萬(wàn)美元!這筆神秘交易引發(fā)大猜想
Python 爬取周杰倫《Mojito》MV 彈幕,這個(gè)評(píng)論亮了!
谷歌 Chrome 將棄用“黑名單”,“Master/Slave”主從模式也要換名?
京東姚霆:推理能力,正是多模態(tài)技術(shù)未來(lái)亟需突破的瓶頸!
真香,朕在看了!
總結(jié)
以上是生活随笔為你收集整理的数据科学产业中哪些架构最热门?本文为你盘点了 5 款!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: IT 实力较量:决战超级数据中心之巅
- 下一篇: 国内厂商 Onyx 违反 GPL 协议,