一个数据科学家需要哪些核心工具包?
作者 |?Rebecca Vickery
譯者 |?天道酬勤?責編 | 徐威龍
封圖|?CSDN 下載于視覺中國
數據科學家的主要作用是將機器學習、統計方法和探索性分析應用到數據中,來提取見解并幫助制定決策。 編程和計算工具的使用對該角色來說必不可少。 實際上,許多人都用這句名言描述該領域:數據科學家比任何軟件工程師都更擅長統計科學,也比任何統計學家都更擅長軟件工程。
如果你正踏上學習數據科學的旅程,或想要提高現有的技能,那么很有必要了解你所需的工具,以便有效的執行這個角色。
在過去的十年中,用于數據科學的Python逐漸流行起來,目前是該領域從業人員最流行的編程語言。在下面的文章中,作者將概述數據科學家使用的核心工具,這些工具主要側重于基于Python的工具。
1、NumPy?
NumPy是一個功能強大的庫,用于使用Python執行數學和科學計算。 你會發現,許多其他數據科學庫都將它作為運行的依賴項,因為它是基礎科學軟件包之一。
該工具以N維數組對象的形式與數據交互。 它提供了用于處理數組、執行數組運算、基本統計信息和常見的線性代數計算(例如叉和點積運算)的工具。
2、Pandas
Pandas庫簡化了Python中數據的操作和分析。 Pandas使用兩個基本數據結構。 它們是Series(一個一維標記的數組)和一個DataFrame(一個二維標記的數據結構)。Pandas軟件包具有多種工具,可以從各種來源讀取數據,包括CSV文件和關系數據庫。
一旦數據可以作為這些數據結構之一,Pandas會提供一系列非常簡單的功能,用于清理、轉換和分析數據。 這些工具包括處理丟失數據的內置工具、簡單的繪圖功能和類似Excel的數據透視表。
3、SciPy
SciPy是另一個核心科學計算Python庫。 該庫是為了與NumPy數組進行交互而構建的,并且依賴于NumPy提供的許多功能。 但是,盡管要使用這個包,你需要同時安裝和導入NumPy,無需直接導入功能,因為該功能自動可用。?
Scipy有效地建立在NumPy中可用的數學功能上。 在NumPy提供非常快速的數組操作的地方,SciPy可以處理這些數組并啟用高級數學和科學計算的應用。
4、Scikit-learn
Scikit-learn是一個用戶友好、全面而強大的機器學習庫。 它包含將大多數機器學習技術應用于數據的功能,并且為每種功能都提供一致的用戶界面。
該庫還提供了用于數據清理、數據預處理和模型驗證的工具。 它最強大的功能之一是機器學習管道的概念。 這些管道使機器學習中的各個步驟(例如預處理、訓練等)能夠鏈接到一個對象中。
5、Keras
Keras是Python API,旨在提供一個簡單的接口來處理神經網絡。像Tensorflow這樣的流行深度學習庫因不夠友好而臭名昭著。? Keras位于這些框架之上,提供了一種與之交互的友好方式。
Keras支持卷積和循環網絡,提供對多后端的支持,并且可以在CPU和GPU上運行。?
6、Matplotlib
Matplotlib是Python中基本的繪圖庫之一。 許多其他流行的繪圖庫都依賴于Matplotlib API,包括Pandas繪圖功能和Seaborn。
Matplotlib是一個非常豐富的繪圖庫,并包含用于創建各種圖表和可視化效果的功能。 此外,它還包含創建動畫和交互式圖表的功能。
7、Jupyter notebooks
Jupyter notebooks是一個交互式Python編程接口。 在notebook環境中編寫Python的好處在于,它允許你直接在程序中輕松呈現可視化、數據集和數據摘要。?
這些notebooks也是共享數據科學工作的理想工具,因為它們可以通過直接在代碼和可視化中包含標記文本來進行高度注釋。
8、Python IDE
Jupyter notebooks是一個編寫數據科學代碼的有用地方。然而,在許多情況下,需要將代碼寫入可重用模塊中。 如果你正在編寫代碼來將機器學習模型投入生產,則尤其需要如此。?
在這些情況下,集成開發環境(IDE)非常有用,因為它們提供了許多有用的功能,例如集成的Python樣式指南、單元測試和版本控制。 作者本人也使用PyCharm,但還有許多其他可用的開發工具。
9、Github
Github是一個非常流行的版本控制平臺。 數據科學的基本原則之一是,代碼和結果應該由你自己在將來的某個時間點或由其他人再現。 版本控制提供了一種機制,可以在線跟蹤和記錄對工作的更改。
此外,Github支持在項目上進行安全形式的協作。 這是通過一個人復制一個分支(實際上是項目的一個副本),在本地進行更改,然后將其上傳以供審核,然后再將其集成到項目中來實現的。?
本文簡要介紹了數據科學工作的核心工具包,感謝你的閱讀,希望這篇文章對你有用,歡迎評論區和我們討論。
推薦閱讀:另一種聲音:容器是不是未來? GitHub 疑遭中間人攻擊,最大暗網托管商再被黑! 漫畫:什么是 “模因” ? 1 分鐘抗住 10 億請求!某些 App 怎么做到的?| 原力計劃 2020,國產AI開源框架“亮劍”TensorFlow、PyTorch 探索比特幣獨特時間鏈、挖礦費用及場外交易的概念 真香,朕在看了!總結
以上是生活随笔為你收集整理的一个数据科学家需要哪些核心工具包?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 牵手大企,关于图形计算、HPC与AI,N
- 下一篇: 我画了35张图,就是为了让你深入 AQS