数据科学备忘录
學習筆記,僅供參考
翻譯自:Guide to Data Science Cheat Sheets
在過去的幾年里,隨著人們對數據科學家的熱情和需求的持續增長,人們渴望學習如何在這個看似有利可圖的職業中加入、學習、發展和茁壯成長。作為一個寫分析文章并偶爾教授它的人,我經常被問到——我如何成為一名數據科學家?
我的大學科學與統計學的多學科數據處理似乎有很大的不同。
但是,撇開營銷術語不談,數據科學家是一個可以用幾種語言(主要是R、Python和SQL)編寫代碼的人,可以使用足夠的統計知識來為企業提供決策時可操作的見解,從而為數據查詢、操作、聚合和可視化提供幫助。
由于數據科學家這個相當實際的定義被“數據科學家”求職網站上的附加詞匯所強化,這里有一些學習數據科學主要語言的工具——Python、R和SQL。
包含SQL可能會讓一些人感到驚訝(這不是NoSQL時代嗎?),但這是有邏輯原因的。PIG和Hive查詢語言都與SQL(原始的結構化查詢語言)密切相關。此外,還可以單獨使用R中的sqldf包(以及針對Pythonic數據科學家使用較少的python sql或python sqlparse庫),甚至可以在舊的冠軍語言SAS中使用Proc-sql命令,并完成數據科學家預期要做的大部分工作(至少在數據咀嚼方面)。
對于Python來說,下面所列的是一份相當不完整的列表,因為Python是可以用于許許多多的事情。
所有成千上萬的R包對有抱負的數據科學家來說都有用嗎?并不是。
因此,我們為您選擇了合適的備忘錄。請注意,這是一個精心策劃的備忘錄。
Python的備忘單:
- Python
- NumPy, SciPy and Pandas
R的備忘單:
- Short Reference Card
- R Functions for Regression Analysis
- Time Series
- Data Mining
- Quandl
R、Python(和Matlab)之間的交叉引用:
- mathesaurus.sourceforge.net/matlab-python-xref.pdf
SQL備忘單:
- SQL Joins
- SQL and Hive
附加的:
- Cheat Sheets for Java
- Linux Cheat Sheet
總結
- 上一篇: Df- Linux必学的60个命令
- 下一篇: 回归素材(part7)--机器学习入门到