数据科学备忘录
學(xué)習(xí)筆記,僅供參考
翻譯自:Guide to Data Science Cheat Sheets
在過(guò)去的幾年里,隨著人們對(duì)數(shù)據(jù)科學(xué)家的熱情和需求的持續(xù)增長(zhǎng),人們渴望學(xué)習(xí)如何在這個(gè)看似有利可圖的職業(yè)中加入、學(xué)習(xí)、發(fā)展和茁壯成長(zhǎng)。作為一個(gè)寫分析文章并偶爾教授它的人,我經(jīng)常被問(wèn)到——我如何成為一名數(shù)據(jù)科學(xué)家?
我的大學(xué)科學(xué)與統(tǒng)計(jì)學(xué)的多學(xué)科數(shù)據(jù)處理似乎有很大的不同。
但是,撇開(kāi)營(yíng)銷術(shù)語(yǔ)不談,數(shù)據(jù)科學(xué)家是一個(gè)可以用幾種語(yǔ)言(主要是R、Python和SQL)編寫代碼的人,可以使用足夠的統(tǒng)計(jì)知識(shí)來(lái)為企業(yè)提供決策時(shí)可操作的見(jiàn)解,從而為數(shù)據(jù)查詢、操作、聚合和可視化提供幫助。
由于數(shù)據(jù)科學(xué)家這個(gè)相當(dāng)實(shí)際的定義被“數(shù)據(jù)科學(xué)家”求職網(wǎng)站上的附加詞匯所強(qiáng)化,這里有一些學(xué)習(xí)數(shù)據(jù)科學(xué)主要語(yǔ)言的工具——Python、R和SQL。
包含SQL可能會(huì)讓一些人感到驚訝(這不是NoSQL時(shí)代嗎?),但這是有邏輯原因的。PIG和Hive查詢語(yǔ)言都與SQL(原始的結(jié)構(gòu)化查詢語(yǔ)言)密切相關(guān)。此外,還可以單獨(dú)使用R中的sqldf包(以及針對(duì)Pythonic數(shù)據(jù)科學(xué)家使用較少的python sql或python sqlparse庫(kù)),甚至可以在舊的冠軍語(yǔ)言SAS中使用Proc-sql命令,并完成數(shù)據(jù)科學(xué)家預(yù)期要做的大部分工作(至少在數(shù)據(jù)咀嚼方面)。
對(duì)于Python來(lái)說(shuō),下面所列的是一份相當(dāng)不完整的列表,因?yàn)镻ython是可以用于許許多多的事情。
所有成千上萬(wàn)的R包對(duì)有抱負(fù)的數(shù)據(jù)科學(xué)家來(lái)說(shuō)都有用嗎?并不是。
因此,我們?yōu)槟x擇了合適的備忘錄。請(qǐng)注意,這是一個(gè)精心策劃的備忘錄。
Python的備忘單:
- Python
- NumPy, SciPy and Pandas
R的備忘單:
- Short Reference Card
- R Functions for Regression Analysis
- Time Series
- Data Mining
- Quandl
R、Python(和Matlab)之間的交叉引用:
- mathesaurus.sourceforge.net/matlab-python-xref.pdf
SQL備忘單:
- SQL Joins
- SQL and Hive
附加的:
- Cheat Sheets for Java
- Linux Cheat Sheet
總結(jié)
- 上一篇: Df- Linux必学的60个命令
- 下一篇: 回归素材(part7)--机器学习入门到