如何自学成为一名数据科学家?
編者按:數(shù)據(jù)科學(xué)家被認(rèn)為是21世紀(jì)最性感的職業(yè)。可是如果你沒有大學(xué)學(xué)位,對(duì)數(shù)據(jù)和編程幾乎沒有了解該怎么辦?又或者你原先干的不是這一行想要轉(zhuǎn)行又怎么辦?一直致力于為學(xué)習(xí)數(shù)據(jù)科學(xué)提供指導(dǎo)的Dario Rade?i?給出了他的建議和參考書籍。原文發(fā)表在Medium上,標(biāo)題是:Becoming a Self-Taught Data Scientist
數(shù)據(jù)科學(xué)被認(rèn)為是21世紀(jì)最性感的工作。這是一項(xiàng)大膽的聲明,主要是因?yàn)槲覀兡壳安攀?019年,誰(shuí)知道50年后的就業(yè)市場(chǎng)會(huì)是什么樣子的呢。
但是,如果只看過(guò)去15至20年的職位的話,那就完全是另一回事了。在本文中我將為大家找出一些最出色的資源,讓你可以一舉打入數(shù)據(jù)科學(xué)的領(lǐng)域。而且你是否擁有其他領(lǐng)域的學(xué)位一點(diǎn)都沒有關(guān)系。
在本文中,我將深入探討自學(xué)數(shù)據(jù)科學(xué)的路線,同時(shí)還將為你提供一些出色的資源來(lái)開始學(xué)習(xí)。
本文適用于誰(shuí)?
沒有任何學(xué)位的人
在一段時(shí)間前完成大學(xué)學(xué)習(xí)并想轉(zhuǎn)向數(shù)據(jù)科學(xué)的人
好來(lái),我們就不要再花時(shí)間在介紹上了——現(xiàn)在,我們將深入探討真正的內(nèi)容。
自學(xué)是什么意思?
好問(wèn)題。簡(jiǎn)而言之,這意味著你沒有在自己感興趣的領(lǐng)域(比如說(shuō)數(shù)據(jù)科學(xué))修完任何的大學(xué)文憑,但是你又在從事著自己感興趣的這個(gè)領(lǐng)域的工作(比如數(shù)據(jù)科學(xué)),那么就可以認(rèn)為在該領(lǐng)域你是自學(xué)成才。
你還可以到網(wǎng)上去修在線課程,去看看書,但是并沒有花幾年在大學(xué)課桌后面接受正規(guī)教育。
那么我們就來(lái)看看自學(xué)成為數(shù)據(jù)科學(xué)家的第一種辦法是什么吧。
從零開始的路線
如果符合以下情況的話你屬于這一類:
你沒有大學(xué)學(xué)位
你對(duì)數(shù)據(jù)和編程的了解很少或一點(diǎn)都不了解
那該怎么辦?這是一個(gè)很難回答的問(wèn)題。首先,你需要掌握一些基礎(chǔ)知識(shí),主要是數(shù)學(xué)和統(tǒng)計(jì)技能。而且,你也的學(xué)習(xí)如何編碼,最好是用Python。
之前我寫過(guò)一篇文章,里面列出了進(jìn)入該領(lǐng)域所需先決條件的相關(guān)資源:
數(shù)據(jù)科學(xué)預(yù)修終極清單
我知道,要學(xué)的太多了,但是沒有人說(shuō)這件事情很容易。花一些時(shí)間來(lái)學(xué)習(xí)一下基礎(chǔ)知識(shí)。你不需要手工去做大量計(jì)算,扎實(shí)的可視化理解應(yīng)該就綽綽有余了。
我不建議手工進(jìn)行大量計(jì)算有一個(gè)原因——因?yàn)槟欠N事情計(jì)算機(jī)很容易做到。對(duì)于計(jì)算機(jī)來(lái)說(shuō)困難的是如何框定問(wèn)題,以及知道在哪種情況下要做什么(我說(shuō)的不是條件語(yǔ)句)。這就是數(shù)學(xué)和統(tǒng)計(jì)方法的可視化是一座金礦的原因。
如果你愿意花時(shí)間深入學(xué)習(xí)一下數(shù)學(xué)、統(tǒng)計(jì)學(xué)以及程序設(shè)計(jì)的話,那你的起點(diǎn)就跟那些幾年前在大學(xué)聽這些課學(xué)習(xí)數(shù)據(jù)科學(xué)的人一樣了(大學(xué)學(xué)數(shù)學(xué)的人除外)——至少在數(shù)據(jù)科學(xué)方面,那些完成學(xué)業(yè)的人絕對(duì)不會(huì)比你領(lǐng)先。
這就是從0開始的路線。接下來(lái)讓我們探索另一條路線,然后再深入去研究一下相關(guān)資源。
轉(zhuǎn)換職業(yè)的路線
轉(zhuǎn)行可能會(huì)很艱難。你可能已經(jīng)從事某個(gè)領(lǐng)域已經(jīng)好幾年,然后確定這一行不適合你。這沒什么。也許你覺得很無(wú)聊,也許是工作動(dòng)力不足……原因窮舉不盡,我不想過(guò)多討論。
你想要盡快做的一件事是要老實(shí)地評(píng)估自己的數(shù)學(xué)和統(tǒng)計(jì)技能。我是說(shuō)要誠(chéng)實(shí)面對(duì)自己。承認(rèn)自己把10年前學(xué)到的東西全都還給了老師并不是什么可恥的事情。
如果您對(duì)以下學(xué)科的理解不是100%自信的話:
線性代數(shù)
微積分
概率論
統(tǒng)計(jì)
程序設(shè)計(jì)
請(qǐng)參考本文并選擇適合你需求的資源——無(wú)論是書籍還是在線課程都可以。
OK,該說(shuō)的都說(shuō)了嗎?你可以繼續(xù)看看我個(gè)人選擇的資源。
為自學(xué)成才的數(shù)據(jù)科學(xué)家準(zhǔn)備的資源
不管出于什么原因讀大學(xué)都不應(yīng)該是個(gè)選項(xiàng),但是你可以每天花一兩個(gè)小時(shí)去探索一下數(shù)據(jù)科學(xué)的世界。緊跟著的下一步因人而異,這很大程度上取決于你喜歡看書還是看視頻。我更喜歡看視頻——因?yàn)槲也幌肷贤?小時(shí)的班后還要看書。
我會(huì)從我個(gè)人的最愛開始——這是我跟數(shù)據(jù)科學(xué)的第一次接觸:
適用數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的Python訓(xùn)練營(yíng)
Jose是一位了不起的講師。他先是簡(jiǎn)單回顧一下基本的Python庫(kù),然后很快你就可以開始用Pandas和Numpy 進(jìn)行數(shù)據(jù)分析,并用Matplotlib 和Seaborn進(jìn)行一些數(shù)據(jù)可視化。是的,你還會(huì)練習(xí)機(jī)器學(xué)習(xí)。東西不多,也不夠深入,但足以帶你入門。
如果你更喜歡讀書,那么我建議你看看這本書:
書名叫做《Python數(shù)據(jù)科學(xué)手冊(cè)》,大概有550頁(yè),涵括的內(nèi)容跟前面的視頻課程一樣—— numpy、Pandas、Matplotlib以及Scikit –Learn——都是些對(duì)搞數(shù)據(jù)科學(xué)至關(guān)重要的東西。
一旦掌握了基礎(chǔ)知識(shí),就該開始深入研究機(jī)器學(xué)習(xí)了。我有兩本值得推薦的好書,其中一本是免費(fèi)的。讓我們仔細(xì)講一下。
對(duì)于想要進(jìn)一步學(xué)習(xí)機(jī)器學(xué)習(xí)的人來(lái)說(shuō),《統(tǒng)計(jì)學(xué)習(xí)入門》是一本非常出色的書,還是免費(fèi)的。書里面偶爾會(huì)有些數(shù)學(xué)性的內(nèi)容,但是讀起來(lái)還是比較容易的。對(duì)于機(jī)器學(xué)習(xí)這么一個(gè)話題廣泛的領(lǐng)域來(lái)說(shuō),此書能夠把篇幅控制住400頁(yè)左右,說(shuō)明簡(jiǎn)潔性做的相當(dāng)好。唯一的缺點(diǎn)是這本書的代碼是用R語(yǔ)言而不是Python編寫的。但是,你可以試著把R 代碼“翻譯” 成Python 代碼,這肯定會(huì)是一個(gè)很好的練習(xí)。
我要推薦的下一本書叫《Scikit-Learn與TensorFlow機(jī)器學(xué)習(xí)實(shí)用指南》。如果我沒記錯(cuò)的話,這本書大概有700頁(yè),厚是厚了點(diǎn),但的確是一本好書。你還將學(xué)習(xí)到一些深度學(xué)習(xí)的概念,并且還會(huì)學(xué)習(xí)一些機(jī)器學(xué)習(xí)算法。
這兩本書你選哪一本都不錯(cuò),都是很好的入門讀物(最好兩本都看)。
至于在線課程,我得推薦一下Coursera的機(jī)器學(xué)習(xí)課程,因?yàn)檫@是機(jī)器學(xué)習(xí)的大牛吳恩達(dá)的課程學(xué)完這門課程需要10多周的時(shí)間,而且如果你基礎(chǔ)不是很牢的話很快就會(huì)感覺到學(xué)習(xí)的困難。但是,在總共大約12萬(wàn)的用戶里面這門拿到了4.9(滿分為5)的高分,這已經(jīng)說(shuō)明了一切。
實(shí)驗(yàn)不是用Python寫的,甚至也不是用R語(yǔ)言編寫的,而是用Matlab 的免費(fèi)版本Octave 寫的,這一點(diǎn)需要考慮一下。
后續(xù)計(jì)劃
你已經(jīng)看過(guò)書或者課程(或者這兩樣都做了)了,現(xiàn)在你想知道下一步該怎么做。后續(xù)該怎么做其實(shí)要因人而異,但理想情況下,你應(yīng)該去設(shè)立一個(gè)GitHub檔案。
找到5個(gè)好一點(diǎn)的數(shù)據(jù)集,然后盡自己最大努力去做。去進(jìn)行大量的分析,用Markdown格式寫下結(jié)論和想法,制作自述文件,全身心地投入進(jìn)去。
這樣做很重要,原因有兩個(gè):
這是在練習(xí)新習(xí)得的技能
向潛在員工展示你寫出高質(zhì)量代碼以及得出結(jié)論的能力
至于在職業(yè)發(fā)展方面,讓潛在雇主看到你的最好作品非常重要。你沒有大學(xué)學(xué)位,或者至少?zèng)]有相關(guān)學(xué)位的話,你得以某種方式向他們展示自己的能力,讓他們知道你知道怎么去完成工作。而GitHub是個(gè)不錯(cuò)的選擇。
花一兩個(gè)月的時(shí)間,做點(diǎn)讓自己感到驕傲的事情吧。
————
編輯?∑Gemini
來(lái)源:36Kr
?數(shù)學(xué)家探索兩個(gè)幾何世界之間的鏡像鏈接
?數(shù)學(xué)天才帕吉特:他有如電影般的人生際遇
?世界上最奇怪的數(shù)學(xué)天才,被獎(jiǎng)勵(lì)100萬(wàn)卻拒領(lǐng),寧愿過(guò)得像乞丐
?斯坦福大學(xué)教育學(xué)院院長(zhǎng):學(xué)習(xí)本身就是一門學(xué)問(wèn)
?如果沒有數(shù)學(xué),我們?nèi)绾螠y(cè)量
?數(shù)學(xué)的真相:物理時(shí)空的數(shù)字模型還是現(xiàn)實(shí)本身?
算法數(shù)學(xué)之美微信公眾號(hào)歡迎賜稿
稿件涉及數(shù)學(xué)、物理、算法、計(jì)算機(jī)、編程等相關(guān)領(lǐng)域,經(jīng)采用我們將奉上稿酬。
投稿郵箱:math_alg@163.com
歡迎加入算與數(shù)學(xué)術(shù)交流群,請(qǐng)?zhí)砑游⑿?#xff1a;nhyilin(備注:算數(shù)粉絲)
總結(jié)
以上是生活随笔為你收集整理的如何自学成为一名数据科学家?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 删过几十亿个账号,Facebook的人工
- 下一篇: Nature:给博士研究生的四条箴言Fo