如何成为一位数据科学家(图灵访谈)
學(xué)習(xí)筆記,僅供參考,有錯(cuò)必糾
摘自:《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》作者Peter Harrington:如何成為一位數(shù)據(jù)科學(xué)家
訪談對(duì)象:Peter Harrington
- 機(jī)器學(xué)習(xí)似乎比其他計(jì)算機(jī)科學(xué)學(xué)科都要難,特別是對(duì)于數(shù)學(xué)不太好的程序員而言。你對(duì)這些程序員有什么樣的建議呢?
我建議應(yīng)該先自學(xué)基本的概率、統(tǒng)計(jì),以及線性代數(shù)。你不需要學(xué)一個(gè)學(xué)期那么長(zhǎng)的課,這些基礎(chǔ)知識(shí)就會(huì)讓你有很大收獲。有很多在線資源,比如Kahn academy視頻。(我在56.com和Kahn academy找了一下有很多英文的,也有一些中文的。)也有一些比較容易起步的書(shū),我比較熟悉有美國(guó)英文版的“teach yourself”(自學(xué))系列, “statistics for dummies”(傻瓜統(tǒng)計(jì)), “probability refresher”(概率補(bǔ)習(xí)),“statistics demystified”(統(tǒng)計(jì)解惑)等等。
我其實(shí)認(rèn)為這里面其實(shí)很有商機(jī)。Kahn academy視頻很不錯(cuò),因?yàn)樗鼈兌己芏?#xff0c;但遺憾的是這些視頻都是英文的。我看見(jiàn)的中文線性代數(shù)視頻都很長(zhǎng)。如果你能做出像Kahn academy那樣的中文視頻,我覺(jué)得是會(huì)非常受歡迎的。
- 如何進(jìn)階學(xué)習(xí)機(jī)器學(xué)習(xí)?對(duì)于初學(xué)者是否有一個(gè)類(lèi)似于路線圖的東西?你有什么推薦書(shū)單嗎?
我會(huì)讀Witten 和 Frank所著的《數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具與技術(shù)》,這里面涉及的數(shù)學(xué)很少,但是又對(duì)普通算法做了很好的介紹。我覺(jué)得緊接著就該讀Tan, Steinbach, 以及Kumar的《數(shù)據(jù)挖掘?qū)д摗贰?/p>
當(dāng)然,這些書(shū)都很厚,如果你想馬上就搞明白一些東西,估計(jì)就不想讀這些大部頭了。如果要把某個(gè)算法弄明白,我會(huì)在網(wǎng)上找很多教程。比如Adboost算法,我認(rèn)為多讀一些不同的教程比只讀一個(gè),深入鉆研要好很多。
最后我覺(jué)得應(yīng)該多動(dòng)手玩玩實(shí)例。問(wèn)問(wèn)你自己:如果我改變這個(gè)數(shù)據(jù),結(jié)果會(huì)是怎么樣的呢?
- 對(duì)于有些人來(lái)說(shuō)“算法”才是機(jī)器學(xué)習(xí)真正有趣的地方,但是機(jī)器學(xué)習(xí)里面總有一些苦活累活不那么有意思,比如數(shù)據(jù)預(yù)處理。你是怎么完成這些“不那么有趣”的工作的?
當(dāng)然,肯定有無(wú)聊的工作,所以你一定要把這部分工作自動(dòng)化,這樣你就不需要重復(fù)做這些無(wú)聊的工作了。這樣做也會(huì)讓你變成一個(gè)更好的軟件開(kāi)發(fā)者。
- 數(shù)據(jù)科學(xué)家被評(píng)為世界上最火的工作之一,你認(rèn)同嗎?您本人作為一個(gè)數(shù)據(jù)科學(xué)家,有什么可以和我們分享的經(jīng)驗(yàn)嗎?要成為一個(gè)數(shù)據(jù)科學(xué)家需要有什么條件?
我認(rèn)為數(shù)據(jù)科學(xué)家現(xiàn)在確實(shí)很好找工作。什么是數(shù)據(jù)科學(xué)家呢?我認(rèn)為數(shù)據(jù)科學(xué)家是介于統(tǒng)計(jì)學(xué)家和軟件工程師中間的一種工作。公司、個(gè)人、NPO,甚至運(yùn)動(dòng)隊(duì)都需要根據(jù)數(shù)據(jù)來(lái)做決策。他們需要可以分析數(shù)據(jù)的人。這需要我之前提過(guò)的兩種條件。人們不需要單純的統(tǒng)計(jì)學(xué)家,這些人可能對(duì)于爭(zhēng)論自己到底用不用貝葉斯定理更感興趣,人們需要的是真正能做實(shí)事的人。
所以我也建議大家多動(dòng)手做一些東西。這是什么意思呢?創(chuàng)造一些項(xiàng)目,收集數(shù)據(jù),預(yù)處理數(shù)據(jù),然后做一些數(shù)據(jù)分析,展示數(shù)據(jù),最后向公眾展示這些數(shù)據(jù)。如果你做了很多這樣的事情,那么你就有一個(gè)可以用來(lái)向你未來(lái)老板或者其他人展示的檔案夾。幾乎我書(shū)里的每個(gè)例子都可以用來(lái)做成一個(gè)網(wǎng)站或者智能電話app,這些都是你可以示人的資本。
- 很多大(數(shù)據(jù))公司,比如Google, Facebook 和 Baidu都投入很多精力在深度學(xué)習(xí)上。你認(rèn)為深度學(xué)習(xí)會(huì)在未來(lái)取代“人工特性+機(jī)器學(xué)習(xí)”的方法嗎?
不,我不認(rèn)為深度學(xué)習(xí)會(huì)取代人工特性+機(jī)器學(xué)習(xí)。有很多領(lǐng)域,深度學(xué)習(xí)確實(shí)很擅長(zhǎng),比如識(shí)別圖片。但是仍然有很多領(lǐng)域現(xiàn)存算法的表現(xiàn)更勝一籌。
總結(jié)
以上是生活随笔為你收集整理的如何成为一位数据科学家(图灵访谈)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 断轴!韩系豪华车捷尼赛思GV60上市两个
- 下一篇: No, Machine Learning