7步让你get首个数据科学实习
由于數(shù)據(jù)科學(xué)的龐大和復(fù)雜,如果你沒(méi)有相關(guān)的實(shí)習(xí)經(jīng)歷的話,成為數(shù)據(jù)科學(xué)家的道路將會(huì)更加艱巨和困難。即使是經(jīng)驗(yàn)豐富的人,實(shí)習(xí)也是轉(zhuǎn)型進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域的一種有效方式。
那么,尋找數(shù)據(jù)科學(xué)實(shí)習(xí)有哪些技巧?本文總結(jié)了數(shù)據(jù)科學(xué)實(shí)習(xí)中需要了解的關(guān)鍵提示、技巧和資源。
對(duì)大數(shù)據(jù)【數(shù)據(jù)分析,數(shù)據(jù)挖掘】概念都是模糊不清的,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群:458345782,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系 。
在開始申請(qǐng)實(shí)習(xí)之前,第一步是什么?當(dāng)然是了解數(shù)據(jù)科學(xué)是什么。
為什么你想從事數(shù)據(jù)科學(xué)工作?是因?yàn)槟阆矚g編程、數(shù)學(xué)、統(tǒng)計(jì)還是因?yàn)槠渌峁┑臋C(jī)會(huì)?或者你是否只是順應(yīng)潮流,因?yàn)閿?shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)正是大勢(shì)所趨?
1.1 什么是數(shù)據(jù)科學(xué)?
每天生成的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng)。在過(guò)去十年中,數(shù)據(jù)來(lái)源以及收集和存儲(chǔ)數(shù)據(jù)的能力已經(jīng)取得了極大的進(jìn)步。公司正在使用各種工具和技術(shù)來(lái)挖掘數(shù)據(jù)中的模式并收集有用的見解。簡(jiǎn)而言之,這就是數(shù)據(jù)科學(xué)的全部意義所在。
數(shù)據(jù)為我們所做的一切提供動(dòng)力。
——Jeff Weiner,領(lǐng)英CEO
數(shù)據(jù)科學(xué)涉及使用各種技術(shù)來(lái)理解數(shù)據(jù)并構(gòu)建預(yù)測(cè)模型以做出業(yè)務(wù)決策。數(shù)據(jù)科學(xué)的一些流行應(yīng)用包括欺詐檢測(cè)、體育分析、航空公司航線規(guī)劃等。
因此,如果數(shù)據(jù)科學(xué)是關(guān)于從數(shù)據(jù)中獲取洞察力和發(fā)現(xiàn)模式,那么數(shù)據(jù)科學(xué)家和統(tǒng)計(jì)學(xué)家之間有什么區(qū)別?
1.2 數(shù)據(jù)科學(xué)家 vs 統(tǒng)計(jì)學(xué)家
數(shù)據(jù)科學(xué)家和統(tǒng)計(jì)學(xué)家都使用這些數(shù)據(jù)從中獲得有用的見解。統(tǒng)計(jì)學(xué)家專注于識(shí)別數(shù)據(jù)中的關(guān)系,而數(shù)據(jù)科學(xué)家則致力于使用關(guān)系并建立模型來(lái)預(yù)測(cè)未來(lái)結(jié)果。數(shù)據(jù)科學(xué)家的目標(biāo)是建立一個(gè)高精度的通用模型。
統(tǒng)計(jì)學(xué)家經(jīng)常使用R、Excel或MATLAB等工具,因?yàn)樗鼈冇性S多用于數(shù)據(jù)分析的庫(kù)。另一方面,數(shù)據(jù)科學(xué)家主要使用Python,Apache Spark等來(lái)探索數(shù)據(jù)和構(gòu)建模型。下面是一個(gè)很酷的信息圖,總結(jié)了這兩個(gè)角色之間的差異:
1.3 數(shù)據(jù)科學(xué)領(lǐng)域中的通用術(shù)語(yǔ)
機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)是利用算法(如線性回歸,邏輯回歸,決策樹等)從數(shù)據(jù)中學(xué)習(xí)并做出明智的決策。例如,根據(jù)過(guò)去的貸款人的數(shù)據(jù)來(lái)預(yù)測(cè)他們是否還會(huì)申請(qǐng)貸款。
深度學(xué)習(xí):深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,旨在模仿人類的決策能力。例如,識(shí)別給定圖像中的對(duì)象,或?qū)D像分類為貓或狗。
自然語(yǔ)言處理(NLP):NLP是數(shù)據(jù)科學(xué)的一個(gè)分支,負(fù)責(zé)分析、理解和從文本數(shù)據(jù)中獲取信息。你在亞馬遜上看到的所有評(píng)論,或者每天瀏覽的所有帖子,NLP技術(shù)會(huì)對(duì)其進(jìn)行分析并理解用戶的情緒。NLP是目前數(shù)據(jù)科學(xué)領(lǐng)域最熱門的領(lǐng)域之一。
計(jì)算機(jī)視覺:顧名思義,計(jì)算機(jī)視覺使機(jī)器能夠看到和理解周圍環(huán)境。有沒(méi)有注意到Facebook如何自動(dòng)建議圖片中的標(biāo)簽?或者自動(dòng)駕駛汽車如何檢測(cè)道路上的物體?這些是計(jì)算機(jī)視覺的主要例子。這是另一個(gè)將在未來(lái)幾年內(nèi)出現(xiàn)大量工作的領(lǐng)域。
推薦引擎:曾經(jīng)使用過(guò)Flipkart或Amazon的任何人都是推薦引擎的一部分。 這包括分析過(guò)去的用戶行為以提供相關(guān)的建議。“購(gòu)買此產(chǎn)品的客戶也購(gòu)買了”或“根據(jù)您過(guò)去的購(gòu)買情況推薦給您”是推薦工作的示例。
如果你是一個(gè)沒(méi)有行業(yè)經(jīng)驗(yàn)的新生,實(shí)習(xí)是在數(shù)據(jù)科學(xué)中發(fā)揮作用的最佳方式。與經(jīng)驗(yàn)豐富的人合作,可以為你提供獲得行業(yè)經(jīng)驗(yàn)的機(jī)會(huì)。那么,第一次數(shù)據(jù)科學(xué)實(shí)習(xí)需要哪些基本技能?
注意:我們將重點(diǎn)關(guān)注你的綜合能力,而不是典型的數(shù)據(jù)科學(xué)實(shí)習(xí)面試所需的軟技能(如良好的態(tài)度,信心等)。
2.1 理解統(tǒng)計(jì)學(xué)和概率
統(tǒng)計(jì)和概率是數(shù)據(jù)科學(xué)所需的基本核心技能。如果沒(méi)有對(duì)這兩者的充分理解,你將不會(huì)在這個(gè)領(lǐng)域(或面試過(guò)程中)取得很大進(jìn)展。從分析數(shù)據(jù)并做出有價(jià)值的推論到理解模型的工作原理,統(tǒng)計(jì)和概率的基本概念被整合到數(shù)據(jù)科學(xué)生態(tài)系統(tǒng)中。
我們可以利用許多統(tǒng)計(jì)技術(shù)和概率分布來(lái)理解給定數(shù)據(jù)的結(jié)構(gòu)。以下是你在處理數(shù)據(jù)科學(xué)問(wèn)題時(shí)將要使用的一些重要主題:
描述統(tǒng)計(jì)學(xué)
1.1 平均值、中值、眾數(shù)
1.2 方差和標(biāo)準(zhǔn)差
概率
2.1 伯努利試驗(yàn)&概率質(zhì)量函數(shù)
2.2 中心極限定理
2.3 正態(tài)分布
推論統(tǒng)計(jì)
3.1 置信區(qū)間
3.2 假設(shè)檢驗(yàn)
3.3 相關(guān)系數(shù)
你可以從這里了解到統(tǒng)計(jì)和概率這兩個(gè)領(lǐng)域中的一些常見面試問(wèn)題。
2.2 優(yōu)秀的編程技能(任何編程語(yǔ)言)
是的,你需要了解編程才能成為數(shù)據(jù)科學(xué)家,沒(méi)有逃避它的后路。AutoML(自動(dòng)機(jī)器學(xué)習(xí))正在逐漸被業(yè)界接受,但是現(xiàn)在,除了技術(shù)過(guò)硬的編碼技能之外別無(wú)選擇。
目前用于數(shù)據(jù)科學(xué)的兩種最流行的編程工具是Python和R。你必須至少熟悉其中一種。這些都是開源編程語(yǔ)言,并擁有一個(gè)日益增長(zhǎng)的大型活躍社區(qū)。
R主要用于探索性工作,是統(tǒng)計(jì)分析任務(wù)的首選,它有一個(gè)相對(duì)較大的統(tǒng)計(jì)軟件包庫(kù)。另一方面,Python是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)的首選,它有許多機(jī)器學(xué)習(xí)和深度學(xué)習(xí)庫(kù)和包。
如今,Python在業(yè)界的歡迎度肯定是更高了。如果你想學(xué)習(xí)高級(jí)機(jī)器學(xué)習(xí)主題,當(dāng)然還有深度學(xué)習(xí),這是一個(gè)簡(jiǎn)單的選擇。Python提供的靈活性在這些任務(wù)中是無(wú)與倫比的。R是一個(gè)非常熟練的工具,用于進(jìn)行探索性分析,包括產(chǎn)生一些非常有洞察力和美學(xué)上令人愉悅的情節(jié)。
2.3 基本的機(jī)器學(xué)習(xí)算法
如果你已經(jīng)了解了統(tǒng)計(jì)學(xué)和概率的基礎(chǔ)知識(shí),并且已經(jīng)掌握了編碼技能,那么下一步就是學(xué)習(xí)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)。熟悉常見的機(jī)器學(xué)習(xí)算法,如線性回歸、邏輯回歸、決策樹、隨機(jī)森林、樸素貝葉斯、k近鄰和支持向量機(jī)(support vector machines)。
試著關(guān)注一種算法并理解每種技術(shù)背后的直覺。擁有算法的理論知識(shí)及其工作方式與能夠?qū)崿F(xiàn)算法同樣重要。如果你知道算法的工作原理,那么理解算法的各種參數(shù),調(diào)整這些參數(shù)以及決定使用哪種算法與哪種類型的數(shù)據(jù)將會(huì)更加容易。
你已經(jīng)努力學(xué)習(xí)所有這些新概念。現(xiàn)在應(yīng)該學(xué)習(xí)如何展示自己的技能,從而補(bǔ)充所學(xué)。
僅統(tǒng)計(jì)、編程和機(jī)器學(xué)習(xí)的知識(shí)可能不會(huì)讓你獲得實(shí)習(xí)機(jī)會(huì)。你需要建立自己的數(shù)字形象。展現(xiàn)自己的巨大潛力以及在數(shù)據(jù)科學(xué)之旅中獲得的技能。讓大家知道你的能力!
在本節(jié)中,我們將介紹制作你的電子檔案的不同方法。
3.1 負(fù)責(zé)的項(xiàng)目
學(xué)習(xí)任何東西的最好方法是將知識(shí)付諸實(shí)踐。與其說(shuō)“我知道這種技術(shù)”,不如將其在項(xiàng)目中展示出來(lái)。構(gòu)建端到端的項(xiàng)目可讓你了解數(shù)據(jù)科學(xué)家在日常角色中可能面臨的各種可能性和挑戰(zhàn)。
你可以查找與自己感興趣的領(lǐng)域相關(guān)的開源項(xiàng)目。如果你是小說(shuō)的忠實(shí)粉絲,就可以用自然語(yǔ)言處理來(lái)分析你最喜歡的作家的作品。這表明了你對(duì)數(shù)據(jù)科學(xué)的熱情,并為你未來(lái)的就業(yè)提供了優(yōu)勢(shì)。
以下是一些實(shí)踐問(wèn)題,可以從中獲得一些寶貴的實(shí)踐經(jīng)驗(yàn):
· 機(jī)器學(xué)習(xí)
o 大型超市銷售
(https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/?utm_source=blog&utm_medium=internshiparticle)
o 貸款預(yù)測(cè)
(https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/?utm_source=blog&utm_medium=internshiparticle)
· 自然語(yǔ)言處理
o 情緒分析
(https://datahack.analyticsvidhya.com/contest/linguipedia-codefest-natural-language-processing-1/?utm_source=blog&utm_medium=internshiparticle)
o 笑話評(píng)級(jí)
(https://datahack.analyticsvidhya.com/contest/jester-practice-problem/?utm_source-blog&utm_medium=internshiparticle)
· 推薦引擎
(https://datahack.analyticsvidhya.com/contest/build-a-recommendation-engine-powered-by-ibm-cloud/?utm_source=blog)
· 計(jì)算機(jī)視覺
o Intel場(chǎng)景分類
(https://datahack.analyticsvidhya.com/contest/practice-problem-intel-scene-classification-challe/?utm_source=blog&utm_medium=internshiparticle)
o 人臉計(jì)數(shù)挑戰(zhàn)
(https://datahack.analyticsvidhya.com/contest/vista-codefest-computer-vision-1/?utm_source=blog&utm_medium=internshiparticle)
3.2 創(chuàng)建GitHub檔案
你還應(yīng)該在此階段開始構(gòu)建GitHub配置文件。這基本上是你的數(shù)據(jù)科學(xué)簡(jiǎn)歷,全世界的人都可以查閱。
大多數(shù)數(shù)據(jù)科學(xué)招聘人員和訪調(diào)員都會(huì)查看候選人的GitHub資料,以評(píng)估他/她的潛力。在處理項(xiàng)目時(shí),可以同時(shí)列出GitHub上的問(wèn)題陳述和代碼。以下是一個(gè)小清單,你可以在下次將代碼添加到GitHub:
· 添加問(wèn)題陳述
· 制作清晰的自述文件
· 編寫清楚的代碼
· 在代碼中添加評(píng)論
· 盡可能多的添加個(gè)人/課程項(xiàng)目
· 如果到達(dá)一定的級(jí)別,則可以參與開源項(xiàng)目
3.3 寫博客
撰寫文章是一個(gè)推動(dòng)數(shù)據(jù)科學(xué)事業(yè)的大秘訣,這有助于我們以更加清晰明了的方式理解該技術(shù)。
各種社區(qū)上,大家很樂(lè)意與你分享他們的想法和反饋。當(dāng)你將文章公開發(fā)表時(shí),人們經(jīng)常會(huì)分享他們的觀點(diǎn),例如“添加實(shí)際與預(yù)測(cè)的可視化可能會(huì)有所幫助”,這可以幫助你進(jìn)行改進(jìn)。
Quora可以被視為寫博客的另一種選擇。將復(fù)雜的主題分解為易于理解的單詞有助于你掌握主題并精細(xì)調(diào)整結(jié)構(gòu)化思維技能。
起初,你可以撰寫一些基本主題,例如使用thematplotlib庫(kù)的數(shù)據(jù)探索,實(shí)踐問(wèn)題的方法和解決方案,你完成的MOOC的摘要或注釋等。
3.4 創(chuàng)建并優(yōu)化領(lǐng)英個(gè)人資料
LinkedIn是世界上最大的職場(chǎng)網(wǎng)絡(luò)平臺(tái)。即使你是一個(gè)新人或者仍在讀研究生院,你也應(yīng)該學(xué)習(xí)使用LinkedIn。
招聘人員經(jīng)常使用LinkedIn來(lái)驗(yàn)證你的個(gè)人資料,或在有機(jī)會(huì)的情況下與你聯(lián)系。你可以將其視為第二份簡(jiǎn)歷或紙質(zhì)簡(jiǎn)歷的數(shù)字版本。如果你申請(qǐng)實(shí)習(xí)但個(gè)人資料未更新(或不存在),你可能會(huì)錯(cuò)過(guò)機(jī)會(huì)。
根據(jù)申請(qǐng)的實(shí)習(xí)優(yōu)化你的LinkedIn個(gè)人資料。更新你過(guò)去的經(jīng)歷(如果有的話)、教育水平、所做的項(xiàng)目和興趣。如果你尚未創(chuàng)建配置文件,請(qǐng)立即執(zhí)行。你還應(yīng)該通過(guò)與數(shù)據(jù)科學(xué)領(lǐng)域的人員建立聯(lián)系來(lái)開始構(gòu)建社交網(wǎng)絡(luò)。
領(lǐng)英里有很多極具影響力的人,他們會(huì)提供許多有用的發(fā)展建議。所以這一步請(qǐng)務(wù)必要做。
應(yīng)包含(或不應(yīng)包含)哪些內(nèi)容?
你的簡(jiǎn)歷基本上是職業(yè)生涯的亮點(diǎn)。這是招聘人員/招聘經(jīng)理看到的第一件事,所以制作完美的簡(jiǎn)歷絕對(duì)是開啟實(shí)習(xí)的關(guān)鍵。
即使你擁有實(shí)習(xí)要求部分列出的所有技能,如果簡(jiǎn)歷未達(dá)標(biāo),很可能無(wú)法接受面試。
你必須,并且絕對(duì)必須花費(fèi)大量時(shí)間來(lái)創(chuàng)建和完善簡(jiǎn)歷。
那么,在做這件事時(shí)要記住哪些關(guān)鍵事項(xiàng)?
確保簡(jiǎn)歷是最新的,并且沒(méi)有任何拼寫錯(cuò)誤。檢查兩次,甚至三次。讓同事或朋友從招聘人員的角度對(duì)其進(jìn)行審核。
在創(chuàng)建或更新簡(jiǎn)歷時(shí),請(qǐng)始終牢記這一點(diǎn):寫下你所知道的,知道你寫的是什么。
還記得你在大學(xué)的第一年做的項(xiàng)目嗎?如果是大約在2-3年前,你可能已經(jīng)不記得細(xì)節(jié)了,要么對(duì)其進(jìn)行深入它,要么不在簡(jiǎn)歷上添加它。有10個(gè)你無(wú)法談?wù)摰捻?xiàng)目對(duì)于招聘人員來(lái)講是危險(xiǎn)信號(hào)!你所掌握的所有技術(shù)技能都是如此。
獲得數(shù)據(jù)科學(xué)實(shí)習(xí)的最大挑戰(zhàn)無(wú)疑是面試過(guò)程。鑒于你之前沒(méi)有此領(lǐng)域的工作經(jīng)驗(yàn),招聘人員會(huì)看到簡(jiǎn)歷的哪些方面?你應(yīng)該在簡(jiǎn)歷和實(shí)際面試中展示哪些技能?
這是很重要的問(wèn)題!如何駕馭這些棘手的問(wèn)題一定會(huì)影響你實(shí)習(xí)的機(jī)會(huì)。
當(dāng)然,你將提到正在處理(或正在進(jìn)行中)的項(xiàng)目。但除此之外,無(wú)論來(lái)自何種背景,面試官都會(huì)熱衷于考驗(yàn)?zāi)恪1竟?jié)將介紹你需要關(guān)注并準(zhǔn)備面試的關(guān)鍵事項(xiàng)。
5.1 結(jié)構(gòu)化思維
在復(fù)雜的數(shù)據(jù)科學(xué)世界中,構(gòu)建思想的能力是一項(xiàng)寶貴的技能。面試官會(huì)判斷你是否有能力將問(wèn)題陳述分解為更小的步驟。你是怎么做到的,這就是金礦的所在。
對(duì)于任何給定的問(wèn)題陳述,有必要確定最終目標(biāo)是什么。下一步是了解你提供的數(shù)據(jù),并確定達(dá)到最終目標(biāo)所需的流程。所有這一切都發(fā)生在有限的時(shí)間范圍內(nèi)(畢竟面試官?zèng)]有一整天的時(shí)間了解你)。你是否看到擁有結(jié)構(gòu)化思維心態(tài)的重要性?
為了檢查你的結(jié)構(gòu)化思維技巧,你會(huì)被問(wèn)到一個(gè)問(wèn)題——目前發(fā)送了多少封郵件?或者班加羅爾的道路上有多少輛紅色汽車?印度每天售出多少支香煙?
例如,如果想了解上個(gè)月信用卡投資組合中的收費(fèi)突然增加的原因,我們會(huì)將其放在類似于以下的結(jié)構(gòu)中:
這些問(wèn)題都沒(méi)有固定的答案。那你怎么解決它們呢?首先要明白的是,面試官并不期望得到確切的數(shù)字答案。相反,他們?cè)噲D了解你如何看待問(wèn)題以及獲得最終答案的方法。要求使用筆和紙(或白板)是個(gè)好主意,這樣你就可以逐步展示自己的想法。
5.2 對(duì)于你所申請(qǐng)公司的了解
我們經(jīng)常聽到招聘人員如何在沒(méi)有閱讀面試的工作描述的情況下就過(guò)來(lái)面試。
在決定申請(qǐng)工作之前,你必須知道公司的工作內(nèi)容和愿景。別無(wú)他法。
我們的建議是多研究公司,了解他們的工作。你覺得自己如何適應(yīng)?你能直接看到你的技能可以產(chǎn)生的影響嗎?你還必須徹底查看職位描述并在面試中提出問(wèn)題,以了解你對(duì)公司的適應(yīng)性。這將節(jié)省你和公司的時(shí)間。
建議閱讀下面的指南,其中詳細(xì)列出了準(zhǔn)備數(shù)據(jù)科學(xué)面試時(shí)可能涵蓋的主要話題:
· The Most Comprehensive Data Science & Machine Learning Interview Guide You’ll Ever Need
(https://www.analyticsvidhya.com/blog/2018/06/comprehensive-data-science-machine-learning-interview-guide/?utm_source=blog&utm_medium=internshiparticle)
在本節(jié)中,我們?yōu)槟闾峁┝艘恍╊~外的提示和技巧,以提高你被選中的機(jī)會(huì)。
6.1 高級(jí)機(jī)器學(xué)習(xí)
沒(méi)有什么比看著你自信地回答先進(jìn)的機(jī)器學(xué)習(xí)問(wèn)題更能打動(dòng)面試官了。掌握先進(jìn)的機(jī)器學(xué)習(xí)知識(shí)肯定會(huì)給你帶來(lái)優(yōu)勢(shì)。
確保你已經(jīng)掌握了我們之前討論過(guò)的基本機(jī)器學(xué)習(xí)主題(統(tǒng)計(jì)數(shù)據(jù),概率,回歸,樹算法等)。然后,你可以安全地跳轉(zhuǎn)到高級(jí)機(jī)器學(xué)習(xí)算法、推薦系統(tǒng)、時(shí)間序列預(yù)測(cè)算法等。
在職業(yè)生涯的這個(gè)階段,沒(méi)有必要詳細(xì)了解所有算法。相信你會(huì)發(fā)現(xiàn)3-4種非常有用的技巧,這些需要你好好學(xué)習(xí),并在面試中闡述你的想法。你應(yīng)該對(duì)算法及其背后的數(shù)學(xué)有一個(gè)公平的理解。可以根據(jù)自己的興趣選擇特定字段,并探索該領(lǐng)域中的各種技術(shù)。
舉個(gè)例子,如果你對(duì)時(shí)間序列感興趣,可以開始探索不同的預(yù)測(cè)技術(shù)、平穩(wěn)性的概念,甚至選擇一個(gè)關(guān)于時(shí)間序列的項(xiàng)目并進(jìn)行研究。或者,如果自然語(yǔ)言處理是你感興趣的領(lǐng)域,可以了解如何從基于文本的數(shù)據(jù)中提取特征,可以在文本數(shù)據(jù)上使用哪些算法等等。
6.2 參與數(shù)據(jù)科學(xué)競(jìng)賽
這為你的簡(jiǎn)歷增添了巨大的優(yōu)勢(shì),增加了實(shí)習(xí)的機(jī)會(huì)。完成項(xiàng)目后,證明知識(shí)不僅限于書籍。你已經(jīng)明確嘗試將理論學(xué)習(xí)轉(zhuǎn)化為現(xiàn)實(shí)世界的數(shù)據(jù)集——這是你的好奇心、熱情和學(xué)習(xí)意愿非常高的確定標(biāo)志。
首先,我們鼓勵(lì)你參加數(shù)據(jù)科學(xué)競(jìng)賽。從AV的DataHack平臺(tái)或Kaggle上列出的***馬拉松開始。這些平臺(tái)提供了模仿真實(shí)場(chǎng)景的問(wèn)題陳述,從而讓你對(duì)行業(yè)有了非常珍貴的感受。
你還可以與來(lái)自世界各地的頂級(jí)數(shù)據(jù)科學(xué)家競(jìng)爭(zhēng)(并從中學(xué)習(xí))。這可以作為自身進(jìn)步的良好晴雨表。繼續(xù)練習(xí),你會(huì)驚奇地發(fā)現(xiàn)你的排名會(huì)上升的如此之快。實(shí)踐是數(shù)據(jù)科學(xué)之王。
實(shí)習(xí)可以為你提供哪些教科書、MOOC和視頻不能所不能提供的知識(shí)?
實(shí)踐經(jīng)驗(yàn)。
7.1 如何解決實(shí)際項(xiàng)目
在實(shí)習(xí)期間,你將參與真實(shí)的項(xiàng)目。這是非常寶貴的經(jīng)驗(yàn)。一旦加入,就可能會(huì)發(fā)現(xiàn)自己已經(jīng)進(jìn)去端到端的數(shù)據(jù)科學(xué)生命周期,包括定義問(wèn)題陳述和構(gòu)建模型。
如果你之前參加過(guò)數(shù)據(jù)科學(xué)競(jìng)賽,將對(duì)數(shù)據(jù)科學(xué)家遇到的不同挑戰(zhàn)有所了解。
但是,這些競(jìng)賽中提供的問(wèn)題陳述和數(shù)據(jù)集與現(xiàn)實(shí)場(chǎng)景非常不同。數(shù)據(jù)集在行業(yè)中是混亂和非結(jié)構(gòu)化的。在構(gòu)建任何模型之前,需要進(jìn)行大量的數(shù)據(jù)清理工作。
事實(shí)上,如果70-80%的任務(wù)涉及數(shù)據(jù)清理,請(qǐng)不要感到驚訝。
你將學(xué)習(xí)如何構(gòu)造問(wèn)題陳述,理解解決問(wèn)題所需的域和數(shù)據(jù),然后找出提取數(shù)據(jù)的來(lái)源。下一步是深入研究。了解其他數(shù)據(jù)科學(xué)家為解決類似問(wèn)題所采取的方法。
這將讓你對(duì)什么應(yīng)該運(yùn)作良好以及什么不值得投入時(shí)間有一個(gè)清晰的認(rèn)知。雖然數(shù)據(jù)科學(xué)鼓勵(lì)進(jìn)行實(shí)驗(yàn),但你從經(jīng)理那里獲得的創(chuàng)作自由度是有限的。過(guò)濾掉你知道不會(huì)事先工作的方面。
7.2 講述數(shù)據(jù)故事的方式(探索性數(shù)據(jù)分析)
人們通常花費(fèi)更多時(shí)間來(lái)構(gòu)建模型而不是理解數(shù)據(jù)。這其實(shí)是不行的。
真正理解擁有的數(shù)據(jù)是非常重要的。數(shù)據(jù)集中存在很多級(jí)別和隱藏方面,我們經(jīng)常忽略這些級(jí)別和隱藏方面來(lái)構(gòu)建模型。這是你在實(shí)習(xí)期間學(xué)到的東西(但應(yīng)事先做好準(zhǔn)備)。
花盡可能多的時(shí)間探索數(shù)據(jù)!繪制圖表,找到模式,然后好好鉆研,就像它是世界上最好的工作(它真的是!)。嘗試了解分布,查找影響目標(biāo)變量的因素并進(jìn)行推斷。建立假設(shè),將數(shù)據(jù)可視化,找到見解,最重要的是,與隊(duì)友討論發(fā)現(xiàn)的問(wèn)題。
7.3 團(tuán)隊(duì)合作
數(shù)據(jù)科學(xué)實(shí)習(xí)的好處是可以與非常聰明和支持的人合作。當(dāng)你朝著最終目標(biāo)努力時(shí),數(shù)據(jù)科學(xué)項(xiàng)目需要同事之間的協(xié)作和協(xié)調(diào)。
在團(tuán)隊(duì)中工作的最好的部分是總是有人討論你的想法(并澄清疑慮)。團(tuán)隊(duì)合作不僅可以幫助你建立自己的軟技能,還可以磨練技術(shù)技能,真是個(gè)雙贏的組合!
7.4 在這個(gè)領(lǐng)域獲得實(shí)踐經(jīng)驗(yàn)
當(dāng)你開始數(shù)據(jù)科學(xué)求職時(shí),很可能會(huì)發(fā)現(xiàn)大多數(shù)公司都要求在域中獲得一些經(jīng)驗(yàn)。你應(yīng)該了解公司正在處理的問(wèn)題,并考慮可以做出貢獻(xiàn)的方式。與正在從事項(xiàng)目的人討論想法。
你還應(yīng)該嘗試了解公司中其他人的角色。可以與不同團(tuán)隊(duì)的人員進(jìn)行交流和討論。例如,與營(yíng)銷團(tuán)隊(duì)交談,了解是否可以考慮解決問(wèn)題的數(shù)據(jù)驅(qū)動(dòng)解決方案。充分利用機(jī)會(huì),提出相關(guān)問(wèn)題并向團(tuán)隊(duì)學(xué)習(xí)。
對(duì)大數(shù)據(jù)【數(shù)據(jù)分析,數(shù)據(jù)挖掘】概念都是模糊不清的,該按照什么線路去學(xué)習(xí),學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群:458345782,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系 。
轉(zhuǎn)載于:https://blog.51cto.com/14217196/2364180
總結(jié)
以上是生活随笔為你收集整理的7步让你get首个数据科学实习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Python 解决 网易云.ncm格式
- 下一篇: conda install 出错