日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

菜鸟学习数据科学家 5 大误区

發(fā)布時(shí)間:2023/12/4 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 菜鸟学习数据科学家 5 大误区 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

全世界只有3.14 %?的人關(guān)注了

數(shù)據(jù)與算法之美


你準(zhǔn)備好要成為一名數(shù)據(jù)科學(xué)家,積極的參加Kaggle比賽和Coursera的講座。雖然這一切都準(zhǔn)備好了,但是一名數(shù)據(jù)科學(xué)家的實(shí)際工作與你所期望的卻是大相徑庭的。



本文研究了作為數(shù)據(jù)科學(xué)家新手的5個(gè)常見錯(cuò)誤。這是由我在塞巴斯蒂安·??ǖ?Dr. Sébastien Foucaud)博士的幫助下一起完成的,他在指導(dǎo)和領(lǐng)導(dǎo)學(xué)術(shù)界與行業(yè)領(lǐng)域的年輕數(shù)據(jù)科學(xué)家方面擁有20多年的經(jīng)驗(yàn)。本文旨在幫助你更好地為今后的實(shí)際工作做準(zhǔn)備。



1、Kaggle成才論


Source: kaggle.com on June 30 18.


你通過參加Kaggle比賽,練習(xí)了數(shù)據(jù)科學(xué)領(lǐng)域的各項(xiàng)技能。如果你能把決策樹和神經(jīng)網(wǎng)絡(luò)結(jié)合起來那就再好不過了。說實(shí)話,作為一個(gè)數(shù)據(jù)科學(xué)家,你不需要做那么多的模型融合。請(qǐng)記住,通常情況下,你將花80%的時(shí)間進(jìn)行數(shù)據(jù)預(yù)處理,剩下的20%的時(shí)間用于構(gòu)建模型。



作為Kaggle的一份子對(duì)你在很多方面都有幫助。所用到的數(shù)據(jù)一般都是徹底處理過的,因此你可以花更多的時(shí)間來調(diào)整模型。但在實(shí)際工作中,則很少會(huì)出現(xiàn)這種情況。一旦出現(xiàn)這種情況,你必須用不同的格式和命名規(guī)則來收集組裝不同來源的數(shù)據(jù)。


做數(shù)據(jù)預(yù)處理這項(xiàng)艱苦的工作以及練習(xí)相關(guān)的技能,你將會(huì)花費(fèi)80%的時(shí)間。抓取圖像或從API中收集圖像,收集Genius上的歌詞,準(zhǔn)備解決特定問題所需的數(shù)據(jù),然后將其提供給筆記本電腦并執(zhí)行機(jī)器學(xué)習(xí)生命周期的過程。精通數(shù)據(jù)預(yù)處理無疑會(huì)使你成為一名數(shù)據(jù)科學(xué)家,并對(duì)你的公司產(chǎn)生立竿見影的影響。


2、神經(jīng)網(wǎng)絡(luò)(Neural Networks)無所不能


在計(jì)算機(jī)視覺或自然語言處理的領(lǐng)域,深度學(xué)習(xí)模型優(yōu)于其它機(jī)器學(xué)習(xí)模型,但它們也有很明顯的不足。



神經(jīng)網(wǎng)絡(luò)需要依賴大量的數(shù)據(jù)。如果樣本很少,那么使用決策樹或邏輯回歸模型的效果會(huì)更好。神經(jīng)網(wǎng)絡(luò)也是一個(gè)黑匣子,眾所周知,它們很難被解釋和說明。如果產(chǎn)品負(fù)責(zé)人或主管經(jīng)理對(duì)模型的輸出產(chǎn)生了質(zhì)疑,那么你必須能夠?qū)δP瓦M(jìn)行解釋。這對(duì)于傳統(tǒng)模型來說要容易得多。



正如詹姆斯·勒(James Le)在一個(gè)偉大的郵件中所闡述的那樣,有許多優(yōu)秀的統(tǒng)計(jì)學(xué)習(xí)模型,自己可以學(xué)習(xí)一下,了解一些它們的優(yōu)缺點(diǎn),并根據(jù)用例的約束來進(jìn)行模型的實(shí)際應(yīng)用。除非你正在計(jì)算機(jī)視覺或自然語言識(shí)別的專業(yè)領(lǐng)域工作,否則最成功的模型很可能就是傳統(tǒng)的機(jī)器學(xué)習(xí)算法。你很快就會(huì)發(fā)現(xiàn),最簡單的模型,如邏輯回歸,通常是最好的模型。


來源:算法來自scikit-learn.org.


3、機(jī)器學(xué)習(xí)是產(chǎn)品


在過去的十年里,機(jī)器學(xué)習(xí)既受到了極大的吹捧,也受到了很大的沖擊。大多數(shù)的初創(chuàng)公司都宣稱機(jī)器學(xué)習(xí)可以解決現(xiàn)實(shí)中遇到的任何問題。


來源:過去5年谷歌機(jī)器學(xué)習(xí)的趨勢(shì)


機(jī)器學(xué)習(xí)永遠(yuǎn)都不應(yīng)該是產(chǎn)品。它是一個(gè)強(qiáng)大的工具,用于生產(chǎn)滿足用戶需求的產(chǎn)品。機(jī)器學(xué)習(xí)可以用于讓用戶收到精準(zhǔn)的商品推薦,也可以幫助用戶準(zhǔn)確地識(shí)別圖像中的對(duì)象,還可以幫助企業(yè)向用戶展示有價(jià)值的廣告。


作為一名數(shù)據(jù)科學(xué)家,你需要以客戶作為目標(biāo)來制定項(xiàng)目計(jì)劃。只有這樣,才能充分地評(píng)估機(jī)器學(xué)習(xí)是否對(duì)你有幫助。


4、混淆因果和相關(guān)


有90%的數(shù)據(jù)大約是在過去的幾年中形成的。隨著大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)從業(yè)者來說已經(jīng)變得越來越重要。由于有非常多的數(shù)據(jù)需要評(píng)估,學(xué)習(xí)模型也更容易發(fā)現(xiàn)隨機(jī)的相關(guān)性。


來源: http://www.tylervigen.com/spurious-correlations


上圖顯示的是美國小姐的年齡和被蒸汽、熱氣和發(fā)熱物體導(dǎo)致的命案總?cè)藬?shù)??紤]到這些數(shù)據(jù),一個(gè)學(xué)習(xí)算法會(huì)學(xué)習(xí)美國小姐的年齡影響特定對(duì)象命案數(shù)量的模式。然而,這兩個(gè)數(shù)據(jù)點(diǎn)實(shí)際上是不相關(guān)的,并且這兩個(gè)變量對(duì)其它的變量沒有任何的預(yù)測(cè)能力。


當(dāng)發(fā)現(xiàn)數(shù)據(jù)中的關(guān)系模式時(shí),就要應(yīng)用你的領(lǐng)域知識(shí)。這可能是一種相關(guān)性還是因果關(guān)系呢?回答這些問題是要從數(shù)據(jù)中得出分析結(jié)果的關(guān)鍵點(diǎn)。


5、優(yōu)化錯(cuò)誤的指標(biāo)


機(jī)器學(xué)習(xí)模型通常遵循敏捷的生命周期。首先,定義思想和關(guān)鍵指標(biāo)。之后,要原型化一個(gè)結(jié)果。下一步,不斷進(jìn)行迭代改進(jìn),直到得到讓你滿意的關(guān)鍵指標(biāo)。



構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型時(shí),請(qǐng)記住一定要進(jìn)行手動(dòng)錯(cuò)誤分析。雖然這個(gè)過程很繁瑣并且比較費(fèi)時(shí)費(fèi)力,但是它可以幫助你在接下來的迭代中有效地改進(jìn)模型。參考下面的文章,可以從Andrew Ng的Deep Learning Specialization一文中獲得更多關(guān)于改進(jìn)模型的技巧。


注意以下幾個(gè)關(guān)鍵點(diǎn):

  • 實(shí)踐數(shù)據(jù)處理

  • 研究不同模型的優(yōu)缺點(diǎn)

  • 盡可能簡化模型

  • 根據(jù)因果關(guān)系和相關(guān)性檢查你的結(jié)論

  • 優(yōu)化最有希望的指標(biāo)


原文標(biāo)題:《Top 5 Mistakes of Greenhorn Data Scientists》

版權(quán)歸原作者所有,轉(zhuǎn)載僅供學(xué)習(xí)使用,不用于任何商業(yè)用途,如有侵權(quán)請(qǐng)留言聯(lián)系刪除,感謝合作。



我們聯(lián)合「機(jī)械工業(yè)出版社、圖靈新知、人民郵電出版社、華東師范大學(xué)出版社、科學(xué)出版社」給大家精心挑選了?100?本?優(yōu)秀數(shù)學(xué)讀物免費(fèi)?送給大家。包含:

假如你想?yún)⑴c,在后臺(tái)回復(fù)「錦鯉即可,xxxx(各自公眾號(hào)名稱)“史上最慘錦鯉”正在等你。

活動(dòng)時(shí)間:1月30號(hào)至2月11號(hào)

結(jié)果公布時(shí)間:2月11號(hào)



精品課程推薦:

選購數(shù)學(xué)科普正版讀物

嚴(yán)選“數(shù)學(xué)思維好物”

送給孩子的益智禮物? ?| ??辦公室神器

算法工程師成長閱讀? ?| ??居家高科技

理工科男女實(shí)用型禮物精選?

----點(diǎn)擊頭像關(guān)注----

超級(jí)數(shù)學(xué)建模

數(shù)據(jù)與算法之美

少年數(shù)學(xué)家

數(shù)銳學(xué)堂

驚喜醬(個(gè)人號(hào))

玩酷屋COOL

總結(jié)

以上是生活随笔為你收集整理的菜鸟学习数据科学家 5 大误区的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。