當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

菜鸟学习数据科学家 5 大误区

發布時間：2023/12/4 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了菜鸟学习数据科学家 5 大误区小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

全世界只有3.14 %?的人關注了

數據與算法之美

你準備好要成為一名數據科學家，積極的參加Kaggle比賽和Coursera的講座。雖然這一切都準備好了，但是一名數據科學家的實際工作與你所期望的卻是大相徑庭的。

本文研究了作為數據科學家新手的5個常見錯誤。這是由我在塞巴斯蒂安·福卡德(Dr. Sébastien Foucaud)博士的幫助下一起完成的，他在指導和領導學術界與行業領域的年輕數據科學家方面擁有20多年的經驗。本文旨在幫助你更好地為今后的實際工作做準備。

1、Kaggle成才論

Source: kaggle.com on June 30 18.

你通過參加Kaggle比賽，練習了數據科學領域的各項技能。如果你能把決策樹和神經網絡結合起來那就再好不過了。說實話，作為一個數據科學家，你不需要做那么多的模型融合。請記住，通常情況下，你將花80%的時間進行數據預處理，剩下的20%的時間用于構建模型。

作為Kaggle的一份子對你在很多方面都有幫助。所用到的數據一般都是徹底處理過的，因此你可以花更多的時間來調整模型。但在實際工作中，則很少會出現這種情況。一旦出現這種情況，你必須用不同的格式和命名規則來收集組裝不同來源的數據。

做數據預處理這項艱苦的工作以及練習相關的技能，你將會花費80%的時間。抓取圖像或從API中收集圖像，收集Genius上的歌詞，準備解決特定問題所需的數據，然后將其提供給筆記本電腦并執行機器學習生命周期的過程。精通數據預處理無疑會使你成為一名數據科學家，并對你的公司產生立竿見影的影響。

2、神經網絡(Neural Networks)無所不能

在計算機視覺或自然語言處理的領域，深度學習模型優于其它機器學習模型，但它們也有很明顯的不足。

神經網絡需要依賴大量的數據。如果樣本很少，那么使用決策樹或邏輯回歸模型的效果會更好。神經網絡也是一個黑匣子，眾所周知，它們很難被解釋和說明。如果產品負責人或主管經理對模型的輸出產生了質疑，那么你必須能夠對模型進行解釋。這對于傳統模型來說要容易得多。

正如詹姆斯·勒(James Le)在一個偉大的郵件中所闡述的那樣，有許多優秀的統計學習模型，自己可以學習一下，了解一些它們的優缺點，并根據用例的約束來進行模型的實際應用。除非你正在計算機視覺或自然語言識別的專業領域工作，否則最成功的模型很可能就是傳統的機器學習算法。你很快就會發現，最簡單的模型，如邏輯回歸，通常是最好的模型。

來源：算法來自scikit-learn.org.

3、機器學習是產品

在過去的十年里，機器學習既受到了極大的吹捧，也受到了很大的沖擊。大多數的初創公司都宣稱機器學習可以解決現實中遇到的任何問題。

來源：過去5年谷歌機器學習的趨勢

機器學習永遠都不應該是產品。它是一個強大的工具，用于生產滿足用戶需求的產品。機器學習可以用于讓用戶收到精準的商品推薦，也可以幫助用戶準確地識別圖像中的對象，還可以幫助企業向用戶展示有價值的廣告。

作為一名數據科學家，你需要以客戶作為目標來制定項目計劃。只有這樣，才能充分地評估機器學習是否對你有幫助。

4、混淆因果和相關

有90%的數據大約是在過去的幾年中形成的。隨著大數據的出現，數據對機器學習從業者來說已經變得越來越重要。由于有非常多的數據需要評估，學習模型也更容易發現隨機的相關性。

來源： http://www.tylervigen.com/spurious-correlations

上圖顯示的是美國小姐的年齡和被蒸汽、熱氣和發熱物體導致的命案總人數。考慮到這些數據，一個學習算法會學習美國小姐的年齡影響特定對象命案數量的模式。然而，這兩個數據點實際上是不相關的，并且這兩個變量對其它的變量沒有任何的預測能力。

當發現數據中的關系模式時，就要應用你的領域知識。這可能是一種相關性還是因果關系呢?回答這些問題是要從數據中得出分析結果的關鍵點。

5、優化錯誤的指標

機器學習模型通常遵循敏捷的生命周期。首先，定義思想和關鍵指標。之后，要原型化一個結果。下一步，不斷進行迭代改進，直到得到讓你滿意的關鍵指標。

構建一個機器學習模型時，請記住一定要進行手動錯誤分析。雖然這個過程很繁瑣并且比較費時費力，但是它可以幫助你在接下來的迭代中有效地改進模型。參考下面的文章，可以從Andrew Ng的Deep Learning Specialization一文中獲得更多關于改進模型的技巧。

注意以下幾個關鍵點:

實踐數據處理
研究不同模型的優缺點
盡可能簡化模型
根據因果關系和相關性檢查你的結論
優化最有希望的指標

原文標題：《Top 5 Mistakes of Greenhorn Data Scientists》

版權歸原作者所有，轉載僅供學習使用，不用于任何商業用途，如有侵權請留言聯系刪除，感謝合作。

我們聯合「機械工業出版社、圖靈新知、人民郵電出版社、華東師范大學出版社、科學出版社」給大家精心挑選了?100?本?優秀數學讀物，免費?送給大家。包含：

假如你想參與，在后臺回復「錦鯉」即可，xxxx（各自公眾號名稱）“史上最慘錦鯉”正在等你。

活動時間：1月30號至2月11號

結果公布時間：2月11號

精品課程推薦：

選購數學科普正版讀物

嚴選“數學思維好物”

送給孩子的益智禮物? ?| ??辦公室神器

算法工程師成長閱讀? ?| ??居家高科技

理工科男女實用型禮物精選?

----點擊頭像關注----

超級數學建模

數據與算法之美

少年數學家

數銳學堂

驚喜醬（個人號）

玩酷屋COOL

總結

以上是生活随笔為你收集整理的菜鸟学习数据科学家 5 大误区的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：入门Python，限时1元！
下一篇：春节特惠活动┃不只是舒适，简直是享受，G