数据科学家是个性感的工作?我信你个鬼!
數據科學家40%是個吸塵器,40%是個清潔工,剩下20%是個算命的。
作者 | Jingles
譯者 |?香檳超新星,責編 | 夕顏
出品 | CSDN(ID:CSDNnews)
根據《哈佛商業評論》的說法,數據科學家是21世紀最性感的工作。在現在這個大數據的世界中,數據科學家們用AI 或深度學習方法來發掘寶貴的商業見解。
?
而我,掛著“數據科學家”頭銜已經五年了,卻仍然沒有完全搞明白自己究竟哪里性感,除了我新燙的頭發讓我看起來像個韓國歐巴(此詞通常用來代指韓國偶像劇男主角)。
?
確實,云的出現和商業向互聯網的轉移已經引起了數據爆炸。這導致了某些部門中對于數據科學家的需求增加,造成此職位的人員短缺。
?
但是,數據科學家們每天工作的具體內容包括哪些呢?
?
通過分析LinkedIn上發布的職位,我們就能找到這個問題的答案。以下是我總結的一些主要的點:
?
對業務和客戶有所了解,對假設進行驗證
建立起預測模型和機器學習流水線,進行A / B測試
給商業的利益相關者們概念化分析
開發能夠做出業務決策的算法
實驗并研究新技術和方法來提升技術能力
?
這些聽上去都很性感,對不對?
?
除非你的工作內容只包含處理Kaggle數據集,否則以上這些工作描述只是數據科學家們生活的一小部分。
?
以下調查結果來自CrowdFlower,對一個數據科學家的一個平常的工作日作了以下總結:
? ? ? ?數據科學家大部分時間都在干什么?圖源:CrowdFlower
?
如上表所示,數據科學家的大部分時間都花在了收集數據集,清洗以及組織數據上。
?
21世紀的高性能數據吸塵器
?
數據湖(data lakes)是集中存儲公司所有數據的地方。它們使組織能夠使用公司的數據來搭建機器學習模型和儀表板。而不幸的是,有的人會認為數據湖是可以用來丟棄數據的垃圾場,或一個超大的硬盤。
?
許多組織(公司)在開始布施數據湖時,對應該如何處理收集到的數據一無所知。他們說:“那我們就把所有的東西都收集起來吧?!北M管數據湖的意義在于將公司的所有數據集中在一個地方,但根據特定項目的需求來對它進行設計仍然是至關重要的。不進行計劃幾乎就像創建一個“新建文件夾”,然后把公司的全部數據都復制粘貼到里面一樣。
?
當你把桌面當做數據垃圾場時
?
從歷史上看,糟糕的計劃很少會帶來,或者說從未帶來過定義明確的元數據,這就使所有人都很難搜索(并找到)自己所需的數據。數據科學家們會經常需要與不同部門聯系來獲取數據。他們可能需要從各種類型的數據所有者那里得到有關數據的信息。只對數據進行存儲而不進行分類簡直大錯特錯。要使數據湖變得有用起來的關鍵是要確保元數據是被明確定義的。
?
由于數據管控或數據所有者們(他們往往是不同部門的利益相關者)太過忙碌,重要數據的獲取甚至可能需要花費數周的時間。在等待的游戲結束之后,到頭來數據科學家們卻有可能發現數據不相關或存在嚴重的質量問題。
?
當數據科學家終于能接觸到數據時,他們還需花費大量時間來探索以及熟悉數據。他們必須將這些混亂的數據塊重組成與項目需求一致的新表。
21世紀的高層次數據清潔工
?
每個與數據打交道的人都應該聽說過“臟數據”(dirty data)一詞。臟數據會破壞數據集的完整性,它的某些特征是不完整,不準確,不一致,或者重復的。
?
“不完整”是指,有些必要特征空缺。例如,假設你的任務是預測房價,而“房子的區域”對于良好的預測至關重要,但這個值卻是缺失的。這樣的話預測房價可能對你來說就有很大的挑戰性了,并且你的模型也可能表現欠佳。
?
“不準確”和“不一致”就是指,技術上來說數值是正確的,但在具體語境下卻是錯誤的。例如,當一名員工更改了自己的地址,并且未更新,又或者,某項數據有很多版本,但數據科學家拿到的是舊版。
?
“重復”是一個常見的問題。讓我來跟你分享一個以前我在電子商務公司工作時發生的事情吧。按照計劃,當訪問者單擊“收取收據”按鈕時,網站會向服務器發送一個響應,這就使得我們能夠計數已收取了收據的用戶數量。
?
該網站運行良好,直到一天某個變化發生了,但我對此一無所知。前端開發人員添加了另一個響應,在有人成功收取了收據時發送。理由是某些收據可能短缺,他們想記下單擊了該按鈕以及收取了收據的訪問者。
?
那時,兩個響應會被發送到同一日志表。我看著我的報表工具,發現收據的數量似乎在一夜之間翻了一番!因為我前一天部署了一個模型,所以想當然的認為是自己新模型的功勞。記得當時我還在內心里暗暗地為自己的小模型鼓掌致意了呢,后來才意識到只是因為重復計算而已!
?
另外,在過去五年中,作為一名數據科學家,我收到數據中的一部分是由公司員工手動輸入的。這些數據存在Excel表中,其中許多都不準確,不完整,不一致。
?
無論數據是來自人工手動輸入還是機器日志,在現實世界中數據整理都占了工作內容的很大的比例。數據科學家們必須面對這件事情。為了使監督學習能有效,我們需要可靠的,帶有標簽(label)的數據。只有數據被正確地標記了,你才可能建立起預測模型,但沒人喜歡標記數據。
?
許多人將這種情況描述為80/20規則。數據科學家們只有20%的時間是用于構建模型的,而其他80%的時間則用于收集,分析,清洗和重組數據。臟數據是一個普通數據科學家工作中最耗時的一項。
?
有必要指出的是,數據的清洗是必不可少的。從亂糟糟的數據無法生產出良好的結果。你可能已經聽說過“垃圾進,垃圾出”(Garbage in, garbage out.)這句話了。
?
數據科學家們在數據中漫游時確實會發現一些東西。但在開始訓練任何模型之前,數據科學家必須首先成為數據清潔工。數據需要經歷清洗,數據需要經歷標記。
我是一名數據科學家...
我并不覺得我的工作性感。
?
我40%的功能像個吸塵器,另外40%像清潔工。
?
而最后的20%......就當是個算命先生吧。
原文鏈接:
https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845
本文為CSDN翻譯文章,轉載請注明出處。
《原力計劃【第二季】-?學習力挑戰》正式開始!即日起至?3月21日,千萬流量支持原創作者!更有專屬【勛章】等你來挑戰
推薦閱讀:時間復雜度的表示、分析、計算方法……一文帶你看懂時間復雜度! Linux 會成為主流桌面操作系統嗎? 識別率驚人的 GitHub 口罩檢測 | 原力計劃 西二旗大廠復工記 智能合約編寫之Solidity的基礎特性 Javascript函數之深入淺出遞歸思想,附案例與代碼! 真香,朕在看了!總結
以上是生活随笔為你收集整理的数据科学家是个性感的工作?我信你个鬼!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 钉钉流量暴增百倍,阿里云抗住了!
- 下一篇: 什么是 CD 管道?一文告诉你如何借助K