13大技能助你成为超级数据科学家!(附链接)
翻譯 | 張睿毅
校對 | 王威力
來源 |?數據派THU(ID:DatapiTHU)
好的數據科學家和超級數據科學家有什么區別?
?
發布在領英上的問題
令人驚訝的是,我得到了許多來自不同行業的頂級數據科學家的回應,他們都分享了他們的想法和建議,都很有意思且實用。
為了進一步了解優秀數據科學家和超級數據科學家之間的主要區別,我一直在互聯網上搜索……直到我在KDnuggets上找到這篇文章(鏈接:http://t.cn/AipUYq0x )。
所以我提煉了所有的信息,列出了成為一名超級數據科學家的技能。
實際上,數據科學家不可能具備以下所列的所有技能。但在我看來,正是這些技能使超級數據科學家超越優秀的數據科學家。
在這篇文章的最后,我希望您會發現這些技能對您作為一名數據科學家的職業生涯有幫助。
我們開始吧!
成為超級數據科學家的13大技能
1. 教育
數據科學家受過高等教育,88%至少擁有碩士學位,46%擁有博士學位,盡管有一些例外,但通常需要很強的教育背景來培養成為數據科學家所必需的知識深度。要成為一名數據科學家,您可以獲得計算機科學、社會科學、物理科學和統計學的學士學位。最常見的研究領域是數學和統計學(32%),其次是計算機科學(19%)和工程學(16%)。這些學位中的任何一個都將為您提供處理和分析大數據所需的技能。
在您的學位課程之后,您還沒有完成。事實是,大多數數據科學家不僅擁有碩士學位或博士學位,他們還參加在線培訓,學習如何使用Hadoop或大數據查詢等技能。因此,您可以申請數據科學、數學、天體物理學或其他相關領域的碩士學位。您在學位課程中學到的技能將使您能夠輕松過渡到數據科學。
除了課堂學習之外,您還可以通過構建應用程序、創建博客或進行數據探查來練習您在課堂上學到的東西,從而收獲更多。
在我看來,只要您能完成這項工作,擁有碩士學位或博士學位是可以選擇的。在大多數工業界,解決業務問題最重要,并不一定要進行研究和部署尖端和新穎的機器學習模型。
參考這本免費電子書資源:74 secrets to become a pro data scientist(鏈接:http://t.cn/AipUYHQ4)
2. R語言編程
至少對分析工具中一個有深入的了解,對于數據科學R通常是首選。R是專門為數據科學需求而設計的。您可以使用R來解決您在數據科學中遇到的任何問題。事實上,43%的數據科學家使用R來解決統計問題。然而,R有一個陡峭的學習曲線。
特別是如果您已經掌握了編程語言,學習起來很困難。盡管如此,互聯網上有很多資源可以讓您開始學習R,比如Simplearn的數據科學培訓和R編程語言。對于有抱負的數據科學家來說,這是一個很好的資源。
3. Python編程
Python是最常見的數據科學角色所需要的編碼語言,還有Java、Perl或C/C++。對于數據科學家來說,python是一種很好的編程語言。這就是為什么O'Reilly調查的40%的受訪者使用Python作為他們的主要編程語言的原因。
由于它的多功能性,您可以將Python用于幾乎所有涉及到數據科學過程的步驟。它可以采用各種格式的數據,您可以輕松地將SQL表導入到代碼中。它允許您創建數據集,您可以在谷歌上找到您需要的任何類型的數據集。
您可以通過以下書籍了解更多關于Python的基礎知識以及它如何在數據科學中使用:
Python Data Science Handbook(鏈接:http://t.cn/AipUT53G)
Python for Data Analysis(鏈接:http://t.cn/AipUT9Ez)
Learning Python(鏈接:http://t.cn/AipUTdRJ)
4. Hadoop?平臺
雖然這并不是一項必備技能,但在許多情況下,它是首選的。有Hive或Pig的經驗也是一個不錯的技能點。熟悉諸如AmazonS3之類的云工具也是有益的。一項由Crowdflower開展的調查發現,LinkedIn中3490個數據科學工作崗位中49%的崗位將Apache Hadoop列為第二大重要技能。
作為一名數據科學家,您可能會遇到這樣一種情況:您所擁有的數據量超過了系統的內存,或者您需要將數據發送到不同的服務器,這就是Hadoop的由來。您可以使用Hadoop快速地將數據傳輸到系統上的各個點。還不止這些。您可以使用Hadoop進行數據探索、數據過濾、數據采樣和匯總。
5. SQL數據庫/編碼
盡管NoSQL和Hadoop已經成為數據科學的一個重要組成部分,但是仍然要求一個數據科學家能夠編寫和執行復雜的查詢。SQL(結構化查詢語言)是一種在數據庫中進行增刪改查的編程語言。它還可以幫助您執行分析功能和轉換數據庫結構。
作為數據科學家,您需要精通SQL。這是因為SQL是專門為幫助您訪問、溝通和處理數據而設計的。當您使用它來查詢數據庫時,它會給您一些啟發。它有簡明的命令,可以幫助您節省時間,減少執行困難查詢所需的編程量。學習SQL將幫助您更好地理解關系數據庫,并提高您作為數據科學家的形象。
6. Apache?Spark
Apache Spark正在成為全球最流行的大數據技術。它和Hadoop一樣是一個大數據計算框架。唯一的區別是Spark比Hadoop快。這是因為Hadoop讀取和寫入磁盤,這會使磁盤速度變慢,但Spark會將其計算緩存在內存中。
Apache Spark專門為數據科學設計,以幫助更快地運行其復雜的算法。它有助于在處理大量數據時傳播數據處理,從而節省時間。它還幫助數據科學家處理復雜的非結構化數據集。您可以在一臺機器或一組機器上使用它。
Apache Spark使數據科學家能夠防止數據科學中的數據丟失。Apache Spark的強大之處在于它的速度和平臺,使其易于執行數據科學項目。使用Apache Sark,您可以執行從數據接收到分布式計算的分析。
7. 機器學習與人工智能
有許多數據科學家并不精通機器學習領域和技術。這個領域包括神經網絡、強化學習、對抗性學習等。如果您想從其他數據科學家中脫穎而出,您需要了解機器學習技術,如有監督機器學習、決策樹、邏輯回歸等。這些技能將幫助您解決基于基于預測的不同數據科學問題。
數據科學需要在機器學習的不同領域應用以上技能。Kaggle的一項調查發現,有一小部分數據專業人員能夠勝任高級機器學習技能,如監督機器學習、無監督機器學習、時間序列、自然語言處理、異常值檢測、計算機視覺、推薦引擎、生存分析、強化學習以及對抗性學習。
數據科學涉及處理大量數據集操作。所以您可能需要先熟悉機器學習(鏈接:http://bit.ly/2N4i6za?)。
8. 數據可視化
商業世界通常產生大量的數據。這些數據需要轉換成易于理解的格式。自然地,人們更易理解圖表和圖表形式的圖片,而不是原始數據。有句成語說:“一幅畫勝過千言萬語”。
作為一名數據科學家,您必須能夠借助數據可視化工具(如ggplot、d3.js、matplotlib和tableau)實現數據可視化。這些工具將幫助您將項目中的復雜結果轉換為易于理解的格式。問題是,很多人不理解序列相關或p值。您需要直觀地向他們展示這些術語在您的結果中代表了什么。
數據可視化為企業提供了直接使用數據的機會。他們能夠迅速掌握有助于他們抓住新的商業機會并保持領先地位的洞察力。
特別是,我寫了一篇文章(鏈接:http://j.mp/2WSAKNz?)來討論數據可視化的重要性以及如何用數據創建更好的故事。
9. 非結構化數據
數據科學家處理非結構化數據的能力是至關重要的。非結構化數據無法在數據庫表中定義的內容。包括視頻、博客、客戶評論、社交媒體帖子、視頻提要、音頻等,它們是大量的文本集中在一起。對這些類型的數據進行排序是困難的,因為它們不是流線型的。
由于非結構化數據分析的復雜性,大多數人將其稱為“暗箱分析”。使用非結構化數據可以幫助您洞察對決策有用的見解。作為一名數據科學家,您必須能夠理解和操作來自不同平臺的非結構化數據。
10. 好奇性思維
“我沒有特殊的才華,只有極強的好奇心。”
— Albert Einstein
毫無疑問,您最近到處都看到這個短語,尤其是與數據科學家有關。FrankLo描述了它的含義,并在幾個月前發布的特邀專欄中談到了其他必要的“軟技能”。
好奇心可以定義為獲得更多知識的渴望。作為一個數據科學家,您需要能夠提出關于數據的問題,因為數據科學家花費80%的時間來發現和準備數據。這是因為數據科學領域是一個發展非常迅速的領域,您必須學習更多的東西來跟上這個步伐。
您需要定期通過在線閱讀內容和閱讀有關數據科學趨勢的相關書籍來更新您的知識。不要被網絡上大量的數據所淹沒,您必須知道如何理解這些數據。好奇心是您成功成為數據科學家所需要的技能之一。例如,最初,您可能在收集的數據中看不到太多洞察。好奇心會讓您通過篩選數據來找到答案和更多的見解。
11. 商業敏銳度
要成為一名數據科學家,您需要對您所從事的行業有一個扎實的了解,并知道您的公司正試圖解決什么樣的商業問題。在數據科學方面,除了確定業務應利用其數據的新方法外,能夠識別哪些問題對于業務來說是重要的,這一點至關重要。
要做到這一點,您必須了解您解決的問題如何影響業務。這就是為什么您需要知道企業是如何運作的(參考:http://j.mp/2WWCtBI),這樣您才能把向正確的方向努力。
12. 溝通技能
尋找優秀數據科學家的企業需要可以將技術清楚地流暢地轉化到非技術團隊(比如市場營銷或銷售部門)中的成員。
數據科學家必須使企業能夠通過為他們提供量化的結果來做出決策,并且必須了解他們的非技術同事的需求,以便應對由于數據產生的爭議。
除了使用公司范圍內的相通語言,您還需要使用數據講故事來進行交流。作為一個數據科學家,您必須知道如何圍繞數據創建一個故事線,以便于任何人理解。例如,呈現數據表不如以陳述故事的形式共享這些基于數據的洞察那么有效。使用講故事將有助于您正確地向您的雇主傳達您的成果。
在溝通時,請注意在數據分析中表述其結果和商業價值。大多數老板不想知道您分析了什么,他們感感興趣的是數據分析結果將如何對業務產生積極作用。學會專注于通過溝通傳遞價值和建立持久的關系。
(參考:http://j.mp/2WWCtBI)
13. 團隊合作
數據科學家不能獨自工作。您必須與公司高管合作制定戰略,與產品經理和設計師合作創造更好的產品,與營銷人員合作開展更好的轉化活動,與客戶和服務器軟件開發人員合作創建數據管道和改進工作流。實際上,您必須與組織中的每個人,包括您的客戶一起工作。
本質上,您將與您的團隊成員合作開發用例,以了解解決問題所需的業務目標和數據。您將需要知道解決用例的正確方法,解決問題所需的數據,以及如何將結果翻譯并呈現到每個相關人員都能容易理解的地方。
最后幾點思考
感謝您的閱讀。
如果您被所需的技能所震撼到,那就太好了(因為我也是!)。
在一天結束的時候,這些技能不一定要成為一個數據科學家,但它們肯定會使您不同于其他典型的數據科學家。
我知道您獨一無二。
和以前一樣,如果您有任何問題或意見,請隨時在下面留下您的反饋,或者隨時可以在LinkedIn上聯系我。下一個帖子見!
原文鏈接:
https://towardsdatascience.com/top-13-skills-to-become-a-rockstar-data-scientist-faf2f97e655d
(*本文僅代表作者觀點,轉載請聯系原作者)
◆
精彩推薦
◆
CSDN APP上的小伙伴正在與專家“撩”爬蟲,咱們一起約,好嗎?打開CSDN APP或者掃描下方二維碼即可約起哦!
推薦閱讀:
阿里巴巴楊群:高并發場景下Python的性能挑戰
媲美Pandas?Python的Datatable包怎么用?
通俗易懂!使用Excel和TF實現Transformer!
Python助你疊貓貓,搶618大紅包!
從0到1:Web開發繞不開的WSGI到底是什么?
24式,加速你的Python
Python從入門到精通,這篇文章為你列出了25個關鍵技術點(附代碼)
500行Python代碼打造刷臉考勤系統
總結
以上是生活随笔為你收集整理的13大技能助你成为超级数据科学家!(附链接)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【爱暖夕阳】寒冬送暖 爱暖空巢
- 下一篇: Mybatis 报错`Parameter