Kaggle 发布首份数据科学从业报告 | 不及美国同行1/3,中国数据科学家平均年薪约3万美元
Kaggle?是互聯網上最著名的數據科學競賽平臺之一,今年?3?月?8?日,這家機構被谷歌收購,6?月?6?日又宣布用戶數量超過了?100?萬人。互聯網創業方興未艾,人工智能的浪潮又接踵而來,而貫穿其中的數據科學則在這更迭交替中顯得愈發重要。
最近,這一社區首次進行了機器學習/數據科學現狀調查。在超過?16,000?名從業者的詳盡答卷中,我們可以一窺目前業內的發展趨勢。有趣的是,Kaggle?也將調查結果封裝成了匿名數據集以供大家自行分析。
以下報告包括本次調查的所有主要結果,其中包含的主要內容有:
雖然?Python?很可能是機器學習最常用的編程語言,但統計學家更多地使用?R?語言。
平均而言,數據科學家的年齡在?30?歲左右,但是這個數字在不同的國家有所不同。例如,印度的受訪者要比澳大利亞的平均年輕?9?歲。
有關被調查者教育程度,最普遍的學位是碩士,但是工資最高的($150k+)人群中,擁有博士學位的人稍稍多一點。
數據科學從業者畫像
年齡:平均年齡為 30 歲,但國家間略有不同,例如印度的平均年齡就比澳大利亞年輕了9歲,而中國受訪者的平均年齡為 25 歲。
工作狀態:受訪者中有全職工作的占 65.7%,正在找工作的占 12.7%。而在中國,這兩個數字分別為 53.5% 和 17%。
職位:數據科學領域的工作劃分非常繁雜,比如在伊朗和馬來西亞,最普遍的頭銜是“科學家”或“研究員”,而在中國,最流行的頭銜則是“機器學習工程師”。
年薪:全球數據科學從業者的平均年薪是 55441 美元,美國的數據科學從業者平均薪資最高,達 11 萬美元,而這一數字在中國只有 29835 美元(或許和樣本數量較少有關)。
學歷:數據科學從業者中比例最高的是碩士,但博士的薪水顯然更高。
數據科學從業者工作內容
數據科學方法使用:Logistic?回歸是工作之中最為常用的數據科學方法,不過神經網絡使用更為頻繁的國家安全領域除外。總的來說,數據科學中更常見的還是使用經典的機器學習算法,簡單的線性與非線性分類器是數據科學中最常見的算法,而功能強大的集成方法也十分受歡迎。我們看到目前神經網絡模型的使用頻率要高于支持向量機,這可能是近來多層感知機要比使用帶核函數的?SVM?更加廣泛的表現。
語言使用:Python 依舊是數據科學家最常用的語言,而 R?語言也很流行。
數據類型:關系型數據是開發者在工作中最常用的數據類型,而在學術研究和國防安全領域,文本型數據使用的更多。
代碼分享:58.4% 的受訪者在工作中使用?Git 分享他們的代碼。但大公司中的開發者更傾向于使用電子郵件來分享他們的代碼,而創業公司則對云的方式情有獨鐘。
工作障礙:臟數據(dirty?data)顯然又名列榜首。通俗的講,當一個事務正在訪問數據,并且對數據進行了修改,而這種修改還沒有提交到數據庫中,這時,另外一個事務也訪問這個數據,然后使用了這個數據。因為這個數據是還沒有提交的數據,那么另外一個事務讀到的這個數據是臟數據,依據臟數據所做的操作可能是不正確的。
數據科學新手入行
語言選擇:數據顯示?Python 和 R?語言依舊是推薦程度最高的兩種語言,而 Python?的受追捧程度又是 R?語言的兩倍之高。
學習資源:數據科學是一個快速變化的領域,不斷的學習已經成為了一種必需的技能,而目前行業內的人會更多通過 Stack?Overflow?Q&A,Conferences?和?Podcasts 來進行學習。除此以外,官方的文檔和觀看?Youtube?視頻也不失為有效地學習途徑。
開源數據獲取:dataset?aggregators、https://www.kaggle.com/datasets
找工作:首選方法是直接聯系招聘者或建立自己的人脈網絡
報告下載:https://www.kaggle.com/surveys/2017
調查數據下載:https://www.kaggle.com/kaggle/kaggle-survey-2017
?
作為一個集合社群、競賽、用數據解決問題三個核心于一身的平臺,不論是企業、某個領域的研究組織、甚至是政府機構,都可以把數據集(dataset)跟想要解決的問題丟到?Kaggle?上去,請數據專家來幫忙解答。
從另一個角度來看,Kaggle 上聚集了眾多對機器學習、人工智能有興趣的人,包括數據科學家、統計高手、工程師或者是學生,他們利用數據采礦、深度學習、統計等方式搭建出解答問題的模型或算法,勝出者就有機會獲得禮品、獎金或是工作機會,當然也有不少參加比賽的人是純粹出自興趣。
?
例如,全球最大衛星影像公司 Planet,主要是透過衛星影像監控亞馬遜雨林的變化,但他們發現還是有些問題無解,例如無法分辨雨林的減少是人為造成還是自然因素,所以在 Kaggle 上舉辦比賽,希望可以有更好的算法來保護亞馬遜雨林,吸引了不少關注生態議題的人參與。
?
正因為 Kaggle 上高手云集,吸引不少大型企業、機構都到此舉辦比賽,比如Google、Facebook、Airbnb、沃爾瑪、Benz、Bosch、英特爾、西班牙國際銀行(Santander)、歐洲量子物理研究所(CERN)等,而且獎金額度更已有突破百萬美元等級的案例。
??
圖丨Kaggle上獎金排名前五的競賽
Kaggle 創始人 Anthony Goldbloom 在澳洲墨爾本大學畢業后,曾經在《經濟學人》雜志當過實習記者,之后進入澳洲聯邦政府財政部(Australian Treasury)、澳洲儲備銀行(RBA)擔任經濟計量學家。當時他就預見數據科學將在未來扮演重要的角色,就在澳洲曾建立了一個數據科學家的線上社群。但他心想,為何不把數據開放,讓大家通過比賽的方式找到最好的算法?
圖丨Kaggle 創始人 Anthony Goldbloom?
所以,他把公司搬到硅谷從而創立了 Kaggle,依靠社群成功累積了龐大的用戶, Goldbloom 在接受澳洲媒體采訪時表示,“Kaggle 今日已經擁有一百萬用戶,未來幾年還會成長十倍甚至百倍,因為這個領域的人才需求缺口還很大。
總結
以上是生活随笔為你收集整理的Kaggle 发布首份数据科学从业报告 | 不及美国同行1/3,中国数据科学家平均年薪约3万美元的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 五分钟搞懂并查集
- 下一篇: 每天20分钟,只需一年,一年级学生英语听