Python为何能成为数据分析的主流工具?
Python在1991年首次發布,Python2.0于2000年發布,8年后Python3.0發布。根據Stack Overflow在2017年的調查顯示,近45%的數據科學家使用Python作為主要的編程語言,Python每一次的進步都是它成為數據分析主流工具的重要因素。
推薦下我自己創建的Python學習交流群960410445,這是Python學習交流的地方,不管你是小白還是大牛,小編都歡迎,不定期分享干貨,包括我整理的一份適合零基礎學習Python的資料和入門教程。
近年來,Python的被使用性越來越高,尤其是Jupyter Notebook備受大家喜愛。根據Ben Frederickson進行的一項調查顯示,Jupyter Notebook在Github上的月活躍用戶(MAU)的占比在2015年后大幅上升。
可以看到,在CDA對數據分析人才等級的劃分中,基本上對Python軟件的應用都有一定的要求。
既然Python這么受歡迎,那我們就有一個問題了,Python一個開源的軟件,到底可以做什么呢?
Python具有豐富和強大的庫,其語言簡潔、優雅,有時候可以用幾句話就能表達出C語言幾千行、Java幾百行的代碼。
Python可以做的事情有很多:
1、web開發、
2、數據分析、
3、數據挖掘、
4、機器學習、
5、爬蟲等等
包括它的可視化功能也是和R可以媲美的。
在我看來,Python近幾年受追捧的一部分原因和數據分析行業的爆發有著密不可分的關系,隨著各大中小型企業對數據的重視程度的增加,數據分析師需求的大幅上漲,而Python作為數據分析界最容易入門上手并且做數據分析首選的的分析工具,需求也相應有了暴增。
Python中有兩個最基礎的包:Pandas和Numpy。
Pandas是Python中一種數據分析的包,而Numpy是一個可以借助Python實現科學計算的包,可以計算和儲存大型矩陣。所以,用Python來做數據分析基本需求都可以被實現,這也是Python可以廣泛運用到數據分析中的原因。
接下來我要提到的就是Python第一次引起我興趣的一個點——爬蟲,我是通過感到這個名詞有趣然后去了解學習Python從而感到Python的有趣之處。爬蟲就是爬取網頁上我們看到的信息,通過編寫語句、整理得到我們想要的數據,進而去做一些其他的數據分析,當然,這一切都要建立在合法合理的基礎上。下面我給大家分析一個我自己爬蟲的小練習。
這是一個爬取豆瓣tap250電影排行的程序代碼:
爬取到結果整理之后如下(輸出評分排名前十的電影):
使用上面的代碼,我爬取了豆瓣top250電影的影名、類型、國家、時間、簡介、評論等相關信息并最終輸出為excel表格,這將有助于你劇荒的時候更好的選擇高質量的電影。以上代碼僅僅是個人練習所操作,有更簡潔的語言歡迎大家一起交流。Python真的是一個神奇的工具!
轉載于:https://juejin.im/post/5c3d4b5451882525a50bccff
總結
以上是生活随笔為你收集整理的Python为何能成为数据分析的主流工具?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux | 网卡驱动
- 下一篇: 关于python编码的问题