python收集数据程序_用一行Python代码进行数据收集探索!Python真牛逼!
簡易的Pandas之路
任何使用P ython數據的人都會熟悉Pandas包。P andas是大多數行和列格式數據的go-to包。 如果你沒有Pandas,請確保在終端中使用pip install安裝:
pip install pandas
現在,讓我們看看Pandas包中的默認方法可以做些什么:
以下內容寫給不知道上面發生了什么的新手:
任何Pandas數據幀都有一個 .descripe() 返回上面的輸出的方法。 但是,此方法中沒有注意到分類變量。 在上面的示例中,輸出中完全省略了“ method ”列。
讓我們看看能不能解決這個問題。
Pandas分析
如果我告訴你僅用3行Python就可以產生以下統計信息,你會怎么想?但其實,如果不計算imports的話,總體上只用1行就夠。要點 :類型,唯一值,缺失值
分位數統計信息: 例如最小值,Q1,中位數,Q3,最大值,范圍,四分位數范圍
描述性統計數據: 例如平均值,眾數,標準偏差,總和,中位數絕對偏差,變異系數,峰度,偏度
常用值
直方圖
高相關變量Spearman ,Pearson和Kendall矩陣的相關性突出顯示
缺失值矩陣 ,計數,熱圖和缺失值樹狀圖
(功能列表直接來自Pandas Profiling GitHub)
好吧,我們可以使用Pandas Profiling軟件包!要安裝Pandas Profiling軟件包,只需在終端中使用pip install即可:
pip install pandas_profiling
經驗豐富的數據分析人員可能會因為這些數據的松散甚至乍一看之下的“華而不實”而嗤之以鼻,但這對于快速獲得數據的第一手印象肯定是有用的:
我們首先看到的是概述,其中提供了關于數據和變量的一些非常高級的統計信息,以及變量之間的高相關性、高偏態性的警告等。
但這還不算什么。向下滾動我們會發現報告有多個部分,如果只是簡單地用圖片展示這個1行程序的輸出是不足以完全呈現這些內容的,所以我制作了一個gif:
我強烈建議大家自己去探索一下這個包的特性,畢竟,這里提到的只是一行代碼,在將來 的數據分析中,這個包可能會對你非常有用。
import pandas as pd
import pandas_profiling
pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.c
總結
以上是生活随笔為你收集整理的python收集数据程序_用一行Python代码进行数据收集探索!Python真牛逼!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python-opencv 最快的遍历颜
- 下一篇: python创建虚拟环境命令_Pytho