當前位置：首頁 > 编程语言 > python >内容正文

python

python收集数据程序_用一行Python代码进行数据收集探索！Python真牛逼！

發布時間：2023/12/3 python 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 python收集数据程序_用一行Python代码进行数据收集探索！Python真牛逼！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡易的Pandas之路

任何使用P ython數據的人都會熟悉Pandas包。P andas是大多數行和列格式數據的go-to包。如果你沒有Pandas，請確保在終端中使用pip install安裝：

pip install pandas

現在，讓我們看看Pandas包中的默認方法可以做些什么：

以下內容寫給不知道上面發生了什么的新手：

任何Pandas數據幀都有一個 .descripe（）返回上面的輸出的方法。但是，此方法中沒有注意到分類變量。在上面的示例中，輸出中完全省略了“ method ”列。

讓我們看看能不能解決這個問題。

Pandas分析

如果我告訴你僅用3行Python就可以產生以下統計信息，你會怎么想？但其實，如果不計算imports的話，總體上只用1行就夠。要點：類型，唯一值，缺失值

分位數統計信息：例如最小值，Q1，中位數，Q3，最大值，范圍，四分位數范圍

描述性統計數據：例如平均值，眾數，標準偏差，總和，中位數絕對偏差，變異系數，峰度，偏度

常用值

直方圖

高相關變量Spearman ，Pearson和Kendall矩陣的相關性突出顯示

缺失值矩陣，計數，熱圖和缺失值樹狀圖

（功能列表直接來自Pandas Profiling GitHub）

好吧，我們可以使用Pandas Profiling軟件包！要安裝Pandas Profiling軟件包，只需在終端中使用pip install即可：

pip install pandas_profiling

經驗豐富的數據分析人員可能會因為這些數據的松散甚至乍一看之下的“華而不實”而嗤之以鼻，但這對于快速獲得數據的第一手印象肯定是有用的：

我們首先看到的是概述，其中提供了關于數據和變量的一些非常高級的統計信息，以及變量之間的高相關性、高偏態性的警告等。

但這還不算什么。向下滾動我們會發現報告有多個部分，如果只是簡單地用圖片展示這個1行程序的輸出是不足以完全呈現這些內容的，所以我制作了一個gif：

我強烈建議大家自己去探索一下這個包的特性，畢竟，這里提到的只是一行代碼，在將來的數據分析中，這個包可能會對你非常有用。

import pandas as pd

import pandas_profiling

pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.c

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。