當前位置：首頁 > 编程语言 > python >内容正文

python

python数据分析并生成报告_pandas_profiling ：教你一行代码生成数据分析报告

發(fā)布時間：2024/4/14 python 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 python数据分析并生成报告_pandas_profiling ：教你一行代码生成数据分析报告小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

分析報告全貌

什么是探索性數(shù)據(jù)分析

熟悉pandas的童鞋估計都知道pandas的describe()和info()函數(shù)，用來查看數(shù)據(jù)的整體情況，比如平均值、標準差之類，就是所謂的探索性數(shù)據(jù)分析-EDA。

pandas_profiling簡介

如果你想更方便快捷地了解數(shù)據(jù)的全貌，泣血推薦一個python庫：pandas_profiling，這個庫只需要一行代碼就可以生成數(shù)據(jù)EDA報告。

pandas_profiling基于pandas的DataFrame數(shù)據(jù)類型，可以簡單快速地進行探索性數(shù)據(jù)分析。

對于數(shù)據(jù)集的每一列，pandas_profiling會提供以下統(tǒng)計信息：

1、概要：數(shù)據(jù)類型，唯一值，缺失值，內(nèi)存大小

2、分位數(shù)統(tǒng)計：最小值、最大值、中位數(shù)、Q1、Q3、最大值，值域，四分位

3、描述性統(tǒng)計：均值、眾數(shù)、標準差、絕對中位差、變異系數(shù)、峰值、偏度系數(shù)

4、最頻繁出現(xiàn)的值，直方圖/柱狀圖

5、相關性分析可視化：突出強相關的變量，Spearman, Pearson矩陣相關性色階圖

并且這個報告可以導出為HTML，非常方便查看。

pandas_profiling安裝

安裝pandas_profiling可以使用pip、conda或者下載文件安裝，非常方便。

我這里使用pip方式，在命令行輸入：

pip install pandas-profiling

本文在Jupyter notebook中進行代碼實驗。

pandas_profiling使用方法

1、加載數(shù)據(jù)集

我這里用經(jīng)典的泰坦尼克數(shù)據(jù)集：

# 導入相關庫

import seaborn as sns

import pandas as pd

import pandas_profiling as pp

import matplotlib.pyplot as plt

# 加載泰坦尼克數(shù)據(jù)集

data = sns.load_dataset('titanic')

data.head()

輸出：

2、使用pandas_profiling生成數(shù)據(jù)探索報告

report = pp.ProfileReport(data)

report

輸出報告：

3、導出為html文件

report.to_file('report.html')

總結

pandas_profiling可以用一行代碼生成詳細的數(shù)據(jù)分析報告，與pandas深度結合，非常適合前期的數(shù)據(jù)探索階段，以及結果數(shù)據(jù)報告批量化生產(chǎn)。對不太熟悉python數(shù)據(jù)分析的新手來說，這是一個非常好用的工具。

總結

以上是生活随笔為你收集整理的python数据分析并生成报告_pandas_profiling ：教你一行代码生成数据分析报告的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： powerdns mysql_安装Pow
下一篇： python数学建模可视化_数学建模之流

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python数据分析并生成报告_pandas_profiling ：教你一行代码生成数据分析报告

總結