python数据分析并生成报告_pandas_profiling :教你一行代码生成数据分析报告
分析報告全貌
什么是探索性數(shù)據(jù)分析
熟悉pandas的童鞋估計都知道pandas的describe()和info()函數(shù),用來查看數(shù)據(jù)的整體情況,比如平均值、標準差之類,就是所謂的探索性數(shù)據(jù)分析-EDA。
pandas_profiling簡介
如果你想更方便快捷地了解數(shù)據(jù)的全貌,泣血推薦一個python庫:pandas_profiling,這個庫只需要一行代碼就可以生成數(shù)據(jù)EDA報告。
pandas_profiling基于pandas的DataFrame數(shù)據(jù)類型,可以簡單快速地進行探索性數(shù)據(jù)分析。
對于數(shù)據(jù)集的每一列,pandas_profiling會提供以下統(tǒng)計信息:
1、概要:數(shù)據(jù)類型,唯一值,缺失值,內(nèi)存大小
2、分位數(shù)統(tǒng)計:最小值、最大值、中位數(shù)、Q1、Q3、最大值,值域,四分位
3、描述性統(tǒng)計:均值、眾數(shù)、標準差、絕對中位差、變異系數(shù)、峰值、偏度系數(shù)
4、最頻繁出現(xiàn)的值,直方圖/柱狀圖
5、相關性分析可視化:突出強相關的變量,Spearman, Pearson矩陣相關性色階圖
并且這個報告可以導出為HTML,非常方便查看。
pandas_profiling安裝
安裝pandas_profiling可以使用pip、conda或者下載文件安裝,非常方便。
我這里使用pip方式,在命令行輸入:
pip install pandas-profiling
本文在Jupyter notebook中進行代碼實驗。
pandas_profiling使用方法
1、加載數(shù)據(jù)集
我這里用經(jīng)典的泰坦尼克數(shù)據(jù)集:
# 導入相關庫
import seaborn as sns
import pandas as pd
import pandas_profiling as pp
import matplotlib.pyplot as plt
# 加載泰坦尼克數(shù)據(jù)集
data = sns.load_dataset('titanic')
data.head()
輸出:
2、使用pandas_profiling生成數(shù)據(jù)探索報告
report = pp.ProfileReport(data)
report
輸出報告:
3、導出為html文件
report.to_file('report.html')
總結
pandas_profiling可以用一行代碼生成詳細的數(shù)據(jù)分析報告,與pandas深度結合,非常適合前期的數(shù)據(jù)探索階段,以及結果數(shù)據(jù)報告批量化生產(chǎn)。對不太熟悉python數(shù)據(jù)分析的新手來說,這是一個非常好用的工具。
總結
以上是生活随笔為你收集整理的python数据分析并生成报告_pandas_profiling :教你一行代码生成数据分析报告的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: powerdns mysql_安装Pow
- 下一篇: python数学建模可视化_数学建模之流