使用 Pandas GUI 进行数据探索
數(shù)據(jù)預處理是數(shù)據(jù)科學管道的重要組成部分,需要找出數(shù)據(jù)中的各種不規(guī)則性,操作您的特征等。 Pandas 是我們經(jīng)常使用的一種工具,用于處理數(shù)據(jù),還有 seaborn 和 matplotlib用于數(shù)據(jù)可視化。PandasGUI 是一個庫,通過提供可用于制作
安裝 PandasGUI
使用pip 命令像安裝任何其他 python 庫一樣安裝 PandasGUI。相同的命令是:
pip install pandasgui要在 PandasGUI 中讀取 文件,我們需要使用show()函數(shù)。讓我們從將它與 pandas 一起導入開始。數(shù)據(jù)集是titanic
import pandas as pd from pandasgui import show from pandasgui.datasets import titanic show(titanic)這是我們的數(shù)據(jù)框,我們可以滾動查看數(shù)據(jù)。可以看到表示 NaN 值的空單元格。可以通過單擊單元格并編輯其值來編輯數(shù)據(jù)。只需單擊特定列即可根據(jù)特定列對數(shù)據(jù)框進行排序。在下圖中,我們可以通過單擊fare
列對數(shù)據(jù)框進行排序。
PandasGUI 中的過濾器
假設我們想查看 MSSubClass 的值大于或等于 120 的行。在 Pandas 中,我們可以使用以下命令:
titanic[titanic['age'] >= 20]PandasGUI 為我們提供了過濾器,可以在其中編寫查詢表達式來過濾數(shù)據(jù)。上述查詢表達式將是:
Pandas GUI 中的統(tǒng)計信息
匯總統(tǒng)計數(shù)據(jù)為您提供了數(shù)據(jù)分布的概覽。在pandas中,我們使用describe()方法來獲取數(shù)據(jù)的統(tǒng)計信息。
titanic.describe()
在 PandasGUI 中,可以轉(zhuǎn)到統(tǒng)計部分并獲取每列的統(tǒng)計信息。
PandasGUI 中的數(shù)據(jù)可視化
數(shù)據(jù)可視化通常不是 Pandas 的用途,我們使用 matplotlib、seaborn、plotly 等庫。但 PandasGUI 在 Grapher 部分下提供了使用 plotly 繪制的交互式圖形。
我們通過將fare拖放到x下來創(chuàng)建fare的直方圖。
除了這些,還可以創(chuàng)建箱線圖、3d 散點圖、線圖等。如果您想快速概覽數(shù)據(jù),從檢查匯總統(tǒng)計數(shù)據(jù)到繪制數(shù)據(jù),PandasGUI 是一個很好的工具,可以輕松完成,無需代碼。
總結(jié)
以上是生活随笔為你收集整理的使用 Pandas GUI 进行数据探索的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习图片分类CNN模板
- 下一篇: 七月在线 《关键点检测概览与环境配置》