日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2000字精华总结,安利一个超好用的Pandas数据挖掘分析神器

發布時間:2024/9/15 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2000字精华总结,安利一个超好用的Pandas数据挖掘分析神器 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在繼上一次給大家推薦了兩個數據分析工具之后:

推薦2個十分好用的pandas數據探索分析神器!

今天小編繼續來給大家介紹一款用于做EDA(探索性數據分析)的利器,并且可以自動生成代碼,幫助大家極大節省工作時間與提升工作效率的利器,叫做Bamboolib。

大家可以將其理解為是Pandas的GUI擴展工具,所具備的功能有

  • 查看DataFrame數據集與Series數據集

  • 過濾數據

  • 數據的統計分析

  • 繪制交互式圖表

  • 文本數據的操作

  • 數據清洗與類型轉換

  • 合并數據集

安裝模塊

在使用之前,我們先需要通過pip install進行該模塊的安裝

pip?install?bamboolib

同時因為我們要在Jupyter Notebook以及JupyterLab上面用到該工具,因此還要安裝額外的插件

#?Jupyter?Notebook?extensions python?-m?bamboolib?install_nbextensions#?JupyterLab?extensions python?-m?bamboolib?install_labextensions

查看DataFrame數據集

在上面的步驟全都完成之后,我們開始簡單的來嘗試使用一下bamboolib,導入我們需要用到的模塊

import?bamboolib?as?bam import?pandas?as?pd

讀取數據

df?=?pd.read_excel(io="supermarkt_sales.xlsx",engine="openpyxl",sheet_name="Sales",skiprows=3,usecols="B:R",nrows=1000, )df

會彈出如下所示的界面,

我們先來簡單介紹一下界面上的各個按鈕,

  • Explore DataFrame:對數據集進行探索性分析的按鈕

  • Create plot: 繪制交互性圖表的按鈕

  • Search Transformations:包含對數據集進行各項操作

  • Update: 過濾出指定的列

  • Export: 可以將處理完的數據集以及代碼導出

我們點擊Explore DataFrame按鈕來對數據先來一個大致的印象

我們看到會對數據集有一個大致的介紹,例如數據集是有1000行、18列,然后每一列的數據類型、每一列有多少的唯一值和缺失值我們都可以直觀的看到

要是我們想要查看有著連續型變量的特征,它們之間的相關性,可以點擊Correlation Matrix按鈕

過濾數據

要是我們想要指定某一列數據的話,點擊下拉框,選中select or drop columns,

或者我們想要刪掉某一列的話,也是相類似的操作

當然我們如果想要根據特定的條件來過濾出某些數據的話,則是選中filter rows按鈕,然后我們給出特定的條件,在Bamboolib模塊當中有多種方式來過濾數據,有has values、contains、startswith、endswith等等,類似于Pandas模塊當中對于文本數據處理的方法,例如我們想要挑選出“省份”這一列當中的“浙江省”的數據,就這么來做

我們還能夠對每行的數據進行排列,點擊下拉框選中sort rows,例如我們以“毛利率”的大小來排序,并且是降序排序,就這么來做

要是我們想要對某一列的列名進行重命名,點擊rename columns

數據的清洗與類型轉換

我們能夠改變數據集當中某一列的數據類型,點擊選中change column data dtype

對于缺失值的情況,我們既可以選擇去除掉這些缺失值,點擊選中drop missing values或者是drop columns with missing values

當然可以將這些缺失值替代為其他特定的值,無論是平均值或者是眾數等等,點擊選中find and replace missing values

數據的統計分析

我們可以通過bamboolib模塊來對數據進行統計分析,例如計算數值的變化(percent change),我們在下拉框中找到percent change的選項,然后對指定的列計算當中數值的變化百分比

我們還能夠進行累乘/累加的操作,我們在下拉框中選中cumulative product或者是cumulative sum

另外我們還能進行分組統計的計算操作,選中下拉框當中的group by and aggregate按鈕,例如我們以“省份”來分組,計算“總收入”的平均值,可以這么來操作

合并數據集

要是我們想要進行合并數據集的操作,在下拉框選中join/merge dataframes選項,當中有四種合并的方式,分別是inner join、left join、right join和outer join,然后我們選擇合并的

文本數據的操作

我們還能對數據集當中的文本數據進行各種操作,包括對英文字母大小寫的轉換,就用convert to lowercase/convert to uppercase

如果我們需要對字符串當中的空格做一個處理,我們在下拉框當中選中Remove leading and trailing whitespaces

而要是我們需要對字符串做一個分割,就在下拉框中選中split text column

繪制交互式的圖表

我們同時還能夠通過該模塊來繪制交互式的圖表,我們點擊“create plot”按鈕,我們能看到在圖表類型當中有直方圖、柱狀圖、折線圖、餅圖等十來種,我們來繪制當中的一種

我們在X軸上指定的是“省份”的數據,然后根據不同的商品類型配上不同的顏色,而從繪制出來的結果中能夠看到來自“北京”的顧客“食品飲料”購買的比較多,而來“浙江”的顧客“服裝服飾”購買的比較多

當然除了直方圖之外,還有其他很多種圖表可以通過該模塊來繪制,這里由于篇幅有限,小編就不一一給大家演示。

END

各位伙伴們好,詹帥本帥搭建了一個個人博客和小程序,匯集各種干貨和資源,也方便大家閱讀,感興趣的小伙伴請移步小程序體驗一下哦!(歡迎提建議)

推薦閱讀

牛逼!Python常用數據類型的基本操作(長文系列第①篇)

牛逼!Python的判斷、循環和各種表達式(長文系列第②篇)

牛逼!Python函數和文件操作(長文系列第③篇)

牛逼!Python錯誤、異常和模塊(長文系列第④篇)

總結

以上是生活随笔為你收集整理的2000字精华总结,安利一个超好用的Pandas数据挖掘分析神器的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。