日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

pandas(七) -- 数据分组

發布時間:2025/1/21 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 pandas(七) -- 数据分组 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據分組官方文檔
分組統計 - groupby功能

  • 根據某些條件將數據拆分成組
  • 對每個組單獨使用函數
  • 將結果合并到一個數據結構中

根據單列或多列分組 .groupby()
分組后的對象執行數值計算函數 .sum(),.mean()…
分組后對象同時使用多個函數 --agg()。

df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)

參數:

  • by 標簽(label)或標簽列表
  • axis 默認值為0
  • level MultiIndex時有效
  • as_index 布爾型值 默認是True – 使用grouped的標簽作為index.若為False – grouped的標簽仍為標簽,會新生成0~n-1的index.
  • sort 是否對grouped的標簽排序

返回的是GroupBy 對象。通過list(),查看具體內容

df

經過group方法后,得到的是groupby對象,是一個中間數據,沒有進行計算

a = df.groupby('A').mean()#單列整合 b = df.groupby(['A','B']).mean()#多列整合


c = df.groupby(['A'])['D'].mean() # 以A分組,算D的平均值.返回的是Series對象

  • 使用list()將groupby對象變成列表對象,可查看具體內容
list(df.groupby('A'))

列表是兩個元組對象。每個元組包含‘A’的標簽名和相應的DataFrame或Series。

[('bar', A B C D1 bar one 0.953897 0.263753 bar three 0.190113 1.011155 bar two 0.941511 -0.51730), ('foo', A B C D0 foo one 1.119704 -0.7421482 foo two 0.643483 -1.1474054 foo two -0.952974 -0.4342416 foo one -0.421435 0.9337917 foo three -0.042118 0.641683)]

  • get_group()
    df.groupby(['A']).get_group('bar')與list(df.groupby('A'))[0][1]相同
  • .groups:將分組后的groups轉為dict
  • 分組計算函數方法
grouped = df.groupby(['A']) print(grouped) print(grouped.first(),'→ first:非NaN的第一個值\n') print(grouped.last(),'→ last:非NaN的最后一個值\n') print(grouped.sum(),'→ sum:非NaN的和\n') print(grouped.mean(),'→ mean:非NaN的平均值\n') print(grouped.median(),'→ median:非NaN的算術中位數\n') print(grouped.count(),'→ count:非NaN的值\n') print(grouped.min(),'→ min、max:非NaN的最小值、最大值\n') print(grouped.std(),'→ std,var:非NaN的標準差和方差\n') print(grouped.prod(),'→ prod:非NaN的積\n')
  • 多函數計算:agg()

函數寫法可以用str,或者np.方法
求均值和求和

可以通過list,dict傳入,當用dict時,key名為columns → 更新pandas后會出現警告

df.groupby('A')['C'].agg({'result1':np.mean,'result2':np.sum})

總結

以上是生活随笔為你收集整理的pandas(七) -- 数据分组的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。