當(dāng)前位置:
首頁 >
pandas groupby 数据丢失问题
發(fā)布時(shí)間:2023/12/18
43
豆豆
生活随笔
收集整理的這篇文章主要介紹了
pandas groupby 数据丢失问题
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
【問題場景】
在對銷售數(shù)據(jù)進(jìn)行上卷的時(shí)候,使用dataframe進(jìn)行g(shù)roupby操作,發(fā)現(xiàn)groupby之后的"銷售金額"的和比沒有進(jìn)行g(shù)roupby之前的和要少幾百萬。由于數(shù)據(jù)量有幾十萬條,不可能一條一條的對比是那些數(shù)據(jù)沒有進(jìn)行計(jì)算。百度一個(gè)多小時(shí),沒有結(jié)果。
然后不同角度去檢查dataframe的問題,使用info查看dataframe信息的時(shí)候,看到一個(gè)字段有缺失值;
【解決辦法】
對在groupby函數(shù)中需要分組的列進(jìn)行缺失值填充,然后再進(jìn)行g(shù)roupby操作和聚合函數(shù)。
df['列名'].fillna('null', inplace=True)
df.groupby(by=['列1','列2',...]).sum()
【問題原因】
groupby操作會自動過濾掉分組列里具有空值的數(shù)據(jù)行,所以導(dǎo)致數(shù)據(jù)groupby前后sum不一致。
總結(jié)
以上是生活随笔為你收集整理的pandas groupby 数据丢失问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: taylor+swift纽约公寓_Tay
- 下一篇: 百度冰桶算法2.0简介