聚合多个文件_python数据分析与挖掘(二十五)--- Pandas高级处理分组与聚合
生活随笔
收集整理的這篇文章主要介紹了
聚合多个文件_python数据分析与挖掘(二十五)--- Pandas高级处理分组与聚合
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
分組與聚合通常是分析數(shù)據(jù)的一種方式,通常與一些統(tǒng)計函數(shù)一起使用,查看數(shù)據(jù)的分組情況
想一想其實剛才的交叉表與透視表也有分組的功能,所以算是分組的一種形式,只不過他們主要是計算次數(shù)或者計算比例!!看其中的效果:
4.10.1 什么是分組與聚合
4.10.2 分組與聚合API
- DataFrame.groupby(key, as_index=False)
- key:分組的列數(shù)據(jù),可以多個
- 案例:不同顏色的不同筆的價格數(shù)據(jù)
進行分組,對顏色分組,price進行聚合
# 分組,求平均值 col.groupby(['color'])['price1'].mean() col['price1'].groupby(col['color']).mean()color green 2.025 red 2.380 white 5.560 Name: price1, dtype: float64# 分組,數(shù)據(jù)的結(jié)構(gòu)不變 col.groupby(['color'], as_index=False)['price1'].mean()color price1 0 green 2.025 1 red 2.380 2 white 5.5604.10.3 星巴克零售店鋪數(shù)據(jù)案例
現(xiàn)在我們有一組關(guān)于全球星巴克店鋪的統(tǒng)計數(shù)據(jù),如果我想知道美國的星巴克數(shù)量和中國的哪個多,或者我想知道中國每個省份星巴克的數(shù)量的情況,那么應(yīng)該怎么辦?
數(shù)據(jù)來源:Starbucks Locations Worldwide
1 數(shù)據(jù)獲取
從文件中讀取星巴克店鋪數(shù)據(jù)
# 導(dǎo)入星巴克店的數(shù)據(jù) starbucks = pd.read_csv("directory.csv")2 進行分組聚合
# 按照國家分組,求出每個國家的星巴克零售店數(shù)量 count = starbucks.groupby(['Country']).count()畫圖顯示結(jié)果
count['Brand'].plot(kind='bar', figsize=(20, 8)) plt.show()假設(shè)我們加入省市一起進行分組
# 設(shè)置多個索引,set_index() starbucks.groupby(['Country', 'State/Province']).count()仔細觀察這個結(jié)構(gòu),與我們前面講的哪個結(jié)構(gòu)類似??
與前面的MultiIndex結(jié)構(gòu)類似
總結(jié)
以上是生活随笔為你收集整理的聚合多个文件_python数据分析与挖掘(二十五)--- Pandas高级处理分组与聚合的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c语言程序滞留,c语言有个可以使程序延时
- 下一篇: python中__init__文件的运用