當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

聚合多个文件_python数据分析与挖掘（二十五）--- Pandas高级处理分组与聚合

發(fā)布時間：2024/9/27 python 46 豆豆

生活随笔收集整理的這篇文章主要介紹了聚合多个文件_python数据分析与挖掘（二十五）--- Pandas高级处理分组与聚合小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

分組與聚合通常是分析數(shù)據(jù)的一種方式，通常與一些統(tǒng)計函數(shù)一起使用，查看數(shù)據(jù)的分組情況

想一想其實剛才的交叉表與透視表也有分組的功能，所以算是分組的一種形式，只不過他們主要是計算次數(shù)或者計算比例！！看其中的效果：

4.10.1 什么是分組與聚合

4.10.2 分組與聚合API

DataFrame.groupby(key, as_index=False)
- key:分組的列數(shù)據(jù)，可以多個

案例:不同顏色的不同筆的價格數(shù)據(jù)

col =pd.DataFrame({'color': ['white','red','green','red','green'], 'object': ['pen','pencil','pencil','ashtray','pen'],'price1':[5.56,4.20,1.30,0.56,2.75],'price2':[4.75,4.12,1.60,0.75,3.15]})color object price1 price2 0 white pen 5.56 4.75 1 red pencil 4.20 4.12 2 green pencil 1.30 1.60 3 red ashtray 0.56 0.75 4 green pen 2.75 3.15

進行分組，對顏色分組，price進行聚合

# 分組，求平均值 col.groupby(['color'])['price1'].mean() col['price1'].groupby(col['color']).mean()color green 2.025 red 2.380 white 5.560 Name: price1, dtype: float64# 分組，數(shù)據(jù)的結(jié)構(gòu)不變 col.groupby(['color'], as_index=False)['price1'].mean()color price1 0 green 2.025 1 red 2.380 2 white 5.560

4.10.3 星巴克零售店鋪數(shù)據(jù)案例

現(xiàn)在我們有一組關(guān)于全球星巴克店鋪的統(tǒng)計數(shù)據(jù)，如果我想知道美國的星巴克數(shù)量和中國的哪個多，或者我想知道中國每個省份星巴克的數(shù)量的情況，那么應(yīng)該怎么辦？

數(shù)據(jù)來源：Starbucks Locations Worldwide

1 數(shù)據(jù)獲取

從文件中讀取星巴克店鋪數(shù)據(jù)

# 導(dǎo)入星巴克店的數(shù)據(jù) starbucks = pd.read_csv("directory.csv")

2 進行分組聚合

# 按照國家分組，求出每個國家的星巴克零售店數(shù)量 count = starbucks.groupby(['Country']).count()

畫圖顯示結(jié)果

count['Brand'].plot(kind='bar', figsize=(20, 8)) plt.show()

假設(shè)我們加入省市一起進行分組

# 設(shè)置多個索引，set_index() starbucks.groupby(['Country', 'State/Province']).count()

仔細觀察這個結(jié)構(gòu)，與我們前面講的哪個結(jié)構(gòu)類似？？

與前面的MultiIndex結(jié)構(gòu)類似

總結(jié)

以上是生活随笔為你收集整理的聚合多个文件_python数据分析与挖掘（二十五）--- Pandas高级处理分组与聚合的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： c语言程序滞留,c语言有个可以使程序延时
下一篇： python中__init__文件的运用