當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python 数据分析实际案例_python实战案例：超市营业额数据分析

發(fā)布時(shí)間：2024/7/5 python 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 python 数据分析实际案例_python实战案例：超市营业额数据分析小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

實(shí)戰(zhàn)是學(xué)習(xí)的最好途徑，效率最高，本文不是很長，通過小小的練習(xí)，讓大家綜合運(yùn)用基礎(chǔ)知識(shí)，加深印象鞏固記憶。

一、讀入數(shù)據(jù)，了解數(shù)據(jù)

本數(shù)據(jù)隨機(jī)生成的假數(shù)據(jù)，讀者可以自己造，也可以通過下方鏈接下載，或者后臺(tái)回復(fù)“超市營業(yè)額”獲取：

鏈接：https://pan.baidu.com/s/1OIOwBdBZydgRf5U72Gh_vg

提取碼：vedz

讀入數(shù)據(jù)

import random import numpy as np import pandas as pd import matplotlib.pyplot as plt # 生成營業(yè)額400-4000，生成400個(gè)隨機(jī)數(shù) # np.random.randint(400,4000,400) df=pd.read_excel("超市營業(yè)額數(shù)據(jù).xlsx") df.head(10)

了解數(shù)據(jù)

通過.info() 和 .describe()方法分別查看數(shù)據(jù)大概是什么樣的

df.info() --------------------------------------------------------------------- out: <class 'pandas.core.frame.DataFrame'> RangeIndex: 256 entries, 0 to 255 Data columns (total 6 columns): 工號(hào) 256 non-null int64 姓名 256 non-null object 日期 256 non-null datetime64[ns] 時(shí)段 256 non-null object 交易額 242 non-null float64 柜臺(tái) 256 non-null object dtypes: datetime64[ns](1), float64(1), int64(1), object(3) memory usage: 12.1+ KB

數(shù)據(jù)總共256個(gè)觀測(cè)，6個(gè)變量/特征，工號(hào)是整型，日期是日期型，交易額是浮點(diǎn)型，其他是字符型數(shù)據(jù)。“交易額”有缺失數(shù)據(jù)。

#將工號(hào)的數(shù)據(jù)類型由原來是整型調(diào)整為字符型df['工號(hào)']=df["工號(hào)"].apply(lambda x:str(x)) df.info() --------------------------------------------------------------------- out: <class 'pandas.core.frame.DataFrame'> RangeIndex: 256 entries, 0 to 255 Data columns (total 6 columns): 工號(hào) 256 non-null object 姓名 256 non-null object 日期 256 non-null datetime64[ns] 時(shí)段 256 non-null object 交易額 242 non-null float64 柜臺(tái) 256 non-null object dtypes: datetime64[ns](1), float64(1), object(4) memory usage: 12.1+ KB

從統(tǒng)計(jì)量角度，可以看到數(shù)值型的變量（交易額）的最大值、最小值、均值、四分位值，標(biāo)準(zhǔn)差的五值分布。均值是2123.88，最大為3988，最小是404，中位數(shù)是2239.5。

df.describe() --------------------------------------------------------------------- out:交易額 count 242.000000 mean 2123.884298 std 1033.596041 min 404.000000 25% 1211.500000 50% 2239.500000 75% 3023.250000 max 3988.000000

題目1：

刪除重復(fù)數(shù)據(jù)，把缺失的交易額使用每個(gè)員工自己所有交易額的中值進(jìn)行填充，把小于500的交易額統(tǒng)一改為500，大于3000的交易額改為3000，修改后的數(shù)據(jù)保存為文件“數(shù)據(jù)調(diào)整結(jié)果.xlsx”，文件結(jié)構(gòu)與“超市營業(yè)額數(shù)據(jù).xlsx”相同。

# 查看重復(fù)數(shù)據(jù) df[df.duplicated()] # 刪除重復(fù)數(shù)據(jù) df.drop_duplicates()

重復(fù)的數(shù)據(jù)如下：

for i in df[df["交易額"].isnull()].index:#循環(huán)遍歷交易額有缺失值的索引#取到交易額有缺失值的索引，根據(jù)索引找到人名，用這些人對(duì)應(yīng)的交易額中位數(shù)填充df.loc[i,"交易額"]=round(df.loc[df.姓名==df.loc[i,"姓名"],"交易額"].median()) --------------------------------------------------------------------- df.loc[df["交易額"]<500,"交易額"]=500 df.loc[df["交易額"]>3000,"交易額"]=3000

解析：

df.loc[df.姓名==df.loc[i,"姓名"],"交易額"]：取有營業(yè)額缺失的索引對(duì)應(yīng)的人的營業(yè)額

所有營業(yè)額的缺失值已經(jīng)被填補(bǔ) df.info() --------------------------------------------------------------------- out: <class 'pandas.core.frame.DataFrame'> RangeIndex: 256 entries, 0 to 255 Data columns (total 6 columns): 工號(hào) 256 non-null object 姓名 256 non-null object 日期 256 non-null datetime64[ns] 時(shí)段 256 non-null object 交易額 256 non-null float64 柜臺(tái) 256 non-null object dtypes: datetime64[ns](1), float64(1), object(4) memory usage: 12.1+ KB

驗(yàn)證：

df[df["交易額"].isnull()].index --------------------------------------------------------------------- out: Int64Index([6, 29, 80, 113, 127, 149, 152, 175, 187, 194, 202, 228, 232, 254], dtype='int64')

索引6對(duì)應(yīng)的人為“錢八”，他的所有營業(yè)額的中位數(shù)是：

round(df.loc[df.姓名=="錢八","交易額"].median()) --------------------------------------------------------------------- out: 1536

處理后的數(shù)據(jù)如下：

保存數(shù)據(jù)：

df.to_excel("數(shù)據(jù)調(diào)整結(jié)果.xlsx",index=False)

題目2：

查看單日交易總額最小的3天的交易數(shù)據(jù)，并查看這三天是周幾，程序運(yùn)行后直接輸出這些結(jié)果。

df2=df.groupby(by="日期",as_index=False).agg({"交易額":"sum"}).nsmallest(3,["日期",'交易額']) df2 --------------------------------------------------------------------- out:日期交易額 0 2019-03-01 13809.0 1 2019-03-02 19364.0 2 2019-03-03 16821.0 pd.to_datetime(df2["日期"]).dt.weekday_name ----------------------------------------------------------------------- out: 0 Friday 1 Saturday 2 Sunday Name: 日期, dtype: object

解析：

df.groupby(by="日期",as_index=False).agg({"交易額":"sum"})：根據(jù)日期分類匯總，按交易額求和匯總

nsmallest：傳入保留最小的前幾位n和保留的列名。

題目3：

把所有員工的工號(hào)前面增加一位數(shù)字，增加的數(shù)字和原工號(hào)最后一位相同，把修改后的數(shù)據(jù)寫入新文件“超市營業(yè)額2_修改工號(hào).xlsx”。例如，工號(hào)1001變?yōu)?1001，1003變?yōu)?1003

from copy import deepcopy #深拷貝 df3=deepcopy(df) fx=lambda x:str(x)[-1]+str(x) df3['gh2']=df[['工號(hào)']].applymap(fx) df3 --------------------------------------------------------------------- out:

解析：

1、lambda x:str(x)[-1]+str(x)：定義lambda表達(dá)式，用于參數(shù)x（x轉(zhuǎn)化為字符串后切片取末位，然后再拼接一個(gè)轉(zhuǎn)為字符串的x）

2、df[['工號(hào)']].applymap(fx)：applymap()函數(shù)作用對(duì)象為DataFrame,調(diào)用定義的lambda表達(dá)書，逐個(gè)作用在df[['工號(hào)']]的工號(hào)上。當(dāng)然還可以用apply()函數(shù)和map()函數(shù)，變換作用對(duì)象即可：

map()和apply()作用對(duì)象為Series。

df3['gh1']=df['工號(hào)'].map(fx) df3['gh3']=df['工號(hào)'].apply(fx) --------------------------------------------------------------------- out: 保存數(shù)據(jù)到超市營業(yè)額2_修改工號(hào).xlsxdf3.to_excel("超市營業(yè)額2_修改工號(hào).xlsx",index=False)

額外補(bǔ)充：

1、深拷貝和淺拷貝通俗理解

a是自定義的列表，b是copy(a)，c是deepcopy(a)，改變列表a中的值，b會(huì)隨之改變，c還是原來的a。

2、==和is的區(qū)別：

python對(duì)象三要素：id（身份標(biāo)識(shí)）、type（數(shù)據(jù)類型）、value（值）

==是比較操作，用來判斷兩個(gè)對(duì)象的value（值）是否相等

is是同一性運(yùn)算符，判斷比較兩個(gè)對(duì)象的唯一身份id

題目4：

把每個(gè)員工的交易數(shù)據(jù)寫入文件“各員工數(shù)據(jù).xlsx”，每個(gè)員工的數(shù)據(jù)占一個(gè)worksheet，結(jié)構(gòu)和“超市營業(yè)額2.xlsx”一樣，并以員工姓名作為worksheet的標(biāo)題。

writer=pd.ExcelWriter("各員工數(shù)據(jù).xlsx") names=set(df['姓名']) names --------------------------------------------------------------------- out: {'周七', '張三', '李四', '王五', '趙六', '錢八'}for name in names:dff=df[df['姓名']==name]dff.to_excel(writer,sheet_name=name,index=False) writer.save() --------------------------------------------------------------------- out:

最終結(jié)果如下（前面所有生成的文件和本題產(chǎn)出的excel文件）：

題目5：

查看日期尾數(shù)為6的數(shù)據(jù)前12行，輸出這些結(jié)果

df[df['日期'].map(lambda x:x.strftime("%Y-%m-%d").endswith("6"))][:12] --------------------------------------------------------------------- out:工號(hào) 姓名日期時(shí)段交易額柜臺(tái) 44 1002 李四 2019-03-06 9:00-14:00 799.0 化妝品 45 1005 周七 2019-03-06 14:00-21:00 2726.0 化妝品 46 1002 李四 2019-03-06 9:00-14:00 1519.0 食品 47 1003 王五 2019-03-06 14:00-21:00 3000.0 食品 48 1003 王五 2019-03-06 9:00-14:00 2343.0 日用品 49 1005 周七 2019-03-06 14:00-21:00 3000.0 日用品 50 1003 王五 2019-03-06 9:00-14:00 2293.0 蔬菜水果 51 1004 趙六 2019-03-06 14:00-21:00 1970.0 蔬菜水果 126 1002 李四 2019-03-16 9:00-14:00 3000.0 化妝品 127 1003 王五 2019-03-16 14:00-21:00 2428.0 化妝品 128 1003 王五 2019-03-16 9:00-14:00 2732.0 食品 129 1001 張三 2019-03-16 14:00-21:00 1650.0 食品

方法二：用datetime模塊

from datetime import datetime df[df['日期'].map(lambda x:str(datetime.date(x)).endswith('16'))][:12] --------------------------------------------------------------------- out:工號(hào) 姓名日期時(shí)段交易額柜臺(tái) 126 1002 李四 2019-03-16 9:00-14:00 3000.0 化妝品 127 1003 王五 2019-03-16 14:00-21:00 2428.0 化妝品 128 1003 王五 2019-03-16 9:00-14:00 2732.0 食品 129 1001 張三 2019-03-16 14:00-21:00 1650.0 食品 130 1002 李四 2019-03-16 9:00-14:00 2823.0 日用品 131 1003 王五 2019-03-16 14:00-21:00 2857.0 日用品 132 1004 趙六 2019-03-16 9:00-14:00 511.0 蔬菜水果 133 1005 周七 2019-03-16 14:00-21:00 2658.0 蔬菜水果

解析：

思路都是一樣的，首先定義lambda表達(dá)式（也可以自定義函數(shù)），對(duì)其字符化處理后調(diào)用字符處理函數(shù)endswith()函數(shù)判斷以什么結(jié)尾，方法一直接用格式化時(shí)間，方法二調(diào)用datetime模塊datetime.date，將日期時(shí)間類型轉(zhuǎn)化為日期型后，在轉(zhuǎn)化為字符串。

題目6：

計(jì)算張三每天交易總額的增幅，也就是每天交易總額減去前一天的交易總額，程序運(yùn)行后輸出前5天的結(jié)果

df[df['姓名']=="張三"].groupby(by='日期').交易額.sum() #張三每天總的交易額 --------------------------------------------------------------------- out: 日期 2019-03-01 1664.0 2019-03-02 680.0 2019-03-04 1823.0 2019-03-07 2352.0 2019-03-09 2522.0 2019-03-11 3000.0 2019-03-12 592.0 2019-03-14 2676.0 2019-03-16 1650.0 2019-03-18 1266.0 2019-03-19 1414.0 2019-03-21 3000.0 2019-03-22 3000.0 2019-03-24 1942.0 2019-03-26 1725.0 2019-03-28 518.0 2019-03-29 2651.0 2019-03-31 3000.0 Name: 交易額, dtype: float64

增幅利用diff()函數(shù)，簡單粗暴：

df[df['姓名']=="張三"].groupby(by='日期').交易額.sum().diff()[:5] --------------------------------------------------------------------- out: 日期 2019-03-01 NaN 2019-03-02 -984.0 2019-03-04 1143.0 2019-03-07 529.0 2019-03-09 170.0 Name: 交易額, dtype: float64

題目7：

繪制折線圖展示一個(gè)月內(nèi)各柜臺(tái)營業(yè)額每天變化趨勢(shì)，保存為“1.png”，設(shè)置dpi為200

## 設(shè)置字符集，防止中文亂碼 import matplotlib as mpl mpl.rcParams['font.sans-serif']=[u'simHei'] mpl.rcParams['axes.unicode_minus']=Falsedf7=df.loc[:,['日期','柜臺(tái)','交易額']].groupby(by=['日期','柜臺(tái)'],as_index=False).sum() df7.pivot(index='日期',columns='柜臺(tái)',values='交易額').plot() plt.title("每天各柜臺(tái)營業(yè)額的變化") plt.legend(loc='best') plt.xticks(rotation=5) plt.savefig("1.jpg",dpi=200)

題目8：

繪制餅狀圖展示該月各柜臺(tái)營業(yè)額在交易總額中的占比，保存為“2.png”，設(shè)置dpi為200

df8.plot(x='柜臺(tái)',y='交易額',kind='pie',labels=df8['柜臺(tái)'].values) plt.legend(loc=(1,0.5)) plt.title("各柜臺(tái)營業(yè)額占比圖") plt.savefig("2.png",dpi=200)

題目9：

把銷售總額低于5萬的員工工號(hào)和姓名寫入“業(yè)績差的員工.txt”文件，每行一個(gè)員工信息，工號(hào),姓名和交易額之間使用英文逗號(hào)分隔

df9=df.groupby(by=["姓名","工號(hào)"],as_index=False).sum() df99=df9[df9['交易額']<=50000] df99 --------------------------------------------------------------------- out:姓名工號(hào) 交易額 1 張三 1001 35475.0 5 錢八 1006 37115.0with open("業(yè)績差的員工.txt","w+",encoding="utf-8") as fp:for name in df99['姓名'].values:gh=df99[df99['姓名']==name].工號(hào).values[0]jye=df99[df99['姓名']==name].交易額.values[0]fp.write(str(gh)+','+name+','+str(jye)+'n')

輸出結(jié)果如下圖：

題目10：

繪制柱狀圖展示每個(gè)員工在不同柜臺(tái)上的交易總額，結(jié)果類似于下圖，保存為“3.png”，設(shè)置dpi為200

方法一：DataFrame.pivot_table() df10=df.pivot_table(index='姓名',columns='柜臺(tái)',values='交易額',aggfunc="sum").apply(round) df10 方法二：Pandas.crosstab() df10=pd.crosstab(df.姓名,df.柜臺(tái),df.交易額,aggfunc="sum").apply(round) df10 df10.plot(kind="bar") plt.xlabel("員工業(yè)績分布") plt.legend(loc="upper right") plt.savefig("3.jpg",dpi=200)

本題重點(diǎn)：

☆☆☆☆☆☆☆DataFrame透視表功能 VS Pandas的交叉表功能☆☆☆☆☆☆☆

1、df.pivot_table(index='姓名',columns='柜臺(tái)',values='交易額',aggfunc="sum")

pivot_table（）透視表功能，作用對(duì)象是DataFrame，參數(shù)index、columns、values，aggfunc。

可以通過help（pivot_table）查看。

2、pd.crosstab()交叉表功能，有同樣的效果，作用對(duì)象是Pandas

參數(shù)margins=False表示不分類匯總，True表示分類匯總

help(df.pivot_table)

pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All') help(pd.crosstab): crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All', dropna=True, normalize=False)

題目11：

使用透視表查看每個(gè)員工在不同柜臺(tái)上班的次數(shù):

df.pivot_table(index="姓名",columns="柜臺(tái)",values="交易額",aggfunc="count",margins=True) --------------------------------------------------------------------- out:

本文涉及數(shù)據(jù)處理，數(shù)據(jù)分析，統(tǒng)計(jì)展示，輸入輸出。

lambda表達(dá)式，apply(）系列函數(shù)，pivot，pivot_table()函數(shù)，crosstab()函數(shù)，上下文管理器，分組聚合，數(shù)據(jù)篩選，字符處理，數(shù)據(jù)透視。文章不長，但是涉及內(nèi)容精簡實(shí)用，可以做實(shí)際應(yīng)用中體會(huì)。

知乎排版太難看，請(qǐng)參考原文

Pandas綜合案例：超市營業(yè)額數(shù)據(jù)實(shí)戰(zhàn)分析?mp.weixin.qq.com

公眾號(hào)“python數(shù)據(jù)科學(xué)修煉之路”

總結(jié)

以上是生活随笔為你收集整理的python 数据分析实际案例_python实战案例：超市营业额数据分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python批量访问网页保存结果_Pyt
下一篇： matlab fftshift_数字信号

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python 数据分析 实际案例_python实战案例：超市营业额数据分析

總結(jié)

python 数据分析实际案例_python实战案例：超市营业额数据分析