excel loc() python_总结:像Excel一样使用python进行数据分析
Excel是數據分析中最常用的工具,本篇文章通過python與excel的功能對比介紹如何使用python通過函數式編程完成excel中的數據處理及分析工作。在Python中pandas庫用于數據處理,通過這些函數介紹如何通過python完成數據分析中導入數據,理解數據,清洗數據,模型構建和一部分KPI指標如何實現。
使用的數據是 朝陽醫院2018年銷售數據
導入數據以及理解數據部分
導入excel
import pandas as pd
xls=pd.ExcelFile('G:xlsx文件朝陽醫院2018年銷售數據.xlsx')
salesdf=xls.parse('Sheet1')
Salesdf.head()
數據維度(行列)
shape可以查看該表中的行數和列數
查看數據格式
Dtypes是一個查看數據格式的函數,可以一次性查看數據表中所有數據的格式,也可以指定一列來單獨查看。
指定一列查看:
查看統計信息
使用Describe函數可以查看統計信息計數,平均值,標準差,最小值,四分位數,中位數,最大值。
查看列名稱
使用columns函數查看列名稱
數據清洗部分
刪除缺失值
Python中處理空值的方法比較靈活,可以使用 Dropna函數用來刪除數據表中包含空值的數據,也可以使用fillna函數對空值進行填充。
使用fillna函數把空值用0填充
更改列名稱
Rename是更改列名稱的函數,我們將來數據表中的應收金額列更改為應收金額(元)
salesdf=salesdf.rename(columns={'應收金額':'應收金額(元)'})
刪除重復值
使用drop_duplicates()刪除重復值
分列
sales_split=pd.DataFrame((x.split(' ') for x in salesdf['購藥時間']),
index=salesdf.index,
columns=['日期','周幾'])
需要注意的是缺失值會被當作浮點型 而split函數需要字符串類型,要先刪除缺失值
將完成分列后的數據表與原數據表進行匹配
salesdf=pd.merge(salesdf,sales_split,right_index=True, left_index=True)
刪除列
使用drop刪除列,有以下等價的語法
DF= DF.drop('column_name', 1);
DF.drop('column_name',axis=1, inplace=True)
使用drop刪除了購藥時間這一列。
修改日期格式
使用to_datetime函數進行修改
salesdf.loc[:,'日期']=pd.to_datetime(salesdf.loc[:,'日期'],format='%Y-%m-%d',errors='coerce')
排序
使用sort_values進行排序
By:按哪一列排序
ascending=True降序
ascending=Falses升序
salesdf=salesdf.sort_values(by='日期',ascending=True)
重命名行名
使用reset_index重命名行名
刪除異常值
由于銷量,應收金額和實收金額不為負,所以應該清除異常值
使用查詢條件刪除了異常值
數據建模部分
數據篩選
#使用“與”條件進行篩選
salesdf.loc[(salesdf['列名']=='數值')&(salesdf['列名']=='數值'),['列名1','列名2','列名3','列名4']]
#使用“或”條件進行篩選
salesdf.loc[(salesdf['列名']=='數值')|(salesdf['列名']=='數值'),['列名1','列名2','列名3','列名4']]
在前面的代碼后增加price字段以及sum函數,按篩選后的結果將price字段值進行求和,相當于excel中sumifs的功能。
還有一種篩選的方式是用query函數。下面是具體的代碼和篩選結果。
數據匯總
Excel的數據目錄下提供了“分類匯總”功能,可以按指定的字段和匯總方式對數據表進行匯總。Python中通過Groupby函數完成相應的操作,并可以支持多級分類匯總。
Groupby是進行分類匯總的函數,使用方法很簡單,制定要分組的列名稱就可以,也可以同時制定多個列名稱,groupby按列名稱出現的順序進行分組。同時要制定分組后的匯總方式,常見的是計數和求和兩種。
可以通過關聯的列進行查詢,通過groupby函數計算出了商品的銷售次數。
計算幾個KPI指標:
1.月均消費次數
刪除重復數據計算消費總次數
設定好起始日期和結束日期
計算天數,月份數。然后用所有消費次數除以月份數可以得到月均消費次數。
2.客單價
使用總消費金額除以消費次數得到客單價
3.月均消費金額
使用總消費金額除以消費次數得到月均消費金額
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的excel loc() python_总结:像Excel一样使用python进行数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 酷比魔方 X Pad 平板将于 3 月
- 下一篇: “192”号段诈骗电话开卡团伙被打掉,涉