日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

numpy 删除所有为_用Numpy和Pandas工具分析销售数据

發布時間:2025/3/15 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 numpy 删除所有为_用Numpy和Pandas工具分析销售数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在數據分析領域,Python中用到最多的包是numpy,pandas和matplotlib,本文共分為三個部分:1.使用numpy和pandas分析一維數據 2.使用numpy和pandas分析二維數據 3.案例分析。

  • Numpy(Numerical Python):是Python語言的一個擴展程序庫,支持大量的維度數組與矩陣運算,此外也針對數組運算提供大量的數學函數庫。
  • Pandas:基于Numpy的一種數據分析工具,該工具是為解決數據分析任務而創建的,提供了一套名為數據框的數據結構,可以方便地對表結構數據進行分析。
  • matplotlib:是一個圖形繪制庫,專門用于數據分析結構的可視化。

*數據分析工具Numpy和Pandas大綱

一.一維數據分析

Numpy:Array

Pandas:Series

1)Numpy一維數據

Numpy一維數組與列表的區別:

a.統計功能:如:計算平均值的mean()方法,標準差std()方法;

b.向量化計算:可以向量相加和乘以標量;

c.Numpy數組中的每一個元素必須是同一種數據類型,而列表中的元素可以是不同類型。

2)Pandas 一維數組:Series有索引

a.獲取描述統計信息

b. # series.iloc[] :根據位置獲取值。 series.loc[]:根據索引獲取值。

c.向量相加 和刪除缺失值

二.二維數據分析
Numpy:Array

Pandas:DataFarme

1)Numpy

a.定義二維數組,查詢數組

b.切片的使用:切片的使用:[行進行切片,列進行切片],[start:stop:step,start:stop:step]

c.數軸參數:axis=1按行計算,axis=0按列計算

2.Pandas

a.數據框DataFrame: 行columns ; 列index

b.定義一個字典

c.按照每列計算平均值

d.用iloc屬性根據位置查詢值

e.用loc屬性根據索引查詢值

f.查詢某幾列

g.切片功能:指定范圍

h.通過條件篩選符合要求的數據

i.數據集描述統計信息

  • 查看某一列數據類型

  • 查看有多少行多少列

  • 獲取每一列的描述統計

三.案例

Numpy和Pandas 對朝陽醫院藥品銷售數據進行分析,步驟如下:

1.提出問題

和業務部門溝通后,要從銷售數據中分析以下業務指標:

  • 月均消費次數;
  • 月均消費金額;
  • 客單價;
  • 消費趨勢

2.理解數據

1)導入數據

2)查看數據類型

3)查看總的行列數

4)表中字段含義如下:

  • 購藥時間:藥品銷售日期
  • 社保卡號:顧客購買藥品使用的社保卡號碼
  • 商品編碼:售出藥品的編號
  • 商品名稱:售出藥品的名稱
  • 銷售數量:售出藥品的數量
  • 應收金額:藥品應售金額
  • 實收金額: 藥品實際售出金額(折扣,滿減)

3.清洗數據

原始數據多而雜亂,或缺失,或異常,需要進行數據清洗,得到后續數據分析可用的數據。

1)選擇子集

本案例需要所有數據,不需要選擇子集。下面是展示選擇子集的方法之一:切片訪問

2)列名重命名

統一列名的時間,這里將“購藥時間”改為“銷售時間”,用字典定義舊列名和新列名;用rename函數修改。

3)缺失值處理

a. Python缺失值有3種:None,NA,NaN

  • Python內置的None值
  • 在pandas中,將缺失值表示為NA,表示不可用not available。
  • 對于數值數據,pandas使用浮點值NaN(Not a Number)

b.數據中含有缺失值,對后續計算會造成干擾,可以用空值填充或直接刪除,此處用dropna()將數據框中缺失值刪除。

*how=any表示,給定的任一列中缺失值就刪除

4.數據類型轉換

a.在導入數據時已將所有數據設定為字符串類型,現在用astype()將銷售數量、應收金額和實收金額三列數據類型改為浮點型。

b.自定義函數,將字符串轉換為日期數據類型

5.數據排序

用sort_values()對數據進行排序

刪除缺失值和根據銷售時間排序后,索引名已被打亂,需重新命名索引名

6.異常值處理

如上圖所示,我們發現銷售數量的最小值為-10,因此可以將銷售數量為負值的行刪除。

4.構建模型

我們可根據業務問題來構建模型。

問題1: 月消費次數

月消費次數=總消費次數/月數。注:同一天內同一人的多次消費算為1次。

問題2:月均消費金額

月均消費金額=總消費金額(實收金額)/月份數。

問題3:客單價

客單價=總消費金額/總消費次數。

問題4: 消費趨勢

計算每月銷售總金額

導出數據做出銷售趨勢圖如下:

總結

以上是生活随笔為你收集整理的numpy 删除所有为_用Numpy和Pandas工具分析销售数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。