當前位置：首頁 > 编程语言 > python >内容正文

python

大数据毕设 - 校园卡数据分析与可视化（python 大数据）

發布時間：2023/12/14 python 58 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据毕设 - 校园卡数据分析与可视化（python 大数据）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

0 前言
1 課題介紹
2 數據預處理
- 2.1 數據清洗
- 2.2 數據規約
3 模型建立和分析
- 3.1 不同專業、性別的學生與消費能力的關系
- 3.2 消費時間的特征分析
4 Web系統效果展示
5 最后

0 前言

🔥 Hi，大家好，這里是丹成學長的畢設系列文章！

🔥 對畢設有任何疑問都可以問學長哦!

這兩年開始，各個學校對畢設的要求越來越高，難度也越來越大… 畢業設計耗費時間，耗費精力，甚至有些題目即使是專業的老師或者碩士生也需要很長時間，所以一旦發現問題，一定要提前準備，避免到后面措手不及，草草了事。

為了大家能夠順利以及最少的精力通過畢設，學長分享優質畢業設計項目，今天要分享的新項目是

🚩 大數據校園卡數據分析

🥇學長這里給一個題目綜合評分(每項滿分5分)

難度系數：4分
工作量：4分
創新點：3分

🧿 選題指導, 項目分享：

https://gitee.com/yaa-dc/BJH/blob/master/gg/cc/README.md

1 課題介紹

近年來，大數據的受關注程度越來越高。如何對大數據流進行抽取轉換成有用的信息并應用于各行各業變得越來越重要。如今，校園一卡通系統在高校應用十分廣泛，大部分高校主要利用校園一卡通對校園中的各類消費閱、補助領取等進行統一管理。通過數據分析算法,對大學生校內消費記錄進行整理、分類、預測,從而整體反應學生在校消費情況,形成量化的評判標準,同時也為今后的貧困生資助管理工作提供可靠的數據支持,輔助完成貧困生的相關工作。

2 數據預處理

在進行數據挖掘或者數據分析之前,需要對“臟數據” 數據進行數據預處理,一般采用數據清理、數據集成、數據變換等方式,已獲得更好的分析效果。

2.1 數據清洗

由于數據庫中有著大量的數據表，我們獲取到的數據表中會存在著異常數據，如數據不合法與常識不符，同一個字段屬性值來源于多張數據表且數值不一樣等。數據預處理主要去處可忽略的字段、忽略空缺記錄、可處理噪聲的數據、可刪除的數據等。由于部分校園卡用戶,如教職工、研究生等,消費時具有很強的隨機性和離散型。同時，為了保護隱私，對姓名、學號等屬性要做脫敏和隱私處理。

2.2 數據規約

預處理后的數據不一定適合直接使用，因此需要對數據進行集成和變換，將多個數據庫中提取出的數據項整合到一起，組成新的數據集環境，并經過詳細對比和篩選解決數據不一致和數據冗余等問題。為了適合分析，我們要對數據進行離散化和概念分層處理。

3 模型建立和分析

通過建立消費數據分析模型，對學校校園卡消費行為進行分析，總結學校學生消費特征，對不同消費類型的學生進行用戶畫像和分類。以學生的“性別”、“專業”分類作為橫向分類，以“消費能力（金額）”，“消費項目”，“消費時間”和“消費地點”四個方面為縱向分類，組成分析模型。尋找消費特征進行進行總結，形成假設結論。

#1.總體消費情況 #2.不同專業、性別的學生與消費能力的關系 #3.不同性別的學生與消費項目的關系 #4.消費時間的特征分析 #5.消費地點與門禁通過地點的關系分析 #6.學生消費特征分層模型 import matplotlib.pyplot as plt expen_rec = pd.read_csv(r'C:\Users\River\Desktop\校園卡數據\expen_rec.csv',encoding='gbk') student = pd.read_csv(r'C:\Users\River\Desktop\校園卡數據\student.csv',encoding='gbk') access = pd.read_csv(r'C:\Users\River\Desktop\校園卡數據\access.csv',encoding='gbk') all_data1 = pd.merge(expen_rec,student,on ='校園卡號',how='left') all_data1.head()

3.1 不同專業、性別的學生與消費能力的關系

from pylab import * plt.rcParams['font.sans-serif']=['SimHei'] %matplotlib inline total = con_sum.groupby(['性別'])[['消費金額']].sum() total1= con_sum.groupby(['性別'])[['消費金額']].count() plt.subplot(121) plt.pie(total['消費金額'],labels=total.index,autopct='%2.f%%') plt.title('男女生消費總金額對比') plt.subplot(122) plt.pie(total1['消費金額'],labels=total1.index,autopct='%2.f%%') plt.title('男女生人數對比') plt.show()

fig1 = plt.figure(num =1, figsize=(8,4)) plt.title('各消費等級人數') plt.xlabel('消費等級') x1 =['(0, 100] ','(100, 150]','(150, 200] ','(200, 250]','(250, 300]','(300, 350]','(350, 400]','(400, 500]','(500, 3000]'] y1 = list(table1.values) y2 =list(table2.loc[('女',slice(None))].values) y3 =list(table2.loc[('男',slice(None))].values) plt.plot(x1,y1,label='總體') plt.plot(x1,y2,label='女生') plt.plot(x1,y3,label='男生') plt.legend(loc=2) plt.show()

#分析各專業總消費金額排列 fig2 = plt.figure(num =2, figsize=(14,6)) plt.title('各專業總消費金額排列') plt.xlabel('專業名稱') x1=table3.index y1=table3['消費總金額'] plt.bar(x1,y1) plt.xticks(x1,x1,rotation=45) for a,b in zip(x1,y1):plt.text(a, b+0.05, '%.0f' % b, ha='center', va= 'bottom',fontsize=9) plt.show()

小結：

1.該校18級學生的人均每月校園卡消費295.96元；

2.女生人數占比59%，總消費額占比56%，消費總金額與性別差異不大；

3.從消費金額級區間上看，學生的總體消費金額主要在[200，500]的區間內，但男女生消費存在明顯差異：女生消費金額在[200-350]區間內人數明顯高于男生，但隨著增加而下降，而男生在400以上的區間內的人數高于女生。男生對校園卡消費方式差異較大，一般不使用或者經常使用。女生多數選擇輕度使用。

4.從各專業消費總金額上看機械制造專業最高，機械制造（學徒）專業最低。但結合各專業的人均消費分析，各專業的人均消費差異很小，標準差僅為42.8。人均消費最高的機械制造（學徒）專業因為人數最少僅為14人，對總體數據影響較小。可以得出：學生的校園卡消費能力與專業無明顯區別。

3.2 消費時間的特征分析

fig7 = plt.figure(num =7, figsize=(8,4)) mon1= time_tab.groupby(['日期'])[['消費金額']].count() mon2= time_tab1.groupby(['日期'])[['消費金額']].count() mon3= time_tab2.groupby(['日期'])[['消費金額']].count() plt.title('月度消費次數趨勢分析') plt.xlabel('日期') x1 = list(mon1.index) y1 = list(mon1.values) y2 =list(mon2.values) y3 =list(mon3.values) plt.plot(x1,y1,label='總體') plt.plot(x1,y2,label='女生') plt.plot(x1,y3,label='男生') plt.legend(loc=2) plt.show() #除個別天數外，女生均高于男生，每周之間趨勢相似

fig8 = plt.figure(num =8, figsize=(8,4)) wk1= time_tab.groupby(['星期'])[['消費金額']].count() wk2= time_tab1.groupby(['星期'])[['消費金額']].count() wk3= time_tab2.groupby(['星期'])[['消費金額']].count() def autolabel(rects):for rect in rects:height = rect.get_height()plt.text(rect.get_x()+rect.get_width()/2.-0.2, 1.03*height, '%s' % float(height)) plt.title('月度消費次數趨勢分析') plt.xlabel('星期') y1 = wk2['消費金額'] y2 = wk3['消費金額'] x1=range(len(y1)) x2=[i +0.35 for i in x1] a=plt.bar(x1,y1, width=0.3,label='女生',color='blue') b=plt.bar(x2,y2, width=0.3,label='男生',color='green') autolabel(a) autolabel(b) plt.legend() plt.xticks(x1,list(wk1.index),rotation=45) plt.show() #周一至周三消費次數較高，男女生在一周內的消費頻率的波動沒有明顯差異

1.從一個月的每天的消費次數上看，除個別天數男女生消費次數相近，多大多數天數的女生的消費次數高于男生，且每周之間趨勢相似，可以得出學生日常的消費習慣比較穩定；

2.從每周的消費次數匯總上看，周一至周三消費次數較高，并且逐步下降，周末為消費次數最低的時候。男女生在一周內的消費頻率的波動趨勢相同，沒有明顯差異；

3.從每天的消費的時間段分析上看，周末的刷卡消費次數為平常的12%。食堂可以根據數據情況，適當安排休息，減少人力成本浪費；

4.平常時間的早、中、晚餐的用餐時間集中在7點、11點、17-18點時間段。周末消費的時間相對平緩，早餐的高峰時間會延后到8點時間段，且持續有人員消費，中餐的用餐時間也會有部分后延到12點的時間段。晚餐時間則會部分提前17點的時間段進行，需要提前做好食堂的準備事項。

4 Web系統效果展示

以上是校園卡分析的部分過程，我們還可以做成web系統來展示。效果如下：

Web系統效果展示