oracle从入门到精通_【论文】基于SPSS Modeler和Oracle的学生行为数据分析
張翠軒,曹素麗,王淑梅 (石家莊郵電職業技術學院計算機系,河北 石家莊050021)
摘要:
隨著校園信息化程度的日益提高。學校積累了大量的學生數據,如何充分利用這些數據,獲取其中蘊藏的價值,已經成為大數據時代面臨的主要任務。基于數據挖掘工具SPSSModeler和Oracle數據庫對校園“一卡通”數據進行分析,挖掘出學生消費習慣、獎學金和助學金之間的關系,從而使學校相關管理部門從中受益。
關鍵詞:大數據;數據挖掘;數據庫;一卡通
中圖分類號:TP393
文獻標識碼:A
文章編號:1009-3044(2018)28-0001-03
目前,校園的數字化、信息化已經普及,校園一卡通作為信息載體,成為學校信息資源整合的重要組成部分,它將學校的各個部門連為一體,動態掌握持卡人的生活和學習情況,并與學校其他信息基礎設施相配合,極大地提高了學校的管理效率和水平。為了順應高校信息化發展,將學生日常一卡通數據、獎學金和助學金數據與數據庫和數據挖掘技術進行整合和分析,主要針對學生的消費習慣和學習行為進行分析,首先通過數據清洗、數據預處理、數據集成、數據轉換與數據規約等數據預處理手段提取出一個小型數據倉庫,然后采用一種優化的K-means算法進行聚類分析,將學生分為幾類,并分析不同類別行為特征,最后運用決策樹模型采用Apriori關聯規則算法針對學生學習相關行為進行關聯度分析。SPSS Modeler充分利用計算機系統的運算處理能力和圖形展現能力,將方法、應用與工具有機地融為一體,該軟件不但界面友好、操作簡捷,而且功能強大,是解決數據挖掘問題的最理想的工具。Oracle數據庫系統是目前世界上流行的關系數據庫管理系統,系統可移植性好、使用方便、功能強,適用于各類大、中、小、微機環境。它是一種高效率、可靠性好的適應高吞吐量的數據庫解決方案。
午餐最能反映學生的消費情況,為了探究學生助學金評定的合理性,本文主要研究午餐消費情況與學生助學金之間的相關性;另外,鑒于當前大學生不吃早餐的情況,來探究良好的早餐習慣和學習結果是否具有一定的關系,所以這里還要研究早餐習慣與學生獎學金之間的相關性。
1、數據前期處理
為了更好地對數據進行分析,有必要對原始數據進行充分的處理準備,主要針對學生就餐、獎學金和助學金這3種數據。
1.1就餐數據
為了解學生的就餐規律和習慣,獲取了2017年1月1日到2017年5月1日的所有就餐數據,大約200萬條數據,如表1所示。
學生每次就餐可能要光顧不同窗口,產生多次消費記錄, 所以,若要了解學生早餐和午餐的就餐情況,有必要對數據進行前期的處理。在Oracle數據庫下對數據進行統計,早餐時間段在6點到10點之間,午餐時間段在10點到下午1點之間,早餐具體實現過程見下面的程序。?
SELECT*
FROM餐廳消費?
WHERERIGHT(opdt,8)BETWEEN'06:00:00'AND'10:00: 00' //保存為早餐1?
用同樣方法可以形成午餐數據。?
在形成早餐和午餐數據的基礎上,統計出每人每餐的消費 金額,實現過程如下面程序所示。最終形成每人的早餐次數以 及平均消費金額。?
select姓名,時間,sum(消費金額)as每天早餐消費總金額
from早餐1
groupby姓名,時間?
用同樣的方法形成每人的午餐平均消費金額。
1.2獎學金數據?
獲取到3年的獎學金數據,按學號姓名進行統計,統計出 每個獲獎學生的獲獎次數以及總金額,程序如下:
select學號,姓名,count(學號)AS次數,sum(金額)AS總金額?
from獎學金all?
groupby學號?
orderby總金額desc?
結果如表2所示。?
1.3助學金數據?
獲取到3年的助學金數據,按學號、姓名對獲得次數和總 金額進行統計,程序如下:
select學號,姓名,count(學號)AS次數,sum(助學金金額)AS 總金額?
from助學金all?
groupby學號?
orderby總金額desc?
結果如表3所示。?
1.4數據整合?
將上述數據整合到一個文件中,如圖1所示。
2、針對SPSSModeler的Apriori算法的數據預處理?
最早的Apriori算法是阿格拉瓦爾和斯里坎特于1994年提出的,現在是數據挖掘中簡單關聯規則技術的核心算法。Apriori算法是為提高關聯規則的產生效率而設計的,只能處理分類型變量,無法處理數值型變量,所以有必要對整合后的數據進行預處理。?
數據準備
為了提高效率,這里進行了70%的分層抽樣, 又根據Apriori算法的需要,計算生成新的分類型變量,再通過特征選擇,去除掉不必要的變量,然后對圖1的數據進行多級評定計算,定義出A、 B、 C、 D和E這5種級別,如圖2所示。
3、相關性分析?
選擇“建模”選項卡中的“Apriori”節點,將其連接到數據流恰當位置上,如圖3所示。分析的目的是找到所獲得獎學金、 助學金、午餐消費以及早餐消費次數的關系,所以這4項均被選入后項和前項。
在最低條件支持度中,指定前項最小支持度為6%,最小規則置信度為65%,為防止關聯規則過于復雜,指定前項包含的最大項目數為5,分析結果如圖4所示。
4、結果分析?
SPSS Modeler以列表形式列出計算所得的2條簡單關聯規則。其結果具體解讀為:?
1)如果學生吃早餐次數較多,午餐消費比較低,獲得頭等獎學金的機會就很大,支持度百分比為8.174%,置信度百分比為67.518%。這類學生起床早、勤快,家庭條件較差或本人比較節儉,努力學習的可能性就很大,從而獲得較高級別的獎學金。
2)如果學生家庭經濟狀況比較困難,得到的是C類助學金,而且學習成績相對較好,這類學生午餐消費就很低。?
3)如果學生家庭條件非常困難,助學金得到的是最高級別,而且午餐消費很低,這類學生反而沒有獲得獎學金。?
上面前兩條關聯規則是當今大學生的普遍現象,但是看到 第3條的時候很令人意外,和相關輔導員交流之后才發現,原來這類學生大都來自偏遠地區,學習基礎不好,到大學后學習上跟起來就比較吃力,所以學習成績不好。?
綜上所述,學校管理部門應在以下方面做出管理策略:?
1)教學部門應該對偏遠地區的學生學習給予更多幫助,必 要時單獨輔導。
2)學生管理部門在評定助學金時要嚴格把關,參考學生消 費數據,盡量將助學金發放到最需要的學生手中。
3)鼓勵學生吃早餐,不僅能夠提高身體素質,更能養成勤快的習慣,促進學習成績的提高。?
5、結論?
通過對校園一卡通數據、獎學金和助學金數據的分析,由于篇幅有限,不再一一列出分析過程,總共得出了下面這些結論:?
1)助學金和就餐消費的關聯性。?
2)助學金和獎學金的關聯性。?
3)早餐情況數據分析。?
4)早餐和身體健康狀況的關聯性。?
5)早餐和獎學金狀況的關聯性。?
6)學生籍貫和窗口(菜品)關聯性。?
7)獎學金和籍貫的關聯性。
8)助學金和籍貫的關聯性。
9)孤僻人群的發現。?
10)消費與性別的關聯性。?
11)消費水平與系部關聯性。?
12)餐廳各個窗口就餐人數排名。?
13)餐廳各個窗口收入金額排名。?
這些結論對于教務部門、學生管理部門、后勤管理部門等都有很好的指導意義,其實,預先有很多種假設,但是通過挖掘卻發現沒有相應的結果,當然沒有規律的結論也是一種結論, 當然也會出現一些預想不到的規律,這也許就是數據挖掘的魅力所在。?
遺憾的是,目前校園“一卡通”的數據還不是很全面,不能覆蓋所有學生行為,隨著校園信息化的發展,校園“一卡通”必 將更準確反映學生在校的各種消費和學習行為,對應的數據分析將更加具有指導意義。?
參考文獻:
[1]薛薇.基于SPSSModeler的數據挖掘(第二版) [M].北京:中國 人民大學出版社,2014.?
[2]JiaweiHanMichelineKamberJianPei.數據挖掘概念與技術 [M].北京:機械工業出版社,2016.?
[3]谷斌.數據倉庫與數據挖掘實務[M].北京:北京郵電大學出版 社,2014.?
[4]Levin N,Zahavi J.Predictive modeling using segmentation. Jouralo fInteractive Markeing, 2001,15(2):2-23
[5]秦靖.Oracle從入門到精通[M].北京:機械工業出版社,2011.?
[6]www.oracle.com網站. [7]http://bbs.pinggu.org/人大經濟論壇.
文章來源:《電腦知識與技術》第14卷第28期 (2018年10月)收稿日期:2018-09-05
基金項目:大數據技術應用專業建設與實踐研究(項目編號:YB2016016)?
作者簡介:
張翠軒(1971—),女,河北省石家莊人,講師,碩士,石家莊郵電職業技術學院計算機系教師,主要研究方向:大數據應用;?
曹素麗,女,河北省石家莊人,講師,碩士,石家莊郵電職業技術學院計算機系教師,主要研究方向:大數據應用;
王淑梅, 女,河北省石家莊人,講師,碩士,石家莊郵電職業技術學院計算機系教師,主要研究方向:大數據應用。?
總結
以上是生活随笔為你收集整理的oracle从入门到精通_【论文】基于SPSS Modeler和Oracle的学生行为数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jQuery基础-事件
- 下一篇: 内网通修改积分文件_转盘抽奖分享得积分,