javascript
电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)
項(xiàng)目描述
某著名電商平臺(tái)雙十一美妝銷售數(shù)據(jù)分析。由于是真實(shí)的商業(yè)數(shù)據(jù),所以做了脫敏處理,數(shù)據(jù)集中對(duì)店名的引用被處理為產(chǎn)品的品牌名以保護(hù)店家隱私。。
通過對(duì)該平臺(tái)雙十一美妝銷售數(shù)據(jù)的品牌、銷量、熱度等特征的分析(平臺(tái)視角和用戶視角),嘗試探索以下問題:
- 雙十一期間,最受消費(fèi)者青睞的產(chǎn)品或品牌是哪些?
- 雙十一期間,美妝行業(yè)各品類的銷售情況?
- 雙十一期間,消費(fèi)高峰何時(shí)出現(xiàn)?
- 雙十一期間,客戶的評(píng)論數(shù)對(duì)銷量的影響?
- ......
項(xiàng)目架構(gòu)
電商大數(shù)據(jù)項(xiàng)目架構(gòu)圖
項(xiàng)目流程
項(xiàng)目流程說明如下:
- 1. 數(shù)據(jù)集:使用Spark ETL技術(shù),將數(shù)據(jù)抽取到Hive數(shù)據(jù)倉(cāng)庫(kù)ODS層;
- 2. 大數(shù)據(jù)清洗:使用Spark SQL進(jìn)行數(shù)據(jù)清洗,包括數(shù)據(jù)去重和錯(cuò)誤數(shù)據(jù)處理;
- 3. 大數(shù)據(jù)屬性轉(zhuǎn)換與整理:使用Spark SQL進(jìn)行數(shù)據(jù)屬性預(yù)處理,包括屬性轉(zhuǎn)換與抽取、屬性選擇等;
- 4. 大數(shù)據(jù)分析:使用Spark SQL平臺(tái)角度和用戶角度分別進(jìn)行分析,并使用Spark ETL技術(shù)將分析結(jié)果寫出到MySQL數(shù)據(jù)庫(kù)中;
- 5. 大數(shù)據(jù)可視化:使用Spring MVC + Apache ECharts展示分析結(jié)果。
注:本項(xiàng)目使用了分詞處理技術(shù)以抽取商品分類屬性。
適用對(duì)象
本項(xiàng)目適合以下人員學(xué)習(xí)使用:
- 已有Hadoop和Spark基礎(chǔ),需要掌握大數(shù)據(jù)完整開發(fā)和分析流程、積累大數(shù)據(jù)項(xiàng)目經(jīng)驗(yàn);
- 大數(shù)據(jù)畢業(yè)設(shè)計(jì)項(xiàng)目。
項(xiàng)目實(shí)施過程
本項(xiàng)目使用Hive作業(yè)數(shù)據(jù)倉(cāng)庫(kù),使用Spark SQL開發(fā)數(shù)據(jù)處理管道,包括ETL、數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理,并使用Spark SQL作為OLAP引擎。大數(shù)據(jù)分析結(jié)果寫出到MySQL數(shù)據(jù)庫(kù)中,最后使用Spring MVC和Apache ECharts開發(fā)Web應(yīng)用程序,對(duì)分析結(jié)果進(jìn)行可視化展示。整體項(xiàng)目實(shí)施過程如下:
1. 數(shù)據(jù)ETL使用Spark SQL開發(fā)ETL作業(yè),將某電商平臺(tái)雙十一美妝銷售數(shù)據(jù)抽取并加載到Hive數(shù)據(jù)倉(cāng)庫(kù)的ODS層。
2. 大數(shù)據(jù)清洗和預(yù)處理使用Spark對(duì)大數(shù)據(jù)進(jìn)行清洗,包括去重、錯(cuò)誤數(shù)據(jù)處理、空值處理、屬性轉(zhuǎn)換、屬性提取等數(shù)據(jù)預(yù)處理任務(wù)。其中比較難處理的(難點(diǎn)及亮點(diǎn))是對(duì)美妝商品抽取主類別和子類別屬性。這里我們?cè)赟park平臺(tái)上使用了結(jié)巴分詞工具包來抽取這兩個(gè)屬性。
3. 大數(shù)據(jù)分析使用Spark SQL從多個(gè)維度對(duì)整理后的銷售數(shù)據(jù)集進(jìn)行分析。在項(xiàng)目實(shí)施過程中,我們先使用Zeppelin NoteBook執(zhí)行交互式探索和分析,然后將實(shí)現(xiàn)過程使用IntellIJ IDEA進(jìn)行項(xiàng)目重構(gòu)。
4. 作業(yè)部署和執(zhí)行項(xiàng)目使用Maven打jar包,使用Azkaban進(jìn)行作業(yè)編排(當(dāng)然是可選的,也可省略作業(yè)編排,手工依次執(zhí)行),并部署到Spark集群上執(zhí)行。最終分析結(jié)果寫出到MySQL數(shù)據(jù)庫(kù)中。
5. 大數(shù)據(jù)可視化使用IntellIJ IDEA開發(fā)Spring MVC項(xiàng)目,使用ECharts作為可視化組件,展示分析結(jié)果。
?參考來源1
參考來源2
總結(jié)
以上是生活随笔為你收集整理的电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: POJ1430 Binary Stirl
- 下一篇: Spring学习9-MyEclipse中