日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 前端技术 > javascript >内容正文

javascript

电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)

發(fā)布時(shí)間:2023/12/10 javascript 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

項(xiàng)目描述
某著名電商平臺(tái)雙十一美妝銷售數(shù)據(jù)分析。由于是真實(shí)的商業(yè)數(shù)據(jù),所以做了脫敏處理,數(shù)據(jù)集中對(duì)店名的引用被處理為產(chǎn)品的品牌名以保護(hù)店家隱私。。
通過對(duì)該平臺(tái)雙十一美妝銷售數(shù)據(jù)的品牌、銷量、熱度等特征的分析(平臺(tái)視角和用戶視角),嘗試探索以下問題:

  • 雙十一期間,最受消費(fèi)者青睞的產(chǎn)品或品牌是哪些?
  • 雙十一期間,美妝行業(yè)各品類的銷售情況?
  • 雙十一期間,消費(fèi)高峰何時(shí)出現(xiàn)?
  • 雙十一期間,客戶的評(píng)論數(shù)對(duì)銷量的影響?
  • ......

項(xiàng)目架構(gòu)

電商大數(shù)據(jù)項(xiàng)目架構(gòu)圖

項(xiàng)目流程
項(xiàng)目流程說明如下:

  • 1. 數(shù)據(jù)集:使用Spark ETL技術(shù),將數(shù)據(jù)抽取到Hive數(shù)據(jù)倉(cāng)庫(kù)ODS層;
  • 2. 大數(shù)據(jù)清洗:使用Spark SQL進(jìn)行數(shù)據(jù)清洗,包括數(shù)據(jù)去重和錯(cuò)誤數(shù)據(jù)處理;
  • 3. 大數(shù)據(jù)屬性轉(zhuǎn)換與整理:使用Spark SQL進(jìn)行數(shù)據(jù)屬性預(yù)處理,包括屬性轉(zhuǎn)換與抽取、屬性選擇等;
  • 4. 大數(shù)據(jù)分析:使用Spark SQL平臺(tái)角度和用戶角度分別進(jìn)行分析,并使用Spark ETL技術(shù)將分析結(jié)果寫出到MySQL數(shù)據(jù)庫(kù)中;
  • 5. 大數(shù)據(jù)可視化:使用Spring MVC + Apache ECharts展示分析結(jié)果。

注:本項(xiàng)目使用了分詞處理技術(shù)以抽取商品分類屬性。
適用對(duì)象
本項(xiàng)目適合以下人員學(xué)習(xí)使用:

  • 已有Hadoop和Spark基礎(chǔ),需要掌握大數(shù)據(jù)完整開發(fā)和分析流程、積累大數(shù)據(jù)項(xiàng)目經(jīng)驗(yàn);
  • 大數(shù)據(jù)畢業(yè)設(shè)計(jì)項(xiàng)目。

項(xiàng)目實(shí)施過程
本項(xiàng)目使用Hive作業(yè)數(shù)據(jù)倉(cāng)庫(kù),使用Spark SQL開發(fā)數(shù)據(jù)處理管道,包括ETL、數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理,并使用Spark SQL作為OLAP引擎。大數(shù)據(jù)分析結(jié)果寫出到MySQL數(shù)據(jù)庫(kù)中,最后使用Spring MVC和Apache ECharts開發(fā)Web應(yīng)用程序,對(duì)分析結(jié)果進(jìn)行可視化展示。整體項(xiàng)目實(shí)施過程如下:
1. 數(shù)據(jù)ETL使用Spark SQL開發(fā)ETL作業(yè),將某電商平臺(tái)雙十一美妝銷售數(shù)據(jù)抽取并加載到Hive數(shù)據(jù)倉(cāng)庫(kù)的ODS層。
2. 大數(shù)據(jù)清洗和預(yù)處理使用Spark對(duì)大數(shù)據(jù)進(jìn)行清洗,包括去重、錯(cuò)誤數(shù)據(jù)處理、空值處理、屬性轉(zhuǎn)換、屬性提取等數(shù)據(jù)預(yù)處理任務(wù)。其中比較難處理的(難點(diǎn)及亮點(diǎn))是對(duì)美妝商品抽取主類別和子類別屬性。這里我們?cè)赟park平臺(tái)上使用了結(jié)巴分詞工具包來抽取這兩個(gè)屬性。
3. 大數(shù)據(jù)分析使用Spark SQL從多個(gè)維度對(duì)整理后的銷售數(shù)據(jù)集進(jìn)行分析。在項(xiàng)目實(shí)施過程中,我們先使用Zeppelin NoteBook執(zhí)行交互式探索和分析,然后將實(shí)現(xiàn)過程使用IntellIJ IDEA進(jìn)行項(xiàng)目重構(gòu)。
4. 作業(yè)部署和執(zhí)行項(xiàng)目使用Maven打jar包,使用Azkaban進(jìn)行作業(yè)編排(當(dāng)然是可選的,也可省略作業(yè)編排,手工依次執(zhí)行),并部署到Spark集群上執(zhí)行。最終分析結(jié)果寫出到MySQL數(shù)據(jù)庫(kù)中。
5. 大數(shù)據(jù)可視化使用IntellIJ IDEA開發(fā)Spring MVC項(xiàng)目,使用ECharts作為可視化組件,展示分析結(jié)果。

?參考來源1

參考來源2

總結(jié)

以上是生活随笔為你收集整理的电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。