大数据项目实战——基于某招聘网站进行数据采集及数据分析(一)
大數據項目實戰
第一章 項目概述
文章目錄
- 大數據項目實戰
- 第一章 項目概述
- 學習目標
- 一、項目需求和目標
- 二、預備知識
- 三、項目架構設計及技術選取
- 四、開發環境和開發工具介紹
- 五、項目開發流程
- 總結
學習目標
掌握項目需求和目標
了解項目架構設計和技術選型
了解項目環境和相關開發工具
理解項目開發流程
在人力資源管理領域,網絡招聘近年來早已憑借其范圍廣、信息量大、時效性強、流程簡單而效果顯著等優勢,成為企業招聘的核心方式。隨著大數據漸漸融入人類社會生活的各個領域,如何使用大數據優化企業招聘管理,提升企業招聘有效性,是值得深入探討的現實課題。文章通過一個招聘網站分析項目,完整演示如何使用大數據平臺對國內大數據職位進行分析。
一、項目需求和目標
本項目是以國內某互聯網招聘網站全球范圍內的大數據相關招聘信息作為基礎數據,其招聘信息能較大程度地反映出市場對大數據相關職位的需求情況及能力要求,利用這些招聘信息數據通過大數據分析平臺重點分析以下幾點。
(1)分析大數據職位的區域分布情況。
(2)分析大數據職位薪資區間分布情況。
(3)分析大數據職位相關公司的福利情況。
(4)分析大數據職位相關技能要求情況。
通過本次項目的實踐,可以鍛煉以下方面的能力。
(1)掌握 Linux 操作系統的安裝和基本操作。
(2)掌握 Hadoop 完全分布式集群的安裝部署。
(3)掌握 HDFS Shell 基礎操作命令。
(4)掌握基于 Java 語言開發 MapReduce程序的方法。
(5)掌握使用 Eclipse 開發 Maven程序的方法。
(6)掌握使用 Eclipse 開發 Maven 程序的方法。
(7)了解數據預處理的含義。
(8)了解 HTTP 相關概念。
(9)掌握 Sqoop 安裝及數據遷移的使用方法。
(10)掌握關系型數據庫 MySQL 的安裝及使用。
(11)掌握基于 SSM 框架進行網站開發的方法。
(12)掌握利用 ECharts 進行數據可視化開發的方法。
(13)熟悉數據分析系統的架構。
(14)掌握數據分析系統的業務流程。
二、預備知識
(1)熟悉 Java 相面對象編程思想。
(2)熟悉大數據相關技術,如 Hadoop Hive Sqoop 的基本理論概念及原理。
(3)掌握 HDFS 與 MapReduce 的 Java API 程序開發。
(4)熟悉 Linux 操作系統 Shell 命令的使用。
(5)掌握 Hadoop Hive Sqoop 在 Linux 環境下的基本操作。
(6)熟悉關系型數據庫 MySQL 的原理,掌握 SQL 語句的編寫。
(7)了解網站前端開發相關技術,例如 HTML JSP JQuery CSS 等。
(8)了解網站后端開發框架 Spring + Spring MVC + MyBatis 整合使用。
(9)熟悉 Eclipse 開發工具的應用。
(10)熟悉 Maven 項目管理工具的使用。
三、項目架構設計及技術選取
在大數據開發中,通常首要任務是明確分析目的,即想要從大量數據中得到什么樣的結果,并且進行展示說明。只有在明確了分析目的后,開發人員才能準確地根據具體的需求去過濾數據,并且通過大數據技術進行數據分析和處理,最終處理結果以圖表等可視化形式發展出來。本項目架構設計如圖所示。
四、開發環境和開發工具介紹
系統環境:Win10、Win7、Linux(CentOs 6.7)
開發工具:Eclipse(jee-neon-3)、JDK(1.8)、Maven(3.3.9)、VMware Workstation(12)
集群環境:Hadoop(2.7.4)、Hive(1.2.1)、Sqoop(1.4.6)、MySQL(5.7.25)
Web環境:Tomcat(7.0.47)、Spring(4.2.4)、Spring MVC(4.2.4)、MyBatis(3.2.8)、ECharts(4.2.1)
五、項目開發流程
1、搭建大數據實驗環境
(1)Linux系統虛擬機的安裝與克隆
(2)配置虛擬機網絡與SSH服務
(3)搭建Hadoop集群
(4)安裝MySQL數據庫
(5)安裝Hive
(6)安裝Sqoop
2、編寫網絡爬蟲程序進行數據采集
(1)準備爬蟲環境
(2)編寫爬蟲程序
(3)將爬取的數據存儲到HDFS
3、數據預處理
(1)分析預處理數據
(2)準備預處理環境
(3)實現MapReduce預處理程序進行數據集成和數據轉換操作
(4)實現MapReduce預處理程序的兩種運行模式
4、數據分析
(1)構建數據倉庫
(2)通過HiveQL進行職位區域分析
(3)通過HiveQL進行職位薪資分析
(4)通過HiveQL進行公司福利標簽分析
(5)通過HiveQL進行技能標簽分析
5、數據可視化
(1)構建關系型數據庫
(2)通過Sqoop實現數據遷移
(3)創建Maven項目配置項目依賴
(4)編輯配置文件整合SSM框架
(5)完善項目組織框架
(6)編寫程序實現薪資分布展示
(7)編寫程序實現職位區域分布展示
(8)編寫程序實現福利標簽詞云圖
(9)編寫程序實現技能標簽詞云圖
(10)預覽平臺展示內容
總結
本篇主要介紹了項目開發的基本情況,包括項目需求、項目目標、項目預備知識、項目架構設計、技術選取、開發環境、開發工具以及開發流程。通過本篇的學習,可以明確項目需求、了解項目開發相關環境以及流程,后續將基于本次介紹的項目情況進行項目的開發。
總結
以上是生活随笔為你收集整理的大数据项目实战——基于某招聘网站进行数据采集及数据分析(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql中使用触发器实例
- 下一篇: 在Delphi中使用indy SMTP发