日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

爬虫+数据库+大数据分析

發布時間:2024/3/26 数据库 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫+数据库+大数据分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

總體要求
利用python編寫爬蟲程序,從招聘網站上爬取數據,將數據存入到MongoDB數據庫中,將存入的數據作一定的數據清洗后做數據分析,最后將分析的結果做數據可視化。
**

前期準備

**
1、配置大數據需要的環境
(1)配置Hadoop環境:可看博客:
(2)配置zookeeper環境:https://blog.csdn.net/weixin_44701468/article/details/106822805
(3)配置spark環境:
(3)配置hive環境:
(3)配置spark環境:
2、下載好需要的數據庫:Mysql、MangoDB
3、準備好需要的數據:

爬取的是招聘網站前程無憂,由于爬取的一個數據不是很多,我就爬取了幾個分別保存到了幾個表中,大約有個百多兆的數據(數據量越多越好),第一次學習

具體實現過程

1、編寫爬蟲框架,爬取數據
建議博客:https://blog.csdn.net/weixin_43581288/article/details/106950359
里面有需要爬蟲的字段,保存到的數據庫,以及一些其他的要求
2、數據存儲
正確搭建hadoop平臺
選擇flume協議傳輸形式

啟動flame:

flume-ng agent -n agent1 -c conf -f /usr/module/flume/apache-flume-1.6.0-bin/conf/template-hdfs.conf -Dflume.root.logger=DEBUG,console

上傳數據至目錄:


將數據存儲到hdfs:

3、進行hive查詢:
1、具體要求(要求:1、利用hive進行分析,2、將hive分析結果利用sqoop技術存儲到mysql數據庫中,并最后顯示分析結果。):
(1)分析“數據分析”、“大數據開發工程師”、“數據采集”等崗位的平均工資、最高工資、最低工資,并作條形圖將結果展示出來;



(2)分析“數據分析”、“大數據開發工程師”、“數據采集”等大數據相關崗位在成都、北京、上海、廣州、深圳的崗位數,并做餅圖將結果展示出來。



(3)分析大數據相關崗位1-3年工作經驗的薪資水平(平均工資、最高工資、最低工資),并做出條形圖展示出來;



(4)分析大數據相關崗位幾年需求的走向趨勢,并做出折線圖展示出來;

總結:
這個項目使用爬蟲、數據庫、大數據分析等方法來完成,對爬蟲的認識,使用、數據庫(mangodb)的使用、大數據知識的運用都是很好的。爬蟲有爬蟲框架的搭建,代碼的編寫對我來說都是一個不小的難題,但通過查資料、和同學的探討讓我解決了這些問題,數據庫(mangodb)使用還不是特別熟練,大數據各種環境的搭建也是一個不小的難題,配置的環境也是不少,我也是用來不少的時間來做這個事,在這其中還是有的。

總結

以上是生活随笔為你收集整理的爬虫+数据库+大数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。