日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据项目实战之数据采集

發(fā)布時(shí)間:2023/12/20 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据项目实战之数据采集 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)源分類

數(shù)據(jù)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫采集

HTTP請求過程

常見的請求方法分為兩種:GET請求和POST請求。

GET請求:常用于獲取數(shù)據(jù) ??明文發(fā)送數(shù)據(jù)【地址中可見的參數(shù)】不安全

請求地址的URL鏈接

HTTP請求頭是指在超文本傳輸協(xié)議的請求消息中協(xié)議頭部分的組件。可查看教材了解請求頭詳細(xì)介紹。

請求體通常出現(xiàn)在POST請求中,用于存放POST請求中的表單數(shù)據(jù),而對于GET請求而言,請求體為空。

HTTP響應(yīng)代碼表示服務(wù)器返回給客戶端的響應(yīng)狀態(tài),例如常見的響應(yīng)代碼200代表服務(wù)器正常響應(yīng),404代表頁面未找到等等。

響應(yīng)頭包含了服務(wù)器對客戶端請求的應(yīng)答信息,如Content-Type、Server、Set-Cookie等。可查看教材了解響應(yīng)頭詳細(xì)介紹。

響應(yīng)的正文數(shù)據(jù)都在響應(yīng)體中,如HTML代碼、二進(jìn)制數(shù)據(jù)、JSON數(shù)據(jù)等資源。

爬蟲部分項(xiàng)目說明

Eclipse EE?+?Maven?3+?+ Hadoop環(huán)境

搭建開發(fā)環(huán)境

為了更好的開發(fā)項(xiàng)目,可以如下圖所展示的去搭建開發(fā)環(huán)境

配置Maven

conf/settings.xml

設(shè)置阿里云遠(yuǎn)程公共倉庫

https://developer.aliyun.com/mvn/guide

<mirror>

??<id>aliyunmaven</id>

??<mirrorOf>*</mirrorOf>

??<name>阿里云公共倉庫</name>

??<url>https://maven.aliyun.com/repository/public</url>

</mirror>

設(shè)置本地倉庫路徑

<localRepository> D:\項(xiàng)目開發(fā)環(huán)境\repository </localRepository>

?設(shè)置jkd

<profile> ????

????<id>JDK-1.8</id> ??????

????<activation> ??????

????????<activeByDefault>true</activeByDefault> ??????

????????<jdk>1.8</jdk> ??????

????</activation> ??????

????<properties> ??????

????????<maven.compiler.source>1.8</maven.compiler.source> ??????

????????<maven.compiler.target>1.8</maven.compiler.target> ??????

????????<maven.compiler.compilerVersion>1.8</maven.compiler.compilerVersion> ??????

????</properties> ??????

</profile>

配置eclipse

本項(xiàng)目中小編使用的是eclipse-jee-2021-06-R-win32-x86_64.zip

?

?

?

?

?

編寫pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">
? <modelVersion>4.0.0</modelVersion>
? <groupId>com.csnf.jobcase</groupId>
? <artifactId>jobcase-reptile</artifactId>
? <version>0.0.1-SNAPSHOT</version>
? <dependencies>
? ? <dependency>
? ? ? ? <groupId>org.apache.httpcomponents</groupId>
? ? ? ? <artifactId>httpclient</artifactId>
? ? ? ? <version>4.5.4</version>
? ? ? ? </dependency>
?? ?<dependency>
?? ??? ?<groupId>org.apache.hadoop</groupId>
?? ??? ?<artifactId>hadoop-common</artifactId>
?? ??? ?<version>2.7.4</version>
?? ?</dependency>
?? ?<dependency>
?? ??? ?<groupId>org.apache.hadoop</groupId>
?? ??? ?<artifactId>hadoop-client</artifactId>
?? ??? ?<version>2.7.4</version>
?? ?</dependency>
? ?</dependencies>
</project>

后續(xù)代碼看下篇文章

總結(jié)

以上是生活随笔為你收集整理的大数据项目实战之数据采集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。