當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据采集与预处理技术

發(fā)布時間：2023/12/10 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据采集与预处理技术小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

第1章大數(shù)據(jù)概念
- 1.1大數(shù)據(jù)的概念
- 1.2大數(shù)據(jù)的關鍵技術
- 1.3大數(shù)據(jù)采集與數(shù)據(jù)預處理技術
- - 1.3.1大數(shù)據(jù)采集技術
  - 1.3.2數(shù)據(jù)預處理技術
第二章數(shù)據(jù)采集基礎
- 2.1 傳統(tǒng)數(shù)據(jù)采集技術
- 2.2大數(shù)據(jù)采集基礎
第三章大數(shù)據(jù)采集架構
- 1.Chukwa數(shù)據(jù)采集
- 2.Flume數(shù)據(jù)采集
- 3.Scribe數(shù)據(jù)采集
- 4.kafka數(shù)據(jù)采集
第四章大數(shù)據(jù)遷移技術
- 1.數(shù)據(jù)遷移概念
- 2.數(shù)據(jù)遷移相關技術
- 3.數(shù)據(jù)遷移工具
- - 4.3.1 Apache Sqoop
  - 4.3.2 ETL
- Kettle數(shù)據(jù)遷移實例（略）

第1章大數(shù)據(jù)概念

1.1大數(shù)據(jù)的概念

目前工業(yè)界普遍認為大數(shù)據(jù)具有5V+1C的特征：大量（volume）、多樣（variety）、價值（value）、高速（velocity）、準確性（veracity）和復雜（complexity）

大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E（100萬個T）或Z（10億個T）

數(shù)據(jù)的種類包括結(jié)構化、半結(jié)構化和非結(jié)構化數(shù)據(jù)

人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3 個階段：傳統(tǒng)數(shù)據(jù)庫階段、互動式互聯(lián)網(wǎng)階段、智慧社會階段

1.2大數(shù)據(jù)的關鍵技術

根據(jù)大數(shù)據(jù)的處理過程，可將其分為數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)存儲、數(shù)據(jù)分析與挖掘以及數(shù)據(jù)可視化等環(huán)節(jié)

數(shù)據(jù)采集，又稱數(shù)據(jù)獲取，是處于大數(shù)據(jù)生命周期的第一個環(huán)節(jié)

現(xiàn)實世界中，數(shù)據(jù)通常存在不完整、不一致的“臟”數(shù)據(jù)，無法直接進行數(shù)據(jù)挖掘，或挖掘結(jié)果差強人意，為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生的數(shù)據(jù)預處理技術

分布式文件系統(tǒng)(DFS) ：是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上，而通過計算機網(wǎng)絡與節(jié)點相連。如HDFS等

NoSQL數(shù)據(jù)庫采用<key,value>格式存儲數(shù)據(jù)

大數(shù)據(jù)存儲通常采用分布式文件系統(tǒng)、NoSQL數(shù)據(jù)庫以及云存儲等技術

1.3大數(shù)據(jù)采集與數(shù)據(jù)預處理技術

1.3.1大數(shù)據(jù)采集技術

大數(shù)據(jù)采集與預處理是大數(shù)據(jù)處理分析的第一階段。

基于分布式數(shù)據(jù)庫的數(shù)據(jù)采集方法相比傳統(tǒng)數(shù)據(jù)采集方法的特點如下：
1》具有更高的數(shù)據(jù)訪問速度
2》具有更強的可擴展性
3》更高的并發(fā)訪問量

目前，采用用分布式架構的大數(shù)據(jù)采集平臺有：Apache Chukwa、Flume、Scrible以及Apache kafka等。

Flume是一種分布式、可靠和可用的服務，可以有效地采集海量日志數(shù)據(jù)。

kafka是一個分布式、支持分區(qū)的、多副本的、基于ZooKeeper協(xié)調(diào)的分布式消息系統(tǒng)，它的最大的特性就是可以實時的處理大數(shù)據(jù)以滿足各種需求場景。

1.3.2數(shù)據(jù)預處理技術

采集到的原始數(shù)據(jù)通常存在的問題有：雜亂性、重復性、不完整性

常用的數(shù)據(jù)預處理技術有：數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變化、數(shù)據(jù)規(guī)約

數(shù)據(jù)清理主要是達到數(shù)據(jù)規(guī)格標準化、異常數(shù)據(jù)清理、數(shù)據(jù)錯誤糾正、重復數(shù)據(jù)的清除等目標

數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲，建立數(shù)據(jù)倉庫

數(shù)據(jù)變換是通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式，將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式

數(shù)據(jù)規(guī)約是指在對挖掘任務和數(shù)據(jù)本身內(nèi)容理解的基礎上，尋找依賴于發(fā)現(xiàn)目標數(shù)據(jù)的應用特征，以縮減數(shù)據(jù)規(guī)模，從而在盡可能保持數(shù)據(jù)原貌的前提下，最大限度的精簡數(shù)據(jù)量

第二章數(shù)據(jù)采集基礎

2.1 傳統(tǒng)數(shù)據(jù)采集技術

數(shù)據(jù)采集系統(tǒng)一般由硬件和軟件兩部分組成。從硬件方面來看，目前數(shù)據(jù)采集系統(tǒng)的架構包括兩種形式，微型計算機數(shù)據(jù)采集系統(tǒng)和集散型數(shù)據(jù)采集系統(tǒng)。

計算機處理的信號是二進制的離散數(shù)字信號

采樣技術

2.2大數(shù)據(jù)采集基礎

大數(shù)據(jù)采集常用方法包括：系統(tǒng)日志采集、利用ETL工具采集以及網(wǎng)絡爬蟲等。

日志文件是由數(shù)據(jù)源系統(tǒng)自動生成的記錄文件

Web服務器主要包括以下三種日志文件格式：公用日志文件格式、擴展日志格式和IIS日志格式。

ETL即數(shù)據(jù)抽取( Extract)、轉(zhuǎn)換( Transform)、加載(Load)的過程

按照系統(tǒng)結(jié)構和實現(xiàn)技術，互聯(lián)網(wǎng)爬蟲可以分為通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲和分布式網(wǎng)絡爬蟲。

第三章大數(shù)據(jù)采集架構

1.Chukwa數(shù)據(jù)采集

2.Flume數(shù)據(jù)采集

Flume的核心是Agent
Flume Agent由Source、Channel和Sink組成

Flume的運行機制
Flume的核心是Agent。Agent對外有兩個進行交互的地方，一個是接受數(shù)據(jù)的輸入Source，一個是數(shù)據(jù)的輸出Sink。
Source接收到數(shù)據(jù)之后，將數(shù)據(jù)發(fā)送給Channel，Chanel作為一個數(shù)據(jù)緩沖區(qū)會臨時存放這些數(shù)據(jù)，隨后Sink會將Channel中的數(shù)據(jù)發(fā)送到指定的地方，例如HDFS等。
Flume可以支持多級Flume的Agent。例如Sink可以將數(shù)據(jù)寫到下一個Agent的Source中，這樣的話就可以連成串。
Flume還支持扇入(fan-in)、扇出(fan-out)。所謂扇入就是Source可以接受多個輸入，所謂扇出就是Sink可以將數(shù)據(jù)輸出多個目的地。

3.Scribe數(shù)據(jù)采集

Scribe由Scribe Agent、Scribe和存儲系統(tǒng)三部分組成。

Scribe能夠從各種日志源上收集日志，存儲到一個中央存儲系統(tǒng) （NFS或分布式文件系統(tǒng)等），以便于進行集中統(tǒng)計分析處理。

4.kafka數(shù)據(jù)采集

Apache Kafka是一種分布式發(fā)布-訂閱消息系統(tǒng)。

Kafka被設計為能夠高效地處理大量實時數(shù)據(jù)，具有快速、可擴展、分布式、分區(qū)和多副本等特點。

Kafka使用由Scala語言編寫。

Kafka架構不僅具有高可擴展性、容錯性和高并發(fā)性、還具有高吞吐量。

Kafka包括Consumers、Broker、Producers三層架構。

第四章大數(shù)據(jù)遷移技術

1.數(shù)據(jù)遷移概念

數(shù)據(jù)遷移(HSM，Hierarchical Storage Management) 又稱分級存儲管理，是一種將離線存儲與在線存儲融合的技術

數(shù)據(jù)遷移的三個階段：數(shù)據(jù)遷移前的準備、數(shù)據(jù)遷移的實施、數(shù)據(jù)遷移后的校驗

2.數(shù)據(jù)遷移相關技術

3.數(shù)據(jù)遷移工具

4.3.1 Apache Sqoop

Apache Sqoop 是一種用于 Apache Hadoop 與關系型數(shù)據(jù)庫之間結(jié)構化、非結(jié)構化數(shù)據(jù)轉(zhuǎn)換的工具，它是Java語言編寫的數(shù)據(jù)遷移開源工具

Sqoop可以通過Sqoop這個工具實現(xiàn)傳統(tǒng)的關系型數(shù)據(jù)庫(RDBMS )與Hadoop云環(huán)境平臺的數(shù)據(jù)遷移

4.3.2 ETL

ETL處理流程

Kettle數(shù)據(jù)遷移實例（略）

總結(jié)

以上是生活随笔為你收集整理的大数据采集与预处理技术的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python-爬虫-requests
下一篇： c盘users的用户名怎么改_怎么修改i