生活随笔
收集整理的這篇文章主要介紹了
大数据采集与预处理技术
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
文章目錄
- 第1章 大數(shù)據(jù)概念
- 1.1大數(shù)據(jù)的概念
- 1.2大數(shù)據(jù)的關鍵技術
- 1.3大數(shù)據(jù)采集與數(shù)據(jù)預處理技術
- 1.3.1大數(shù)據(jù)采集技術
- 1.3.2數(shù)據(jù)預處理技術
- 第二章 數(shù)據(jù)采集基礎
- 2.1 傳統(tǒng)數(shù)據(jù)采集技術
- 2.2大數(shù)據(jù)采集基礎
- 第三章 大數(shù)據(jù)采集架構
- 1.Chukwa數(shù)據(jù)采集
- 2.Flume數(shù)據(jù)采集
- 3.Scribe數(shù)據(jù)采集
- 4.kafka數(shù)據(jù)采集
- 第四章 大數(shù)據(jù)遷移技術
- 1.數(shù)據(jù)遷移概念
- 2.數(shù)據(jù)遷移相關技術
- 3.數(shù)據(jù)遷移工具
- 4.3.1 Apache Sqoop
- 4.3.2 ETL
- Kettle數(shù)據(jù)遷移實例(略)
第1章 大數(shù)據(jù)概念
1.1大數(shù)據(jù)的概念
目前工業(yè)界普遍認為大數(shù)據(jù)具有5V+1C的特征:大量(volume)、多樣(variety)、價值(value)、高速(velocity)、準確性(veracity)和復雜(complexity)大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)數(shù)據(jù)的種類包括結(jié)構化、半結(jié)構化和非結(jié)構化數(shù)據(jù)人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3 個階段:傳統(tǒng)數(shù)據(jù)庫階段、互動式互聯(lián)網(wǎng)階段、智慧社會階段
1.2大數(shù)據(jù)的關鍵技術
根據(jù)大數(shù)據(jù)的處理過程,可將其分為數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)存儲、數(shù)據(jù)分析與挖掘以及數(shù)據(jù)可視化等環(huán)節(jié)
數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是處于大數(shù)據(jù)生命周期的第一個環(huán)節(jié)現(xiàn)實世界中,數(shù)據(jù)通常存在不完整、不一致的“臟”數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結(jié)果差強人意,為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生的數(shù)據(jù)預處理技術分布式文件系統(tǒng)(DFS) :是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而通過計算機網(wǎng)絡與節(jié)點相連。如HDFS等NoSQL數(shù)據(jù)庫采用<key,value>格式存儲數(shù)據(jù)大數(shù)據(jù)存儲通常采用分布式文件系統(tǒng)、NoSQL數(shù)據(jù)庫以及云存儲等技術
1.3大數(shù)據(jù)采集與數(shù)據(jù)預處理技術
1.3.1大數(shù)據(jù)采集技術
大數(shù)據(jù)采集與預處理是大數(shù)據(jù)處理分析的第一階段。基于分布式數(shù)據(jù)庫的數(shù)據(jù)采集方法相比傳統(tǒng)數(shù)據(jù)采集方法的特點如下:
1》具有更高的數(shù)據(jù)訪問速度
2》具有更強的可擴展性
3》更高的并發(fā)訪問量目前,采用用分布式架構的大數(shù)據(jù)采集平臺有:Apache Chukwa、Flume、Scrible以及Apache kafka等。Flume是一種分布式、可靠和可用的服務,可以有效地采集海量日志數(shù)據(jù)。kafka是一個分布式、支持分區(qū)的、多副本的、基于ZooKeeper協(xié)調(diào)的分布式消息系統(tǒng),它的最大的特性就是可以實時的處理大數(shù)據(jù)以滿足各種需求場景。
1.3.2數(shù)據(jù)預處理技術
采集到的原始數(shù)據(jù)通常存在的問題有:雜亂性、重復性、不完整性常用的數(shù)據(jù)預處理技術有:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變化、數(shù)據(jù)規(guī)約數(shù)據(jù)清理主要是達到數(shù)據(jù)規(guī)格標準化、異常數(shù)據(jù)清理、數(shù)據(jù)錯誤糾正、重復數(shù)據(jù)的清除等目標數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫數(shù)據(jù)變換是通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式,將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式數(shù)據(jù)規(guī)約是指在對挖掘任務和數(shù)據(jù)本身內(nèi)容理解的基礎上,尋找依賴于發(fā)現(xiàn)目標數(shù)據(jù)的應用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持數(shù)據(jù)原貌的前提下,最大限度的精簡數(shù)據(jù)量
第二章 數(shù)據(jù)采集基礎
2.1 傳統(tǒng)數(shù)據(jù)采集技術
數(shù)據(jù)采集系統(tǒng)一般由硬件和軟件兩部分組成。從硬件方面來看,目前數(shù)據(jù)采集系統(tǒng)的架構包括兩種形式,微型計算機數(shù)據(jù)采集系統(tǒng)和集散型數(shù)據(jù)采集系統(tǒng)。計算機處理的信號是二進制的離散數(shù)字信號采樣技術
2.2大數(shù)據(jù)采集基礎
大數(shù)據(jù)采集常用方法包括:系統(tǒng)日志采集、利用ETL工具采集以及網(wǎng)絡爬蟲等。日志文件是由數(shù)據(jù)源系統(tǒng)自動生成的記錄文件Web服務器主要包括以下三種日志文件格式:公用日志文件格式、擴展日志格式和IIS日志格式。
ETL即數(shù)據(jù)抽取( Extract)、轉(zhuǎn)換( Transform)、加載(Load)的過程
按照系統(tǒng)結(jié)構和實現(xiàn)技術,互聯(lián)網(wǎng)爬蟲可以分為通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲和分布式網(wǎng)絡爬蟲。
第三章 大數(shù)據(jù)采集架構
1.Chukwa數(shù)據(jù)采集
2.Flume數(shù)據(jù)采集
Flume的核心是Agent
Flume Agent由Source、Channel和Sink組成
Flume的運行機制
Flume的核心是Agent。Agent對外有兩個進行交互的地方,一個是接受數(shù)據(jù)的輸入Source,一個是數(shù)據(jù)的輸出Sink。
Source接收到數(shù)據(jù)之后,將數(shù)據(jù)發(fā)送給Channel,Chanel作為一個數(shù)據(jù)緩沖區(qū)會臨時存放這些數(shù)據(jù),隨后Sink會將Channel中的數(shù)據(jù)發(fā)送到指定的地方,例如HDFS等。
Flume可以支持多級Flume的Agent。例如Sink可以將數(shù)據(jù)寫到下一個Agent的Source中,這樣的話就可以連成串。
Flume還支持扇入(fan-in)、扇出(fan-out)。所謂扇入就是Source可以接受多個輸入,所謂扇出就是Sink可以將數(shù)據(jù)輸出多個目的地。
3.Scribe數(shù)據(jù)采集
Scribe由Scribe Agent、Scribe和存儲系統(tǒng)三部分組成。Scribe能夠從各種日志源上收集日志,存儲到一個中央存儲系統(tǒng) (NFS或分布式文件系統(tǒng)等),以便于進行集中統(tǒng)計分析處理。
4.kafka數(shù)據(jù)采集
Apache Kafka是一種分布式發(fā)布-訂閱消息系統(tǒng)。
Kafka被設計為能夠高效地處理大量實時數(shù)據(jù),具有快速、可擴展、分布式、分區(qū)和多副本等特點。
Kafka使用由Scala語言編寫。
Kafka架構不僅具有高可擴展性、容錯性和高并發(fā)性、還具有高吞吐量。
Kafka包括Consumers、Broker、Producers三層架構。
第四章 大數(shù)據(jù)遷移技術
1.數(shù)據(jù)遷移概念
數(shù)據(jù)遷移(HSM,Hierarchical Storage Management) 又稱分級存儲管理,是一種將離線存儲與在線存儲融合的技術數(shù)據(jù)遷移的三個階段:數(shù)據(jù)遷移前的準備、數(shù)據(jù)遷移的實施、數(shù)據(jù)遷移后的校驗
2.數(shù)據(jù)遷移相關技術
3.數(shù)據(jù)遷移工具
4.3.1 Apache Sqoop
Apache Sqoop 是一種用于 Apache Hadoop 與關系型數(shù)據(jù)庫之間結(jié)構化、非結(jié)構化數(shù)據(jù)轉(zhuǎn)換的工具,它是Java語言編寫的數(shù)據(jù)遷移開源工具
Sqoop可以通過Sqoop這個工具實現(xiàn)傳統(tǒng)的關系型數(shù)據(jù)庫(RDBMS )與Hadoop云環(huán)境平臺的數(shù)據(jù)遷移
4.3.2 ETL
ETL處理流程
Kettle數(shù)據(jù)遷移實例(略)
總結(jié)
以上是生活随笔為你收集整理的大数据采集与预处理技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。