日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据采集与预处理技术

發(fā)布時間:2023/12/10 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据采集与预处理技术 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

  • 第1章 大數(shù)據(jù)概念
    • 1.1大數(shù)據(jù)的概念
    • 1.2大數(shù)據(jù)的關鍵技術
    • 1.3大數(shù)據(jù)采集與數(shù)據(jù)預處理技術
      • 1.3.1大數(shù)據(jù)采集技術
      • 1.3.2數(shù)據(jù)預處理技術
  • 第二章 數(shù)據(jù)采集基礎
    • 2.1 傳統(tǒng)數(shù)據(jù)采集技術
    • 2.2大數(shù)據(jù)采集基礎
  • 第三章 大數(shù)據(jù)采集架構
    • 1.Chukwa數(shù)據(jù)采集
    • 2.Flume數(shù)據(jù)采集
    • 3.Scribe數(shù)據(jù)采集
    • 4.kafka數(shù)據(jù)采集
  • 第四章 大數(shù)據(jù)遷移技術
    • 1.數(shù)據(jù)遷移概念
    • 2.數(shù)據(jù)遷移相關技術
    • 3.數(shù)據(jù)遷移工具
      • 4.3.1 Apache Sqoop
      • 4.3.2 ETL
    • Kettle數(shù)據(jù)遷移實例(略)

第1章 大數(shù)據(jù)概念

1.1大數(shù)據(jù)的概念

  • 目前工業(yè)界普遍認為大數(shù)據(jù)具有5V+1C的特征:大量(volume)、多樣(variety)價值(value)高速(velocity)準確性(veracity)復雜(complexity)
  • 大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)
  • 數(shù)據(jù)的種類包括結(jié)構化半結(jié)構化非結(jié)構化數(shù)據(jù)
  • 人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3 個階段:傳統(tǒng)數(shù)據(jù)庫階段互動式互聯(lián)網(wǎng)階段智慧社會階段
  • 1.2大數(shù)據(jù)的關鍵技術

  • 根據(jù)大數(shù)據(jù)的處理過程,可將其分為數(shù)據(jù)采集數(shù)據(jù)預處理數(shù)據(jù)存儲數(shù)據(jù)分析與挖掘以及數(shù)據(jù)可視化等環(huán)節(jié)
  • 數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是處于大數(shù)據(jù)生命周期的第一個環(huán)節(jié)
  • 現(xiàn)實世界中,數(shù)據(jù)通常存在不完整、不一致的“臟”數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結(jié)果差強人意,為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生的數(shù)據(jù)預處理技術
  • 分布式文件系統(tǒng)(DFS) :是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而通過計算機網(wǎng)絡與節(jié)點相連。如HDFS等
  • NoSQL數(shù)據(jù)庫采用<key,value>格式存儲數(shù)據(jù)
  • 大數(shù)據(jù)存儲通常采用分布式文件系統(tǒng)NoSQL數(shù)據(jù)庫以及云存儲等技術
  • 1.3大數(shù)據(jù)采集與數(shù)據(jù)預處理技術

    1.3.1大數(shù)據(jù)采集技術

  • 大數(shù)據(jù)采集與預處理是大數(shù)據(jù)處理分析的第一階段。
  • 基于分布式數(shù)據(jù)庫的數(shù)據(jù)采集方法相比傳統(tǒng)數(shù)據(jù)采集方法的特點如下:
    1》具有更高的數(shù)據(jù)訪問速度
    2》具有更強的可擴展性
    3》更高的并發(fā)訪問量
  • 目前,采用用分布式架構的大數(shù)據(jù)采集平臺有:Apache Chukwa、Flume、Scrible以及Apache kafka等。
  • Flume是一種分布式、可靠和可用的服務,可以有效地采集海量日志數(shù)據(jù)。
  • kafka是一個分布式、支持分區(qū)的、多副本的、基于ZooKeeper協(xié)調(diào)的分布式消息系統(tǒng),它的最大的特性就是可以實時的處理大數(shù)據(jù)以滿足各種需求場景。
  • 1.3.2數(shù)據(jù)預處理技術

  • 采集到的原始數(shù)據(jù)通常存在的問題有:雜亂性、重復性、不完整性
  • 常用的數(shù)據(jù)預處理技術有:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變化、數(shù)據(jù)規(guī)約
  • 數(shù)據(jù)清理主要是達到數(shù)據(jù)規(guī)格標準化、異常數(shù)據(jù)清理、數(shù)據(jù)錯誤糾正、重復數(shù)據(jù)的清除等目標
  • 數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫
  • 數(shù)據(jù)變換是通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式,將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式
  • 數(shù)據(jù)規(guī)約是指在對挖掘任務和數(shù)據(jù)本身內(nèi)容理解的基礎上,尋找依賴于發(fā)現(xiàn)目標數(shù)據(jù)的應用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持數(shù)據(jù)原貌的前提下,最大限度的精簡數(shù)據(jù)量
  • 第二章 數(shù)據(jù)采集基礎

    2.1 傳統(tǒng)數(shù)據(jù)采集技術

  • 數(shù)據(jù)采集系統(tǒng)一般由硬件和軟件兩部分組成。從硬件方面來看,目前數(shù)據(jù)采集系統(tǒng)的架構包括兩種形式,微型計算機數(shù)據(jù)采集系統(tǒng)和集散型數(shù)據(jù)采集系統(tǒng)。
  • 計算機處理的信號是二進制的離散數(shù)字信號
  • 采樣技術
  • 2.2大數(shù)據(jù)采集基礎

  • 大數(shù)據(jù)采集常用方法包括:系統(tǒng)日志采集、利用ETL工具采集以及網(wǎng)絡爬蟲等。
  • 日志文件是由數(shù)據(jù)源系統(tǒng)自動生成的記錄文件
  • Web服務器主要包括以下三種日志文件格式:公用日志文件格式、擴展日志格式和IIS日志格式。

  • ETL即數(shù)據(jù)抽取( Extract)、轉(zhuǎn)換( Transform)、加載(Load)的過程

  • 按照系統(tǒng)結(jié)構和實現(xiàn)技術,互聯(lián)網(wǎng)爬蟲可以分為通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲和分布式網(wǎng)絡爬蟲。
  • 第三章 大數(shù)據(jù)采集架構

    1.Chukwa數(shù)據(jù)采集

    2.Flume數(shù)據(jù)采集

    Flume的核心是Agent
    Flume Agent由Source、Channel和Sink組成


    Flume的運行機制
    Flume的核心是Agent。Agent對外有兩個進行交互的地方,一個是接受數(shù)據(jù)的輸入Source,一個是數(shù)據(jù)的輸出Sink。
    Source接收到數(shù)據(jù)之后,將數(shù)據(jù)發(fā)送給Channel,Chanel作為一個數(shù)據(jù)緩沖區(qū)會臨時存放這些數(shù)據(jù),隨后Sink會將Channel中的數(shù)據(jù)發(fā)送到指定的地方,例如HDFS等。
    Flume可以支持多級Flume的Agent。例如Sink可以將數(shù)據(jù)寫到下一個Agent的Source中,這樣的話就可以連成串。
    Flume還支持扇入(fan-in)、扇出(fan-out)。所謂扇入就是Source可以接受多個輸入,所謂扇出就是Sink可以將數(shù)據(jù)輸出多個目的地。

    3.Scribe數(shù)據(jù)采集

  • Scribe由Scribe Agent、Scribe和存儲系統(tǒng)三部分組成。
  • Scribe能夠從各種日志源上收集日志,存儲到一個中央存儲系統(tǒng) (NFS或分布式文件系統(tǒng)等),以便于進行集中統(tǒng)計分析處理。
  • 4.kafka數(shù)據(jù)采集

  • Apache Kafka是一種分布式發(fā)布-訂閱消息系統(tǒng)。

  • Kafka被設計為能夠高效地處理大量實時數(shù)據(jù),具有快速、可擴展、分布式、分區(qū)和多副本等特點。

  • Kafka使用由Scala語言編寫。

  • Kafka架構不僅具有高可擴展性、容錯性和高并發(fā)性、還具有高吞吐量。

  • Kafka包括Consumers、Broker、Producers三層架構。

  • 第四章 大數(shù)據(jù)遷移技術

    1.數(shù)據(jù)遷移概念

  • 數(shù)據(jù)遷移(HSM,Hierarchical Storage Management) 又稱分級存儲管理,是一種將離線存儲與在線存儲融合的技術
  • 數(shù)據(jù)遷移的三個階段:數(shù)據(jù)遷移前的準備、數(shù)據(jù)遷移的實施、數(shù)據(jù)遷移后的校驗
  • 2.數(shù)據(jù)遷移相關技術

    3.數(shù)據(jù)遷移工具

    4.3.1 Apache Sqoop

  • Apache Sqoop 是一種用于 Apache Hadoop 與關系型數(shù)據(jù)庫之間結(jié)構化、非結(jié)構化數(shù)據(jù)轉(zhuǎn)換的工具,它是Java語言編寫的數(shù)據(jù)遷移開源工具

  • Sqoop可以通過Sqoop這個工具實現(xiàn)傳統(tǒng)的關系型數(shù)據(jù)庫(RDBMS )與Hadoop云環(huán)境平臺的數(shù)據(jù)遷移

  • 4.3.2 ETL

    ETL處理流程

    Kettle數(shù)據(jù)遷移實例(略)

    總結(jié)

    以上是生活随笔為你收集整理的大数据采集与预处理技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。