日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > windows >内容正文

windows

大数据入门基础系列之初步认识大数据生态系统圈(博主推荐)

發(fā)布時(shí)間:2024/10/12 windows 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据入门基础系列之初步认识大数据生态系统圈(博主推荐) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?

?

  

  不多說,直接上干貨!

?

?

  之前在微信公眾平臺(tái)里寫過

大數(shù)據(jù)入門基礎(chǔ)系列之初步認(rèn)識(shí)hadoop生態(tài)系統(tǒng)圈

http://mp.weixin.qq.com/s/KE09U5AbFnEdwht44FGrOA

?

?

?

?

?

大數(shù)據(jù)入門基礎(chǔ)系列之初步認(rèn)識(shí)大數(shù)據(jù)生態(tài)系統(tǒng)圈

1.概述

  最近收到一些同學(xué)和朋友的郵件,說能不能整理一下 Hadoop 生態(tài)圈的相關(guān)內(nèi)容,然后分享一些,我覺得這是一個(gè)不錯(cuò)的提議,于是,花了一些業(yè)余時(shí)間整理了 Hadoop 的生態(tài)系統(tǒng),并將其進(jìn)行了歸納總結(jié),進(jìn)而將其以表格的形式進(jìn)行了羅列。涉及的內(nèi)容有以下幾點(diǎn):

  • 分布式文件系統(tǒng)
  • 分布式編程模型
  • NoSQL 數(shù)據(jù)庫(kù)
  • SQL-On-Hadoop
  • 數(shù)據(jù)采集
  • 編程服務(wù)中間件
  • 調(diào)度系統(tǒng)
  • 系統(tǒng)部署
  • 數(shù)據(jù)可視化

?

?

2.內(nèi)容

2.1 分布式文件系統(tǒng)

  2.1.1 Apache HDFS

  在分布式文件系統(tǒng)當(dāng)中,首先為大家所熟悉的是 Apache 的 HDFS。全稱為 Hadoop Distributed File System,由多臺(tái)機(jī)器組建的集群,存儲(chǔ)大數(shù)據(jù)文件。HDFS 的靈感來自于 Google File System(GFS)。Hadoop 2.x 版本之前,NameNode 是存在單點(diǎn)故障的。在 ZooKeeper 的高可用性功能解決了 HDFS 的這個(gè)問題,通過提供運(yùn)行兩個(gè)冗余的節(jié)點(diǎn)在同一個(gè)集群中進(jìn)行主備切換,即:Active & Standby

  相關(guān)鏈接地址如下所示:

  • Apache Hadoop
  • Google File System
  • Cloudera
  • Hortonworks
  • ?

      ?2.1.2 Red Hat?GlusterFS

      GlusterFS 是一個(gè)擴(kuò)展的網(wǎng)絡(luò)附加存儲(chǔ)文件系統(tǒng)。GlusterFS 最初是由 Gluster?公司開發(fā)的,然后,由 Red Hat 公司在2011年進(jìn)行了購(gòu)買。2012年六月,Red Hat 存儲(chǔ)服務(wù)器被宣布為商業(yè)支持的整合與 Red Hat 企業(yè) Linux GlusterFS。Gluster?文件系統(tǒng),現(xiàn)在稱為 Red Hat 存儲(chǔ)服務(wù)器。

      相關(guān)鏈接地址如下所示:

  • Gluster 官網(wǎng)
  • Red Hat Hadoop 插件
  • ?

      2.1.3 QFS

      QFS 是一個(gè)開源的分布式文件系統(tǒng)軟件包,用于對(duì) MapReduce 批處理工作負(fù)載。她被設(shè)計(jì)為一種 Apache Hadoop 的 HDFS 另一種選擇方案,用于大型加工集群提供更好的性能和成本效率。它用 C++ 和固定占用內(nèi)存管理。QFS 使用?Reed-Solomon 糾錯(cuò)保證可靠的數(shù)據(jù)訪問方法。Reed-Solomon 編碼在海量存儲(chǔ)系統(tǒng)中被廣泛應(yīng)用,以糾正與媒體缺陷相關(guān)的突發(fā)錯(cuò)誤。而不是存儲(chǔ)每個(gè)文件或是像 HDFS 一樣,存儲(chǔ) 3+ 次以上,QFS 僅僅需要 1.5 倍的原始容量,因?yàn)樗鎯?chǔ)在哎九個(gè)不同的磁盤驅(qū)動(dòng)上。

      相關(guān)鏈接地址如下所示:

  • QFS 官網(wǎng)
  • Github QFS
  • Hadoop-8885
  • ?

      2.1.4?Ceph Filesystem

      Ceph 是一個(gè)免費(fèi)的軟件存儲(chǔ)平臺(tái),被設(shè)計(jì)為對(duì)象,塊和從單一節(jié)點(diǎn)到集群的文件存儲(chǔ)。它的主要目標(biāo)是完全分布式無單點(diǎn)鼓掌,可水平擴(kuò)展到 PB 容量,對(duì)多種工作負(fù)載的高性能,以及高可用性。

      相關(guān)鏈接地址如下所示:

  • Ceph Filesystem 官網(wǎng)
  • Ceph and Hadoop
  • HADOOP-6253
  • ?

      2.1.5?Lustre file system

      Lustre 是由 Linux 和 Cluster 演變而來,是為了解決海量存儲(chǔ)問題而設(shè)計(jì)的全新的文件系統(tǒng)。可支持達(dá) 1w 節(jié)點(diǎn),PB 的存儲(chǔ)容量,100GB/S 的傳輸速度。Lustre 是基于對(duì)象的存儲(chǔ)系統(tǒng),減少元數(shù)據(jù)服務(wù)器的 iNode。它實(shí)際上還是將數(shù)據(jù)條帶化到各個(gè)存儲(chǔ)目標(biāo)上,所以可以實(shí)現(xiàn)高度聚合 IO 能力。Lustre 原生態(tài)支持海量小文件讀寫;且對(duì)大文件讀寫在 Linux 內(nèi)核做了特殊優(yōu)化。另外,Lustre 是個(gè)對(duì)用戶透明的 Share 文件系統(tǒng),條帶化數(shù)據(jù)的位置信息不能完美的暴露出來,所以要用上 Hadoop ?的 MapReduce 優(yōu)勢(shì)還需要做很多工作。

      相關(guān)鏈接地址如下所示:

  • Lustre WiKi
  • Hadoop with Lustre
  • Inter HPC Hadoop
  •   關(guān)于分布式文件系統(tǒng)的內(nèi)容就贅述到這里;其它分布式文件系統(tǒng),如:Alluxio,GridGain?以及?XtreemFS[1.官網(wǎng),2.Flink on XtreemFS,3.Spark XtreemFS] 等這里就不多贅述了,大家可以下去自己普及一下。

    ?

    ?

    2.2 分布式編程模型

      2.2.1?Apache Ignite

      Apache Ignite 內(nèi)存數(shù)組組織框架是一個(gè)高性能、集成和分布式的內(nèi)存計(jì)算和事務(wù)平臺(tái),用于大規(guī)模的數(shù)據(jù)集處理,比傳統(tǒng)的基于磁盤或閃存的技術(shù)具有更高的性能,同時(shí)他還為應(yīng)用和不同的數(shù)據(jù)源之間提供高性能、分布式內(nèi)存中數(shù)據(jù)組織管理的功能。

      它包含一個(gè)分布式的 Key/Value 存儲(chǔ)在內(nèi)存中,SQL 執(zhí)行能力,MapReduce 和其它計(jì)算,分布式數(shù)據(jù)結(jié)構(gòu),連續(xù)查詢,消息和事件子系統(tǒng)。Hadoop 和 Spark 均有集成。Ignite 編譯于 Java,提供 .NET 和 C++ 的 API 接口。

      相關(guān)鏈接地址如下所示:

  • Apache Ignite
  • Apache Ignite Documentation
  • ?

      2.2.2 Apache MapReduce

      這個(gè)大家應(yīng)該不陌生,這是一個(gè)經(jīng)典的編程模型,用于在集群上處理并發(fā),分布式大數(shù)據(jù)集。當(dāng)前版本編譯于 YARN 框架。這里就不多贅述了。

      相關(guān)鏈接地址,如下所示:

  • Apache MapReduce
  • Google MapReduce Paper
  • Writing YARN Applications
  • ?

      2.2.3 Apache ?Spark

      這個(gè)編程模型,大家也不會(huì)陌生,現(xiàn)在 Spark 的應(yīng)用場(chǎng)景和社區(qū)活躍度較高。快速的執(zhí)行能力,豐富的編程 API 接口,使其備受恩寵。

      相關(guān)鏈接地址,如下所示:

  • Apache Spark
  • Mirror of Spark on Github
  • RDDs-Paper
  • Spark Cluster Computing
  • Spark Research
  • ?

      2.2.4 Apache Storm

      做實(shí)時(shí)流水?dāng)?shù)據(jù)處理的同學(xué),應(yīng)該也不陌生,可以嫁接多種消息中間件(如Kafka,MQ等)。

      相關(guān)鏈接地址,如下所示:

  • Storm Project
  • Storm-on-YARN
  • ?

      2.2.5 Apache Flink

      Apache Flink 是一個(gè)面向分布式數(shù)據(jù)流處理和批量數(shù)據(jù)處理的開源計(jì)算平臺(tái),它能夠基于同一個(gè)Flink運(yùn)行時(shí)(Flink Runtime),提供支持流處理和批處理兩種類型應(yīng)用的功能。現(xiàn)有的開源計(jì)算方案,會(huì)把流處理和批處理作為兩種不同的應(yīng)用類型,因?yàn)樗麄兯鼈兯峁┑腟LA是完全不相同的:流處理一般需要支持低延遲、Exactly-once保證,而批處理需要支持高吞吐、高效處理,所以在實(shí)現(xiàn)的時(shí)候通常是分別給出兩套實(shí)現(xiàn)方法,或者通過一個(gè)獨(dú)立的開源框架來實(shí)現(xiàn)其中每一種處理方案。例如,實(shí)現(xiàn)批處理的開源方案有MapReduce、Tez、Crunch、Spark,實(shí)現(xiàn)流處理的開源方案有Samza、Storm。 Flink在實(shí)現(xiàn)流處理和批處理時(shí),與傳統(tǒng)的一些方案完全不同,它從另一個(gè)視角看待流處理和批處理,將二者統(tǒng)一起來:Flink是完全支持流處理,也就是說作為流處理看待時(shí)輸入數(shù)據(jù)流是無界的;批處理被作為一種特殊的流處理,只是它的輸入數(shù)據(jù)流被定義為有界的。基于同一個(gè)Flink運(yùn)行時(shí)(Flink Runtime),分別提供了流處理和批處理API,而這兩種API也是實(shí)現(xiàn)上層面向流處理、批處理類型應(yīng)用框架的基礎(chǔ)。

      相關(guān)鏈接地址,如下所示:

  • Apache Flink
  • Stratosphere site
  • ?

      這里列舉了熱度較高的分布式編程模型,其它的編程模型,如下表所示:

    分布式編程模型相關(guān)鏈接地址
    Apache Pig

    1.官網(wǎng)

    2.示例

    ?JAQL

    1.JAQLL in Google Code

    2.What is JAQL?

    ?Facebook Corona1.Corona on Github
    ?Apache Twill1.Twill 官網(wǎng)
    ?Apache Tez

    1.Tez 官網(wǎng)

    2.Hortonworks Apacha Tez Page

    ?

    2.3 NoSQL 數(shù)據(jù)庫(kù)

      2.3.1 列數(shù)據(jù)模型

      2.3.1.1 Apache HBase

      靈感來自于 Google 的 BigTable。非關(guān)系性分布式數(shù)據(jù)庫(kù)。隨機(jī)實(shí)時(shí)讀寫操作列擴(kuò)展的大表。

      相關(guān)鏈接地址,如下所示:

  • Apache HBase Home
  • HBase on Github
  • ?

      2.3.1.2 Apache Cassandra

      Apache Cassandra 是一套開源分布式 Key-Value 存儲(chǔ)系統(tǒng)。它最初由 Facebook 開發(fā),用于儲(chǔ)存特別大的數(shù)據(jù)。 Cassandra 不是一個(gè)數(shù)據(jù)庫(kù),它是一個(gè)混合型的非關(guān)系的數(shù)據(jù)庫(kù),類似于 Google 的 BigTable。Cassandra 的數(shù)據(jù)模型是基于列族(Column Family)的四維或五維模型。它借鑒了 Amazon 的 Dynamo 和 Google's BigTable 的數(shù)據(jù)結(jié)構(gòu)和功能特點(diǎn),采用 Memtable 和 SSTable 的方式進(jìn)行存儲(chǔ)。在 Cassandra 寫入數(shù)據(jù)之前,需要先記錄日志 ( CommitLog ),然后數(shù)據(jù)開始寫入到 Column Family 對(duì)應(yīng)的 Memtable 中,Memtable 是一種按照 key 排序數(shù)據(jù)的內(nèi)存結(jié)構(gòu),在滿足一定條件時(shí),再把 Memtable 的數(shù)據(jù)批量的刷新到磁盤上,存儲(chǔ)為 SSTable 。

      相關(guān)鏈接地址,如下所示:

  • Cassandra On Github
  • Training Resources
  • Cassandra-Paper</>
  • ?

      2.3.1.3 Apache Kudu

      Kudu 是 Cloudera 開源的列式存儲(chǔ)引擎,具有一下幾個(gè)特點(diǎn):

    • C++ 語言開發(fā)
    • 高效處理類 OLAP 負(fù)載
    • 與 MR,Spark 以及 Hadoop 生態(tài)系統(tǒng)中其它組件友好集成
    • 可以與 Cloudera Impala 集成
    • 靈活的一致性模型
    • 順序和隨機(jī)寫并存的場(chǎng)景下,仍能達(dá)到良好的性能
    • 高可用,使用 Raft 協(xié)議保證數(shù)據(jù)高可靠存儲(chǔ)
    • 結(jié)構(gòu)化數(shù)據(jù)模型

      相關(guān)鏈接地址,如下所示:

  • Apache Kudu Home
  • Kudu on Github
  • Kudu Technical
  • ?

      2.3.2 文檔數(shù)據(jù)模型

      2.3.2.1 MongoDB

      面向文檔的數(shù)據(jù)庫(kù)系統(tǒng)。它是數(shù)據(jù)庫(kù)系統(tǒng)中 NoSQL 家族的一部分。MongoDB 存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)以 JSON 格式的文件形式進(jìn)行存儲(chǔ)。

      相關(guān)鏈接地址,如下所示:

  • MongoDB 官網(wǎng)
  • ?

      2.3.3 Key-Value 數(shù)據(jù)模型

      2.3.3.1 Redis 數(shù)據(jù)庫(kù)

      Redis是一個(gè)開源的使用ANSI C語言編寫、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫(kù),并提供多種語言的API。

      相關(guān)鏈接地址,如下所示:

  • Redis Home
  • Redis Labs
  • ?

    ?

    2.4 SQL-On-Hadoop

      2.4.1 Apache Hive

      一款由 Facebook 開發(fā)的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)聚合,查詢和分析。提供類 SQL 語言:HiveQL

      相關(guān)鏈接地址,如下所示:

  • Apache Hive Home
  • Hive on Github
  • ?

      2.4.2 Apache Trafodion

      Trafodion是一個(gè)構(gòu)建在Hadoop/HBase基礎(chǔ)之上的關(guān)系型數(shù)據(jù)庫(kù),它完全開源免費(fèi)。Trafodion能夠完整地支持ANSI SQL,并且提供ACID事務(wù)保證。和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)不同的地方在于,Trafodion利用底層Hadoop的橫向擴(kuò)展能力,可以提供極高的擴(kuò)展性。而傳統(tǒng)數(shù)據(jù)庫(kù),比如MySQL,在數(shù)據(jù)量達(dá)到P級(jí)別的時(shí)候就很難處理。而Trafodion卻可以借助HBase的擴(kuò)展性,僅通過增加普通Linux服務(wù)器就可以增加計(jì)算和存儲(chǔ)能力,進(jìn)而支持大數(shù)據(jù)應(yīng)用。

      相關(guān)鏈接地址,如下所示:

  • Apache Trafodion Home
  • Apache Trafodion WiKi
  • Apache Trafodion On Github
  • ?

      2.4.3 Apache Drill

    ?  Drill 是 Apache 開源的,用于大數(shù)據(jù)探索的 SQL 查詢引擎。她在大數(shù)據(jù)應(yīng)用中,面對(duì)結(jié)構(gòu)化數(shù)據(jù)和變化迅速的數(shù)據(jù),她能夠去兼容,并且高性能的去分析,同時(shí),還提供業(yè)界都熟悉的標(biāo)準(zhǔn)的查詢語言,即:ANSI SQL 生態(tài)系統(tǒng)。Drill 提供即插即用,在現(xiàn)有的 Hive,HBase,S3 等存儲(chǔ)介質(zhì)中可以隨時(shí)整合部署。

      相關(guān)鏈接地址,如下所示:

  • Apache Drill Home
  • ?

      2.4.4?Cloudera Impala

      類似于 Drill 的一款大數(shù)據(jù)實(shí)時(shí)查詢引擎,依賴 CDH 環(huán)境。

      相關(guān)鏈接地址,如下所示:

  • Cloudera Impala Home
  • Impala On Github
  • ?

      2.4.5 Apache Kylin

      Kylin 是一款開源的分布式數(shù)據(jù)分析引擎由 eBay 公司提供。支持 Hadoop 大數(shù)據(jù)集 OLAP 業(yè)務(wù)/

      相關(guān)鏈接地址,如下所示:

  • Apache Kylin Home
  •   另外,還有[Apache Tajo],[Apache Phoenix] 等,這里就不一一列舉了。

    ?

    ?

    2.5 數(shù)據(jù)采集

      2.5.1 Apache Flume

      Flume 是一個(gè)分布式,可靠的,可用的服務(wù),有效的收集,聚合和移動(dòng)海量的日志數(shù)據(jù)。它有一個(gè)簡(jiǎn)單而靈活的架構(gòu),基于流數(shù)據(jù)流。具有很好的冗余和容錯(cuò)性,以及可靠性和多故障轉(zhuǎn)移和恢復(fù)機(jī)制。它使用一個(gè)簡(jiǎn)單的可擴(kuò)展數(shù)據(jù)模型,并允許在線分析應(yīng)用。

      相關(guān)鏈接地址,如下所示:

  • Apache Flume Home
  • ?

      2.5.2 Apache Sqoop

      一款從 HDFS 到 RDBMS 之間做數(shù)據(jù)交互的工具。類似于 Flume。

      相關(guān)鏈接地址,如下所示:

  • Apache Sqoop Project
  • ?

      2.5.3 Apache Kafka

      分布式發(fā)布-訂閱消息系統(tǒng),用于處理流式海量數(shù)據(jù)。Kafka 是一個(gè)由 LinkedIn 開發(fā)的消息隊(duì)列。能嫁接 HDFS 這樣的存儲(chǔ)介質(zhì),能被 Storm,Spark這類實(shí)時(shí)或類實(shí)時(shí)數(shù)據(jù)模型消費(fèi)。

      相關(guān)鏈接地址,如下所示:

  • Apache Kafka
  • Kafka On Github
  • ?

      2.5.4 Apache NiFi

      Apache NiFi 是由美國(guó)國(guó)家安全局(NSA)貢獻(xiàn)給 Apache 基金會(huì)的開源項(xiàng)目,目前已被順利孵化完成成為 Apache 的頂級(jí)項(xiàng)目之一。Apache NiFi 其設(shè)計(jì)目標(biāo)是自動(dòng)化系統(tǒng)間的數(shù)據(jù)流。基于其工作流式的編程理念,NiFi 擁有易使用,高可用以及高配置等特性。其尤為突出的兩大特性是:強(qiáng)大的用戶界面和良好的數(shù)據(jù)回溯工具。NiFi 的用戶界面允許用戶在瀏覽器中直觀的理解并與數(shù)據(jù)流進(jìn)行交互,快速和安全的進(jìn)迭代。其數(shù)據(jù)回溯特性允許用戶查看一個(gè)對(duì)象如何在系統(tǒng)間流轉(zhuǎn),回放以及可視化關(guān)鍵步驟之前以及之后發(fā)生的情況,包括大量復(fù)雜的圖式轉(zhuǎn)換,Fork,Join 以及其它操作等。另外,NiFi 使用基于組件的擴(kuò)展模型用以為復(fù)雜的數(shù)據(jù)流快速增加功能,開箱即用的組件中,處理文件系統(tǒng)的包括 FTP,SFTP 以及 HTTP 等,同樣也支持 HDFS。

      相關(guān)鏈接地址,如下所示:

  • Apache NiFi
  •   另外,還有 Facebook Scribe,Apache Chukwa,Netflix Suro,Apache Samza,Cloudera Morphline,HIHO 等套件就不一一介紹了,大家可以下去了解這些數(shù)據(jù)采集套件相關(guān)內(nèi)容。

    ?

    2.6 編程服務(wù)中間件

      2.6.1 Apache Thrift

      Thrift 是一個(gè)軟件框架,用來進(jìn)行可擴(kuò)展且跨語言的服務(wù)開發(fā)。它結(jié)合了功能強(qiáng)大的軟件堆棧和代碼生成引擎,用以構(gòu)建在 C++,Java,Python,Ruby 等編程語言上,進(jìn)行無縫,高效的銜接。其最初由 Facebook 開發(fā)用做系統(tǒng)內(nèi)各個(gè)語言之間的 RPC 通信,后 Facebook 貢獻(xiàn)給 Apache,目前成為 Apache 的頂級(jí)項(xiàng)目之一。

      相關(guān)鏈接地址,如下所示:

  • Apache Thrift
  • ?

      2.6.2 Apache Zookeeper

      Zookeeper 分布式服務(wù)框架是 Apache Hadoop 的一個(gè)子項(xiàng)目,它主要是用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,如:統(tǒng)一命名服務(wù),狀態(tài)同步服務(wù),集群管理,分布式應(yīng)用配置項(xiàng)的管理等。

      相關(guān)鏈接地址,如下所示:

  • Apache Zookeeper
  • Google Chubby
  • ?

      2.6.3 Apache Avro

      Apache Avro 是 Hadoop 中的一個(gè)子項(xiàng)目,也是 Apache 中的一個(gè)獨(dú)立的項(xiàng)目,Avro 是一個(gè)基于二進(jìn)制數(shù)據(jù)傳輸高性能的中間件。在 Hadoop 的其它項(xiàng)目中,例如 HBase,Hive 的 Client 端與服務(wù)端的數(shù)據(jù)傳輸也采用了這個(gè)工具。Avro 是一個(gè)數(shù)據(jù)序列化的系統(tǒng),它可以將數(shù)據(jù)結(jié)構(gòu)或?qū)ο筠D(zhuǎn)化成便于存儲(chǔ)或傳輸?shù)母袷健vro 設(shè)計(jì)之初就用來支持?jǐn)?shù)據(jù)密集型應(yīng)用,適合于遠(yuǎn)程或本地大規(guī)模數(shù)據(jù)的存儲(chǔ)和交換。擁有一下特點(diǎn):

    • 豐富的數(shù)據(jù)結(jié)構(gòu)類型
    • 快速可壓縮的二進(jìn)制數(shù)據(jù)形式,對(duì)數(shù)據(jù)二進(jìn)制序列化后可以節(jié)約數(shù)據(jù)存儲(chǔ)空間和網(wǎng)絡(luò)傳輸帶寬
    • 存儲(chǔ)持久數(shù)據(jù)的文件容器
    • 可以實(shí)現(xiàn)遠(yuǎn)程過程調(diào)用 RPC
    • 簡(jiǎn)單的動(dòng)態(tài)語言結(jié)合功能

      相關(guān)鏈接地址,如下所示:

  • Apache Avro
  •   另外,還有 Apache Curator,Twitter Elephant Bird,Linkedin Norbert 等工具,這里就不一一介紹了。

    ?

    ?

    2.7 調(diào)度系統(tǒng)

      2.7.1 Apache Oozie

      在 Hadoop 中執(zhí)行的任務(wù)有時(shí)候需要把多個(gè) MR 作業(yè)連接到一起,這樣才能達(dá)到目的。在 Hadoop 生態(tài)圈中,Oozie 可以把多個(gè) MR 作業(yè)組合到一個(gè)邏輯工作單元中,從而完成更大型的任務(wù)。Oozie 是一種 Java Web 應(yīng)用程序,它運(yùn)行在 Java Servlet 容器中(即:Tomcat)中,并使用數(shù)據(jù)庫(kù)來存儲(chǔ)一下內(nèi)容:

    • 工作流定義
    • 當(dāng)前運(yùn)行的工作流實(shí)例,包括實(shí)例的狀態(tài)和變量

      Oozie 工作流是放置在控制依賴 DAG 中的一組動(dòng)作(如 Hadoop 的 MR 作業(yè),Pig 作業(yè)等),其中指定了動(dòng)作執(zhí)行的順序。

      相關(guān)鏈接地址,如下所示:

  • Apache Oozie
  • Oozie On Github
  • ?

      2.7.2 Linkedin Azkaban

      Hadoop 工作流管理。提供友好的 Web UI 界面進(jìn)行批處理作業(yè)調(diào)度(定時(shí)或及時(shí))。

      相關(guān)鏈接地址,如下所示:

  • Azkaban Home
  • Azkaban On Github
  • ?

      2.7.3?Apache Falcon

      Apache Falcon 是一個(gè)面向 Hadoop 的,新的數(shù)據(jù)處理和管理平臺(tái),設(shè)計(jì)用于數(shù)據(jù)移動(dòng),數(shù)據(jù)管道協(xié)調(diào),生命周期管理和數(shù)據(jù)發(fā)現(xiàn)。它使用終端用戶可以快速的將他們的數(shù)據(jù)以及相關(guān)的處理和管理任務(wù)上載到 Hadoop 集群。在?Apache Falcon 中,基礎(chǔ)設(shè)施端點(diǎn),數(shù)據(jù)集,處理規(guī)則均是聲明式的。這種聲明式配置顯式定義了實(shí)體之間的依賴關(guān)系。這也是該平臺(tái)的一個(gè)特點(diǎn),它本身只維護(hù)依賴關(guān)系,而并不做任何繁重的工作,所有的功能和工作流狀態(tài)管理需求都委托給工作流調(diào)度程序來完成。

      相關(guān)鏈接地址,如下所示:

  • Apache Falcon
  • ?

    2.8 系統(tǒng)部署

      2.8.1 Apache Ambari

      用于創(chuàng)建,管理,監(jiān)控 Hadoop 集群的工具,可以很方便的安裝,調(diào)試 Hadoop 集群,支持的平臺(tái)組件也是越來越多,如 Spark,Storm 等計(jì)算模型,以及資源調(diào)度平臺(tái) YARN 等,都能通過 Ambari 輕松部署管理。

      相關(guān)鏈接地址,如下所示:

  • Apache Ambari
  • ?

      2.8.2 CDH

      Cloudera 公司的產(chǎn)品,類似于 Ambari 產(chǎn)品,用于創(chuàng)建,管理,監(jiān)控 Hadoop 集群。

      相關(guān)鏈接地址,如下所示:

  • CDH
  • ?

    ?

    2.9 可視化

      2.9.1 Apache Zeppelin

      你可以制作出漂亮的數(shù)據(jù),使用 SQL,Scala 或者其它。它擁有以下特性:

    • 數(shù)據(jù)收集
    • 數(shù)據(jù)發(fā)掘
    • 數(shù)據(jù)分析
    • 數(shù)據(jù)可視化和集成

      目前支持的中間件有:Spark,md,sh,Hive,Tajo,Flink,Cassandra,Phoenix,Kylin 等

      相關(guān)鏈接地址,如下所示:

  • Apache Zeppelin
  • ?

    ?

    3.總結(jié)

      Hadoop 生態(tài)圈是非常龐大的,上述列舉的只是其生態(tài)圈中常用的一部分,下圖給大家展示了本篇博客相關(guān)內(nèi)容的關(guān)聯(lián)圖,如下圖所示:

    ?

    ?

    ?

    ?

    4.結(jié)束語

      這篇博客就和大家分享到這里,如果大家在研究學(xué)習(xí)的過程當(dāng)中有什么問題,可以加群進(jìn)行討論或發(fā)送郵件給我,我會(huì)盡我所能為您解答,與君共勉!

    ?

    ?

    ?

    歡迎大家,加入我的微信公眾號(hào):大數(shù)據(jù)躺過的坑 ? ? 免費(fèi)給分享 ?

    同時(shí),大家可以關(guān)注我的個(gè)人博客

    ???http://www.cnblogs.com/zlslch/?? 和 ?http://www.cnblogs.com/lchzls/?

    ?

      人生苦短,我愿分享。本公眾號(hào)將秉持活到老學(xué)到老學(xué)習(xí)無休止的交流分享開源精神,匯聚于互聯(lián)網(wǎng)和個(gè)人學(xué)習(xí)工作的精華干貨知識(shí),一切來于互聯(lián)網(wǎng),反饋回互聯(lián)網(wǎng)。
      目前研究領(lǐng)域:大數(shù)據(jù)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、人工智能、數(shù)據(jù)挖掘、數(shù)據(jù)分析。 語言涉及:Java、Scala、Python、Shell、Linux等 。同時(shí)還涉及平常所使用的手機(jī)、電腦和互聯(lián)網(wǎng)上的使用技巧、問題和實(shí)用軟件。 只要你一直關(guān)注和呆在群里,每天必須有收獲

    ?

    ? ? ? ?以及對(duì)應(yīng)本平臺(tái)的QQ群:161156071(大數(shù)據(jù)躺過的坑)

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    ?

    轉(zhuǎn)載于:https://www.cnblogs.com/zlslch/p/7610241.html

    總結(jié)

    以上是生活随笔為你收集整理的大数据入门基础系列之初步认识大数据生态系统圈(博主推荐)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。