當(dāng)前位置：首頁(yè) > 运维知识 > windows >内容正文

windows

大数据生态系统的认识

發(fā)布時(shí)間：2024/1/18 windows 54 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据生态系统的认识小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

標(biāo)題大數(shù)據(jù)生態(tài)系統(tǒng)

加粗樣式一.認(rèn)識(shí)Hadoop
Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶(hù)可以在不了解分布式底層細(xì)節(jié)的情況下，開(kāi)發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)（Hadoop Distributed File System），其中一個(gè)組件是HDFS。HDFS有高容錯(cuò)性的特點(diǎn)，并且設(shè)計(jì)用來(lái)部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應(yīng)用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問(wèn)（streaming access）文件系統(tǒng)中的數(shù)據(jù)。Hadoop的框架最核心的設(shè)計(jì)就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)，而MapReduce則為海量的數(shù)據(jù)提供了計(jì)算。
Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成員組成如圖

Ambari（安裝部署工具）
Apache Ambari是一種基于Web的工具，支持Apache Hadoop集群的供應(yīng)、管理和監(jiān)控。Ambari已支持大多數(shù)Hadoop組件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。
Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是5個(gè)頂級(jí)hadoop管理工具之一
Ambari 跟 Hadoop 等開(kāi)源軟件一樣，也是 Apache Software Foundation 中的一個(gè)項(xiàng)目，并且是頂級(jí)項(xiàng)目。2018年11月為止最新的發(fā)布版本是 2.7.3。就 Ambari 的作用來(lái)說(shuō)，就是創(chuàng)建、管理、監(jiān)視 Hadoop 的集群，但是這里的 Hadoop 是廣義，指的是 Hadoop 整個(gè)生態(tài)圈（例如 Hive，Hbase，Sqoop，Zookeeper 等），而并不僅是特指 Hadoop。用一句話來(lái)說(shuō)，Ambari 就是為了讓 Hadoop 以及相關(guān)的大數(shù)據(jù)軟件更容易使用的一個(gè)工具。

YARN(資源調(diào)度管理框架)
Apache Hadoop YARN （Yet Another Resource Negotiator，另一種資源協(xié)調(diào)者）是一種新的 Hadoop 資源管理器，它是一個(gè)通用資源管理系統(tǒng)，可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度，它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來(lái)了巨大好處。

HDFS（分布式文件系統(tǒng)）
oop分布式文件系統(tǒng)(HDFS)是指被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)（Distributed File System）。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但同時(shí)，它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng)，適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問(wèn)，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSIX約束，來(lái)實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS在最開(kāi)始是作為Apache Nutch搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開(kāi)發(fā)的。HDFS是Apache Hadoop Core項(xiàng)目的一部分。
HDFS有著高容錯(cuò)性（fault-tolerant）的特點(diǎn)，并且設(shè)計(jì)用來(lái)部署在低廉的（low-cost）硬件上。而且它提供高吞吐量（high throughput）來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應(yīng)用程序。HDFS放寬了（relax）POSIX的要求（requirements）這樣可以實(shí)現(xiàn)流的形式訪問(wèn)（streaming access）文件系統(tǒng)中的數(shù)據(jù)。

Hbase （分布式數(shù)據(jù)庫(kù)）
HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù)，該技術(shù)來(lái)源于 Fay Chang 所撰寫(xiě)的Google論文“Bigtable：一個(gè)結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)系統(tǒng)”。就像Bigtable利用了Google文件系統(tǒng)（File System）所提供的分布式數(shù)據(jù)存儲(chǔ)一樣，HBase在Hadoop之上提供了類(lèi)似于Bigtable的能力。HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù)，它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。另一個(gè)不同的是HBase基于列的而不是基于行的模式。

Zookeeper（分布式協(xié)調(diào)服務(wù)）
ZooKeeper是一個(gè)分布式的，開(kāi)放源碼的分布式應(yīng)用程序協(xié)調(diào)服務(wù)，是Google的Chubby一個(gè)開(kāi)源的實(shí)現(xiàn)，是Hadoop和Hbase的重要組件。它是一個(gè)為分布式應(yīng)用提供一致性服務(wù)的軟件，提供的功能包括：配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等。
ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù)，將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶(hù)。
ZooKeeper包含一個(gè)簡(jiǎn)單的原語(yǔ)集，提供Java和C的接口。
ZooKeeper代碼版本中，提供了分布式獨(dú)享鎖、選舉、隊(duì)列的接口，代碼在$zookeeper_home\src\recipes。其中分布鎖和隊(duì)列有Java和C兩個(gè)版本，選舉只有Java版本。

MapReduce（離線計(jì)算）
MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算。概念"Map（映射）“和"Reduce（歸約）”，是它們的主要思想，都是從函數(shù)式編程語(yǔ)言里借來(lái)的，還有從矢量編程語(yǔ)言里借來(lái)的特性。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下，將自己的程序運(yùn)行在分布式系統(tǒng)上。當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map（映射）函數(shù)，用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì)，指定并發(fā)的Reduce（歸約）函數(shù)，用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。

Tez （DAG計(jì)算）
Tez對(duì)外提供了6種可編程組件，分別是：
Input：對(duì)輸入數(shù)據(jù)源的抽象，它解析輸入數(shù)據(jù)格式，并吐出一個(gè)個(gè)Key/value
Output：對(duì)輸出數(shù)據(jù)源的抽象，它將用戶(hù)程序產(chǎn)生的Key/value寫(xiě)入文件系統(tǒng)
Paritioner：對(duì)數(shù)據(jù)進(jìn)行分片，類(lèi)似于MR中的Partitioner
Processor：對(duì)計(jì)算的抽象，它從一個(gè)Input中獲取數(shù)據(jù)，經(jīng)處理后，通過(guò)Output輸出
Task：對(duì)任務(wù)的抽象，每個(gè)Task由一個(gè)Input、Ouput和Processor組成
Maser：管理各個(gè)Task的依賴(lài)關(guān)系，并按順依賴(lài)關(guān)系執(zhí)行他們
除了以上6種組件，Tez還提供了兩種算子，分別是Sort（排序）和Shuffle（混洗），為了用戶(hù)使用方便，它還提供了多種Input、Output、Task和Sort的實(shí)現(xiàn)，具體如下：
Input實(shí)現(xiàn)：LocalMergedInput（文件本地合并后作為輸入），ShuffledMergedInput（遠(yuǎn)程拷貝數(shù)據(jù)且合并后作為輸入）
Output實(shí)現(xiàn)：InMemorySortedOutput（內(nèi)存排序后輸出），LocalOnFileSorterOutput（本地磁盤(pán)排序后輸出），OnFileSortedOutput（磁盤(pán)排序后輸出）
Task實(shí)現(xiàn)：RunTimeTask（非常簡(jiǎn)單的Task，基本沒(méi)做什么事）
Sort實(shí)現(xiàn)：DefaultSorter（本地?cái)?shù)據(jù)排序），InMemoryShuffleSorter（遠(yuǎn)程拷貝數(shù)據(jù)并排序）

Speak(內(nèi)存計(jì)算)
Apache Spark 是專(zhuān)為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎。Spark是UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開(kāi)源的類(lèi)Hadoop MapReduce的通用并行框架，Spark，擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)；但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫(xiě)HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。
Spark 是一種與 Hadoop 相似的開(kāi)源集群計(jì)算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越，換句話說(shuō)，Spark 啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢(xún)外，它還可以?xún)?yōu)化迭代工作負(fù)載。
Spark 是在 Scala 語(yǔ)言中實(shí)現(xiàn)的，它將 Scala 用作其應(yīng)用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對(duì)象一樣輕松地操作分布式數(shù)據(jù)集。
盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè)，但是實(shí)際上它是對(duì) Hadoop 的補(bǔ)充，可以在 Hadoop 文件系統(tǒng)中并行運(yùn)行。通過(guò)名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實(shí)驗(yàn)室 (Algorithms, Machines, and People Lab) 開(kāi)發(fā)，可用來(lái)構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。

Hive和 Hive2
hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載，這是一種可以存儲(chǔ)、查詢(xún)和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。hive數(shù)據(jù)倉(cāng)庫(kù)工具能將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表，并提供SQL查詢(xún)功能，能將SQL語(yǔ)句轉(zhuǎn)變成MapReduce任務(wù)來(lái)執(zhí)行。Hive的優(yōu)點(diǎn)是學(xué)習(xí)成本低，可以通過(guò)類(lèi)似SQL語(yǔ)句實(shí)現(xiàn)快速M(fèi)apReduce統(tǒng)計(jì)，使MapReduce變得更加簡(jiǎn)單，而不必開(kāi)發(fā)專(zhuān)門(mén)的MapReduce應(yīng)用程序。hive十分適合對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行統(tǒng)計(jì)分析。

pig pig2
Pig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái)，它提供的SQL-LIKE語(yǔ)言叫Pig Latin，該語(yǔ)言的編譯器會(huì)把類(lèi)SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過(guò)優(yōu)化處理的MapReduce運(yùn)算。Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡(jiǎn)單的操作和編程接口。

shark
Shark 是一個(gè)大型的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)為 Spark 的設(shè)計(jì)與 Apache Hive 兼容。它處理 Hive QL 的性能比 Apache Hive 快 30 倍。支持 Hive 查詢(xún)語(yǔ)言、元存儲(chǔ)、序列化格式和用戶(hù)自定義函數(shù)。
以上11項(xiàng)組成了 Hadoop
而Hadoop 又組成了大數(shù)據(jù)生態(tài)系統(tǒng)

總結(jié)

以上是生活随笔為你收集整理的大数据生态系统的认识的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： HTML页面，图片img在容器DIV中，
下一篇：生态系统服务（InVEST模型应用）