假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?(大数据的组件动漫化)
文章目錄
- 假如大數(shù)據(jù)組件中的動物都變成神奇寶貝,那會變成什么樣?
- 第一個神奇寶貝 Hadoop
- 第二個神奇寶貝 Hive
- 第三個神奇寶貝 Hbase
- 第四個神奇寶貝的管理員 Zookeeper
- 第五個昆蟲 Kafka
- 第六個灌木 Flume
- 第七個神奇寶貝 Impala
- 第八個怪蜀黍 哈利波特與Azkaban
- 第九個神奇寶貝Sqoop
- 第十個神奇寶貝Hue
- 第十一個神奇寶貝 Spark
- 第十二個神奇寶貝 Flink
- 第十三個神奇寶貝 Kudu
- 第十四個神奇寶貝 SurperSet
- 第十五個神奇寶貝 Mysql Oracle
假如大數(shù)據(jù)組件中的動物都變成神奇寶貝,那會變成什么樣?
第一個神奇寶貝 Hadoop
Hadoop
Hadoop 是采用了 Map Reduce 的一種分布式的計(jì)算框架,它是根據(jù) GFS去開發(fā)了 HDFS 分布式文件系統(tǒng),還有根據(jù) Big
Table 開發(fā)了 HBase數(shù)據(jù)存儲系統(tǒng)??梢粤私獾降氖?#xff0c;Hadoop 的開源特性成為了分布式計(jì)算系統(tǒng)事實(shí)上的國際標(biāo)準(zhǔn)。
Hadoop又分為兩個模塊,分別是HDFS和MapReduce
HDFS
它是由Google File System而來,全稱是Hadoop Distributed File
System,是Hadoop的分布式文件系統(tǒng),有許多機(jī)器組成的,可以存儲大型數(shù)據(jù)文件。
它是由NameNode和DataNode組成,NameNode可以配置成HA(高可用),避免單點(diǎn)故障。一般用Zookeeper來處理。兩個NameNode是同步的。
MapReduce
主要由Google Reduce而來,它簡化了大型數(shù)據(jù)的處理,是一個并行的,分布式處理的編程模型。
hadoop2.0它是基于YARN框架構(gòu)建的。YARN的全稱是Yet-Another-Resource-Negotiator。Yarn可以運(yùn)用在S3|Spark等上。
第二個神奇寶貝 Hive
Hive
它是Hadoop的數(shù)據(jù)倉庫(DW),它可以用類似SQL的語言HSQL來操作數(shù)據(jù),很是方便,主要用來聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing),進(jìn)行數(shù)據(jù)匯總|查詢|分析。
第三個神奇寶貝 Hbase
第四個神奇寶貝的管理員 Zookeeper
Zookeeper
它是一個分布式服務(wù)框架,是Apache Hadoop 的一個子項(xiàng)目,它主要是用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,如:統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。
上面的解釋有點(diǎn)抽象,簡單來說zookeeper=文件系統(tǒng)+監(jiān)聽通知機(jī)制。
第五個昆蟲 Kafka
Kafka是由Apache軟件基金會開發(fā)的一個開源流處理平臺,由Scala和Java編寫。Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費(fèi)者在網(wǎng)站中的所有動作流數(shù)據(jù)。 這種動作(網(wǎng)頁瀏覽,搜索和其他用戶的行動)是在現(xiàn)代網(wǎng)絡(luò)上的許多社會功能的一個關(guān)鍵因素。 這些數(shù)據(jù)通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。 對于像Hadoop一樣的日志數(shù)據(jù)和離線分析系統(tǒng),但又要求實(shí)時處理的限制,這是一個可行的解決方案。
第六個灌木 Flume
apache Flume 是一個從可以收集例如日志,事件等數(shù)據(jù)資源,并將這些數(shù)量龐大的數(shù)據(jù)從各項(xiàng)數(shù)據(jù)資源中集中起來存儲的工具/服務(wù),或者數(shù)集中機(jī)制。flume具有高可用,分布式,配置工具,其設(shè)計(jì)的原理也是基于將數(shù)據(jù)流,如日志數(shù)據(jù)從各種網(wǎng)站服務(wù)器上匯集起來存儲到HDFS,HBase等集中存儲器中。
第七個神奇寶貝 Impala
Impala是Cloudera公司主導(dǎo)開發(fā)的新型查詢系統(tǒng),它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)。已有的Hive系統(tǒng)雖然也提供了SQL語義,但由于Hive底層執(zhí)行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的交互性。相比之下,Impala的最大特點(diǎn)也是最大賣點(diǎn)就是它的快速。
第八個怪蜀黍 哈利波特與Azkaban
Azkaban是一套簡單的任務(wù)調(diào)度服務(wù),整體包括三部分webserver、dbserver、executorserver。
是linkin的開源項(xiàng)目,開發(fā)語言為Java。
Azkaban是由Linkedin開源的一個批量工作流任務(wù)調(diào)度器。用于在一個工作流內(nèi)以一個特定的順序運(yùn)行一組工作和流程。
Azkaban定義了一種KV文件格式來建立任務(wù)之間的依賴關(guān)系,并提供一個易于使用的web用戶界面維護(hù)和跟蹤你的工作流。
第九個神奇寶貝Sqoop
Sqoop(發(fā)音:skup)是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、postgresql…)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。
第十個神奇寶貝Hue
HUE(Hadoop User Experience)是一個與Hadoop生態(tài)系統(tǒng)緊密結(jié)合的Web UI應(yīng)用程序,可以通過Hue來查看管理HDFS上的文件、通過Hue從界面編寫sql語句對Hive進(jìn)行查詢,并使用圖表直觀的展示查詢結(jié)果、可以與Oozie集成,用于創(chuàng)建和監(jiān)控工作流程等等。
第十一個神奇寶貝 Spark
Apache Spark是一個開源集群運(yùn)算框架,相對于Hadoop的MapReduce會在運(yùn)行完工作后將中介數(shù)據(jù)存放到磁盤中,Spark使用了存儲器內(nèi)運(yùn)算技術(shù),能在數(shù)據(jù)尚未寫入硬盤時即在存儲器內(nèi)分析運(yùn)算
第十二個神奇寶貝 Flink
Apache Flink是由Apache軟件基金會開發(fā)的開源流處理框架,其核心是用Java和Scala編寫的分布式流數(shù)據(jù)流引擎。Flink以數(shù)據(jù)并行和流水線方式執(zhí)行任意流數(shù)據(jù)程序,Flink的流水線運(yùn)行時系統(tǒng)可以執(zhí)行批處理和流處理程序。此外,Flink的運(yùn)行時本身也支持迭代算法的執(zhí)行。
第十三個神奇寶貝 Kudu
第十四個神奇寶貝 SurperSet
第十五個神奇寶貝 Mysql Oracle
總結(jié)
以上是生活随笔為你收集整理的假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?(大数据的组件动漫化)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安信证券资管清算重要业务在原生分布式数据
- 下一篇: 阿里云ECS之下载与安装SSH(二)