假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?(大数据的组件动漫化)
文章目錄
- 假如大數據組件中的動物都變成神奇寶貝,那會變成什么樣?
- 第一個神奇寶貝 Hadoop
- 第二個神奇寶貝 Hive
- 第三個神奇寶貝 Hbase
- 第四個神奇寶貝的管理員 Zookeeper
- 第五個昆蟲 Kafka
- 第六個灌木 Flume
- 第七個神奇寶貝 Impala
- 第八個怪蜀黍 哈利波特與Azkaban
- 第九個神奇寶貝Sqoop
- 第十個神奇寶貝Hue
- 第十一個神奇寶貝 Spark
- 第十二個神奇寶貝 Flink
- 第十三個神奇寶貝 Kudu
- 第十四個神奇寶貝 SurperSet
- 第十五個神奇寶貝 Mysql Oracle
假如大數據組件中的動物都變成神奇寶貝,那會變成什么樣?
第一個神奇寶貝 Hadoop
Hadoop
Hadoop 是采用了 Map Reduce 的一種分布式的計算框架,它是根據 GFS去開發了 HDFS 分布式文件系統,還有根據 Big
Table 開發了 HBase數據存儲系統。可以了解到的是,Hadoop 的開源特性成為了分布式計算系統事實上的國際標準。
Hadoop又分為兩個模塊,分別是HDFS和MapReduce
HDFS
它是由Google File System而來,全稱是Hadoop Distributed File
System,是Hadoop的分布式文件系統,有許多機器組成的,可以存儲大型數據文件。
它是由NameNode和DataNode組成,NameNode可以配置成HA(高可用),避免單點故障。一般用Zookeeper來處理。兩個NameNode是同步的。
MapReduce
主要由Google Reduce而來,它簡化了大型數據的處理,是一個并行的,分布式處理的編程模型。
hadoop2.0它是基于YARN框架構建的。YARN的全稱是Yet-Another-Resource-Negotiator。Yarn可以運用在S3|Spark等上。
第二個神奇寶貝 Hive
Hive
它是Hadoop的數據倉庫(DW),它可以用類似SQL的語言HSQL來操作數據,很是方便,主要用來聯機分析處理OLAP(On-Line Analytical Processing),進行數據匯總|查詢|分析。
第三個神奇寶貝 Hbase
第四個神奇寶貝的管理員 Zookeeper
Zookeeper
它是一個分布式服務框架,是Apache Hadoop 的一個子項目,它主要是用來解決分布式應用中經常遇到的一些數據管理問題,如:統一命名服務、狀態同步服務、集群管理、分布式應用配置項的管理等。
上面的解釋有點抽象,簡單來說zookeeper=文件系統+監聽通知機制。
第五個昆蟲 Kafka
Kafka是由Apache軟件基金會開發的一個開源流處理平臺,由Scala和Java編寫。Kafka是一種高吞吐量的分布式發布訂閱消息系統,它可以處理消費者在網站中的所有動作流數據。 這種動作(網頁瀏覽,搜索和其他用戶的行動)是在現代網絡上的許多社會功能的一個關鍵因素。 這些數據通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。 對于像Hadoop一樣的日志數據和離線分析系統,但又要求實時處理的限制,這是一個可行的解決方案。
第六個灌木 Flume
apache Flume 是一個從可以收集例如日志,事件等數據資源,并將這些數量龐大的數據從各項數據資源中集中起來存儲的工具/服務,或者數集中機制。flume具有高可用,分布式,配置工具,其設計的原理也是基于將數據流,如日志數據從各種網站服務器上匯集起來存儲到HDFS,HBase等集中存儲器中。
第七個神奇寶貝 Impala
Impala是Cloudera公司主導開發的新型查詢系統,它提供SQL語義,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數據。已有的Hive系統雖然也提供了SQL語義,但由于Hive底層執行使用的是MapReduce引擎,仍然是一個批處理過程,難以滿足查詢的交互性。相比之下,Impala的最大特點也是最大賣點就是它的快速。
第八個怪蜀黍 哈利波特與Azkaban
Azkaban是一套簡單的任務調度服務,整體包括三部分webserver、dbserver、executorserver。
是linkin的開源項目,開發語言為Java。
Azkaban是由Linkedin開源的一個批量工作流任務調度器。用于在一個工作流內以一個特定的順序運行一組工作和流程。
Azkaban定義了一種KV文件格式來建立任務之間的依賴關系,并提供一個易于使用的web用戶界面維護和跟蹤你的工作流。
第九個神奇寶貝Sqoop
Sqoop(發音:skup)是一款開源的工具,主要用于在Hadoop(Hive)與傳統的數據庫(mysql、postgresql…)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。
第十個神奇寶貝Hue
HUE(Hadoop User Experience)是一個與Hadoop生態系統緊密結合的Web UI應用程序,可以通過Hue來查看管理HDFS上的文件、通過Hue從界面編寫sql語句對Hive進行查詢,并使用圖表直觀的展示查詢結果、可以與Oozie集成,用于創建和監控工作流程等等。
第十一個神奇寶貝 Spark
Apache Spark是一個開源集群運算框架,相對于Hadoop的MapReduce會在運行完工作后將中介數據存放到磁盤中,Spark使用了存儲器內運算技術,能在數據尚未寫入硬盤時即在存儲器內分析運算
第十二個神奇寶貝 Flink
Apache Flink是由Apache軟件基金會開發的開源流處理框架,其核心是用Java和Scala編寫的分布式流數據流引擎。Flink以數據并行和流水線方式執行任意流數據程序,Flink的流水線運行時系統可以執行批處理和流處理程序。此外,Flink的運行時本身也支持迭代算法的執行。
第十三個神奇寶貝 Kudu
第十四個神奇寶貝 SurperSet
第十五個神奇寶貝 Mysql Oracle
總結
以上是生活随笔為你收集整理的假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?(大数据的组件动漫化)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安信证券资管清算重要业务在原生分布式数据
- 下一篇: 阿里云ECS之下载与安装SSH(二)