004-hadoop家族概述
生活随笔
收集整理的這篇文章主要介紹了
004-hadoop家族概述
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
hadoop家族
| 名稱 | 簡介 | ? |
| Hadoop | 分布式基礎架構 | Hadoop的框架最核心的設計就是:HDFS和MapReduce。 HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算 |
| zookeeper | 分布式應用程序協調服務 | ZooKeeper是一個分布式的,開放源碼的分布式應用程序協調服務, 是Google的Chubby一個開源的實現,是Hadoop和Hbase的重要組件。 它是一個為分布式應用提供一致性服務的軟件,提供的功能包括:配置維護、域名服務、分布式同步、組服務等 |
| hive | 數據倉庫工具 | hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表, 并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 |
| hbase | 分布式的、面向列的開源數據庫 | HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統, 利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群 |
| Pig | 基于Hadoop的大規模數據分析平臺 | 它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數據分析請求轉換為一系列經過優化 處理的MapReduce運算。Pig為復雜的海量數據并行計算提供了一個簡單的操作和編程接口。 |
| sqoop | 數據相互轉移的工具 | Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫 (例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中 |
| Cassandra | 開源分布式數據庫管理系統 | Apache Cassandra是一套開源分布式數據庫管理系統,由Facebook開發,用于儲存特別大的數據。 |
| Hama | 純BSP計算框架 | Apache Hama是一個純BSP(Bulk Synchronous Parallel)計算框架,模仿了Google的Pregel。 用來處理大規模的科學計算,特別是矩陣和圖計算。 |
| Flume | 日志收集處理系統 | Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統, Flume支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理, 并寫到各種數據接受方(可定制)的能力。 |
| Giraph | 迭代式圖處理系統 | ? |
| Oozie | 工作流引擎服務器 | 用于運行Hadoop Map/Reduce和Pig 任務工作流.同時Oozie還是一個Java Web程序,運行在Java Servlet容器中,如Tomcat. |
| Crunch | ? | Apache Crunch是FlumeJava的實現,為不太方便直接開發和使用的MapReduce程序, 開發一套MR流水線,具備數據表示模型,提供基礎原語和高級原語,根據底層執行引擎對MR Job的執行進行優化。 |
| Mahout | ? | Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現, 旨在幫助開發人員更加方便快捷地創建智能應用程序。Mahout包含許多實現,包括聚類、分類、推薦過濾、頻繁子項挖掘。 此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地擴展到云中。 |
| Avro | 基于二進制數據傳輸高性能的中間件 | 在Hadoop的其他項目中例如HBase(Ref)和Hive(Ref)的Client端與服務端的數據傳輸也采用了這個工具。 Avro是一個數據序列化的系統。Avro 可以將數據結構或對象轉化成便于存儲或傳輸的格式。 Avro設計之初就用來支持數據密集型應用,適合于遠程或本地大規模數據的存儲和交換。 |
| Chukwa | 監控大型分布式系統的數據收集系統 | 這是構建在 hadoop 的 hdfs 和 map/reduce 框架之上的,繼承了 hadoop 的可伸縮性和魯棒性。 Chukwa 還包含了一個強大和靈活的工具集,可用于展示、監控和分析已收集的數據。 |
| Ambari | 基于Web的工具 | 是一種基于Web的工具,支持Apache Hadoop集群的供應、管理和監控。 Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。 也是5個頂級hadoop管理工具之一。 |
| Whirr | ? | ? |
| bigtop | ? | Bigtop是去年apache基金會推出的一個對Hadoop及其周邊生態進行打包,分發和測試的工具。 |
| HCatalog | ? | Hcatalog是apache開源的對于表和底層數據管理統一服務平臺 |
| Hue | 開源的Apache Hadoop UI系統 | ? |
?
總結
以上是生活随笔為你收集整理的004-hadoop家族概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一分钟学会Git操作流程
- 下一篇: ceph常用命令-pool相关命令