當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop：简单介绍

發(fā)布時間：2023/12/3 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop：简单介绍小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

什么是Hadoop：
Hadoop是一種用Java編寫的框架，用于在大型商品硬件集群上運行應(yīng)用程序，并具有類似于Google File System和MapReduce的功能。 HDFS是高度容錯的分布式文件系統(tǒng)，與Hadoop一樣，旨在部署在低成本硬件上。它提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問，并且適用于具有大數(shù)據(jù)集的應(yīng)用程序。 誰使用Hadoop：

Hadoop主要由處理大量數(shù)據(jù)的公司使用。他們可能需要處理數(shù)據(jù) ， 執(zhí)行分析或生成報告 。當(dāng)前，所有領(lǐng)先的組織，包括Facebook，Yahoo，Amazon，IBM，Joost，PowerSet，New York Times，Veoh等，都在使用Hadoop。有關(guān)更多信息，請查看PoweredBy Hadoop頁面。

為什么選擇Hadoop：

MapReduce是Google的秘密武器：一種將復(fù)雜的問題分解并散布到許多計算機上的方法。 Hadoop是MapReduce及其自己的文件系統(tǒng)HDFS（Hadoop分布式文件系統(tǒng)）的開源實現(xiàn)。

Hadoop在某種程度上擊敗了超級計算機：

Hadoop集群在209秒內(nèi)對1 TB的數(shù)據(jù)進行了排序，在年度通用（daytona）TB的基準(zhǔn)測試中打破了之前297秒的記錄。排序基準(zhǔn)由Jim Gray于1998年創(chuàng)建，它指定了輸入數(shù)據(jù)（100億條100字節(jié)記錄），這些數(shù)據(jù)必須完全排序并寫入磁盤。這是Java或開放源代碼程序的首次獲獎。有關(guān)更多信息，請單擊此處。

歐洲最大的廣告定位平臺使用Hadoop：

歐洲最大的廣告公司每天可獲得超過100GB的數(shù)據(jù)，現(xiàn)在使用RDBMS等經(jīng)典解決方案需要5天的時間進行分析并生成報告。因此他們落后1個弱點。經(jīng)過大量研究，他們開始使用hadoop。現(xiàn)在有趣的事實是“ Tey能夠在1小時內(nèi)處理數(shù)據(jù)并生成報告”，這就是Hadoop的魅力所在。有關(guān)更多信息，請單擊此處。

Hadoop的主要發(fā)行版：

1. Apache Hadoop：

Apache Hadoop項目開發(fā)了用于可靠，可擴展的分布式計算的開源軟件。

Apache Hadoop提供：

Hadoop Common ：支持其他Hadoop子項目的通用實用程序。
HDFS ：一種分布式文件系統(tǒng)，可提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問。
MapReduce ：一個用于在計算集群上對大型數(shù)據(jù)集進行分布式處理的軟件框架。

Avro ：數(shù)據(jù)序列化系統(tǒng)。
Chukwa ：用于管理大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。
HBase ：可擴展的分布式數(shù)據(jù)庫，支持大型表的結(jié)構(gòu)化數(shù)據(jù)存儲。
Hive ：一種數(shù)據(jù)倉庫基礎(chǔ)結(jié)構(gòu)，可提供數(shù)據(jù)匯總和即席查詢。
Mahout ：可擴展的機器學(xué)習(xí)和數(shù)據(jù)挖掘庫。
Pig ：用于并行計算的高級數(shù)據(jù)流語言和執(zhí)行框架。
ZooKeeper ：針對分布式應(yīng)用程序的高性能協(xié)調(diào)服務(wù)。

2. Cloudera Hadoop：

Cloudera的Apache Hadoop發(fā)行版（CDH）為基于Hadoop的數(shù)據(jù)管理平臺設(shè)定了新標(biāo)準(zhǔn)。它是當(dāng)今可用的最全面的平臺，可顯著加速組織中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新穩(wěn)定版本。它包括一些從將來發(fā)行版反向移植的有用補丁，以及我們?yōu)榭蛻糸_發(fā)的改進

Cloudera Hadoop提供：

HDFS –自愈式分布式文件系統(tǒng)
MapReduce –強大的并行數(shù)據(jù)處理框架
Hadoop Common –一組支持Hadoop子項目的實用程序
HBase – Hadoop數(shù)據(jù)庫，用于隨機讀寫訪問
Hive –大型數(shù)據(jù)集上類似SQL的查詢和表
Pig –數(shù)據(jù)流語言和編譯器
Oozie –相互依賴的Hadoop作業(yè)的工作流程
Sqoop –將數(shù)據(jù)庫和數(shù)據(jù)倉庫與Hadoop集成
Flume –高度可靠，可配置的流數(shù)據(jù)收集
Zookeeper –分布式應(yīng)用程序的協(xié)調(diào)服務(wù)
Hue –用于可視Hadoop應(yīng)用程序的用戶界面框架和SDK

Hadoop體系結(jié)構(gòu)： Hadoop分布式文件系統(tǒng)（HDFS）是一種旨在在商品硬件上運行的分布式文件系統(tǒng)。它與現(xiàn)有的分布式文件系統(tǒng)有許多相似之處。但是，與其他分布式文件系統(tǒng)的區(qū)別很明顯。 HDFS具有高度的容錯能力，旨在部署在低成本硬件上。 HDFS提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問，并且適用于具有大數(shù)據(jù)集的應(yīng)用程序。 HDFS放寬了一些POSIX要求，以實現(xiàn)對文件系統(tǒng)數(shù)據(jù)的流式訪問。 名稱節(jié)點： NameNode管理名稱空間，文件系統(tǒng)元數(shù)據(jù)和訪問控制。每個群集中只有一個NameNode。我們可以說NameNode是主節(jié)點，數(shù)據(jù)節(jié)點是從節(jié)點。它包含有關(guān)數(shù)據(jù)（即元數(shù)據(jù)）的所有信息 數(shù)據(jù)節(jié)點： DataNode保存實際的文件系統(tǒng)數(shù)據(jù)。每個數(shù)據(jù)節(jié)點管理其自己的本地連接的存儲（即節(jié)點的硬盤），并在文件系統(tǒng)中存儲一些或所有塊的副本。每個群集中有一個或多個DataNode。 安裝/部署Hadoop：
Hadoop可以三種方式安裝 1.獨立模式：
要以獨立模式部署Hadoop，我們只需要設(shè)置JAVA_HOME的路徑即可。在這種模式下，不需要啟動守護程序，也不需要名稱節(jié)點格式，因為數(shù)據(jù)保存在本地磁盤中。 2.偽分布式模式：
在這種模式下，所有守護程序（nameNode，dataNode，secondaryNameNode，jobTracker，taskTracker）都在一臺機器上運行。

在此模式下，守護程序（nameNode，jobTracker，secondaryNameNode（可選））在主服務(wù)器（NameNode）上運行，守護程序（dataNode和taskTracker）在從屬服務(wù)器（DataNode）上運行。 請繼續(xù)關(guān)注有關(guān)三種Hadoop模式/配置的文章。

相關(guān)文章：

MapReduce：簡單介紹
Cajo，用Java完成分布式計算的最簡單方法
Hibernate映射集合性能問題
Java Code Geeks Andygene Web原型
Servlet 3.0異步處理可將服務(wù)器吞吐量提高十倍

參考：通過高性能計算博客上的 JCG合作伙伴了解什么是Hadoop 。

翻譯自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html

總結(jié)

以上是生活随笔為你收集整理的Hadoop：简单介绍的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。