當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hadoop简单介绍_Hadoop：简单介绍

發布時間：2023/12/3 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 hadoop简单介绍_Hadoop：简单介绍小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

hadoop簡單介紹

什么是Hadoop：
Hadoop是用Java編寫的框架，用于在大型商品硬件群集上運行應用程序，并具有類似于Google File System和MapReduce的功能。 HDFS是一個高度容錯的分布式文件系統，與Hadoop一樣，旨在部署在低成本硬件上。它提供對應用程序數據的高吞吐量訪問，并且適用于具有大數據集的應用程序。 誰使用Hadoop：

Hadoop主要由處理大量數據的公司使用。他們可能需要處理數據 ， 執行分析或生成報告 。當前，所有領先的組織，包括Facebook，Yahoo，Amazon，IBM，Joost，PowerSet，New York Times，Veoh等，都在使用Hadoop。有關更多信息，請查看PoweredBy Hadoop頁面。

為什么選擇Hadoop：

MapReduce是Google的秘密武器：一種將復雜問題分解并分散到多臺計算機上的方法。 Hadoop是MapReduce及其自己的文件系統HDFS（Hadoop分布式文件系統）的開源實現。

Hadoop在某種程度上擊敗了超級計算機：

Hadoop集群在209秒內對1 TB的數據進行了排序，在年度通用（daytona）TB級的基準測試中打破了之前297秒的記錄。排序基準是由Jim Gray在1998年創建的，它指定了輸入數據（100億條100字節記錄），這些數據必須完全排序并寫入磁盤。這是Java或開源程序第一次獲勝。有關更多信息，請單擊此處。

歐洲最大的廣告定位平臺使用Hadoop：

歐洲最大的廣告公司每天獲取超過100GB的數據，現在使用RDBMS之類的經典解決方案，他們需要5天的時間進行分析并生成報告。因此他們落后1個弱點。經過大量研究，他們開始使用hadoop。現在有趣的事實是“ Tey能夠在1小時內處理數據并生成報告”，這就是Hadoop的魅力所在。有關更多信息，請單擊此處。

Hadoop的主要發行版：

1. Apache Hadoop：

Apache Hadoop項目開發了用于可靠，可擴展的分布式計算的開源軟件。

Apache Hadoop提供：

Hadoop Common ：支持其他Hadoop子項目的通用實用程序。
HDFS ：一種分布式文件系統，可提供對應用程序數據的高吞吐量訪問。
MapReduce ：一種用于在計算集群上對大型數據集進行分布式處理的軟件框架。

Avro ：數據序列化系統。
Chukwa ：用于管理大型分布式系統的數據收集系統。
HBase ：一個可擴展的分布式數據庫，支持大型表的結構化數據存儲。
Hive ：一種數據倉庫基礎結構，可提供數據匯總和即席查詢。
Mahout ：可擴展的機器學習和數據挖掘庫。
Pig ：用于并行計算的高級數據流語言和執行框架。
ZooKeeper ：針對分布式應用程序的高性能協調服務。

2. Cloudera Hadoop：

Cloudera的Apache Hadoop發行版（CDH）為基于Hadoop的數據管理平臺設定了新標準。它是當今最全面的平臺，可顯著加快組織中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新穩定版本。它包括一些從將來版本中移植回來的有用補丁，以及我們為客戶開發的改進

Cloudera Hadoop提供：

HDFS –自愈式分布式文件系統
MapReduce –強大的并行數據處理框架
Hadoop Common –一組支持Hadoop子項目的實用程序
HBase – Hadoop數據庫，用于隨機讀寫訪問
Hive –大型數據集上類似SQL的查詢和表
Pig –數據流語言和編譯器
Oozie –相互依賴的Hadoop作業的工作流程
Sqoop –將數據庫和數據倉庫與Hadoop集成
Flume –高度可靠，可配置的流數據收集
Zookeeper –分布式應用程序的協調服務
Hue –用于可視Hadoop應用程序的用戶界面框架和SDK

Hadoop體系結構： Hadoop分布式文件系統（HDFS）是一種旨在在商品硬件上運行的分布式文件系統。它與現有的分布式文件系統有許多相似之處。但是，與其他分布式文件系統的區別很明顯。 HDFS具有高度的容錯能力，旨在部署在低成本硬件上。 HDFS提供對應用程序數據的高吞吐量訪問，并且適用于具有大數據集的應用程序。 HDFS放寬了一些POSIX要求，以實現對文件系統數據的流式訪問。 名稱節點： NameNode管理名稱空間，文件系統元數據和訪問控制。每個群集中只有一個NameNode。我們可以說NameNode是主節點，數據節點是從節點。它包含有關數據（即元數據）的所有信息 數據節點： DataNode保存實際的文件系統數據。每個數據節點管理其自己的本地連接的存儲（即節點的硬盤），并在文件系統中存儲一些或所有塊的副本。每個群集中有一個或多個DataNode。 安裝/部署Hadoop：
Hadoop可以三種方式安裝 1.獨立模式：
要以獨立模式部署Hadoop，我們只需要設置JAVA_HOME的路徑即可。在這種模式下，不需要啟動守護程序，也不需要名稱節點格式，因為數據保存在本地磁盤中。 2.偽分布式模式：
在這種模式下，所有守護程序（nameNode，dataNode，secondaryNameNode，jobTracker，taskTracker）都在一臺機器上運行。

在此模式下，守護程序（nameNode，jobTracker，secondaryNameNode（可選））在主服務器（NameNode）上運行，守護程序（dataNode和taskTracker）在從屬服務器（DataNode）上運行。 請繼續關注有關三種Hadoop模式/配置的文章。

相關文章：

MapReduce：簡單介紹
Cajo，用Java完成分布式計算的最簡單方法
Hibernate映射集合性能問題
Java Code Geeks Andygene Web原型
Servlet 3.0異步處理可將服務器吞吐量提高十倍

參考：通過高性能計算博客上的 JCG合作伙伴了解什么是Hadoop 。

翻譯自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html

hadoop簡單介紹

總結

以上是生活随笔為你收集整理的hadoop简单介绍_Hadoop：简单介绍的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SonarQube中的Maven项目的单
下一篇：春天：注入列表，地图，可选对象和getB

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

hadoop简单介绍_Hadoop：简单介绍

總結