日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop:简单介绍

發(fā)布時間:2023/12/3 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop:简单介绍 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
什么是Hadoop:
Hadoop是一種用Java編寫的框架,用于在大型商品硬件集群上運行應(yīng)用程序,并具有類似于Google File System和MapReduce的功能 。 HDFS是高度容錯的分布式文件系統(tǒng),與Hadoop一樣,旨在部署在低成本硬件上。 它提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問,并且適用于具有大數(shù)據(jù)集的應(yīng)用程序。 誰使用Hadoop:

Hadoop主要由處理大量數(shù)據(jù)的公司使用。 他們可能需要處理數(shù)據(jù)執(zhí)行分析生成報告 。 當(dāng)前,所有領(lǐng)先的組織,包括Facebook,Yahoo,Amazon,IBM,Joost,PowerSet,New York Times,Veoh等,都在使用Hadoop。 有關(guān)更多信息,請查看PoweredBy Hadoop頁面 。

為什么選擇Hadoop:

MapReduce是Google的秘密武器:一種將復(fù)雜的問題分解并散布到許多計算機上的方法。 Hadoop是MapReduce及其自己的文件系統(tǒng)HDFS(Hadoop分布式文件系統(tǒng))的開源實現(xiàn)。

Hadoop在某種程度上擊敗了超級計算機:

Hadoop集群在209秒內(nèi)對1 TB的數(shù)據(jù)進行了排序,在年度通用(daytona)TB的基準(zhǔn)測試中打破了之前297秒的記錄。 排序基準(zhǔn)由Jim Gray于1998年創(chuàng)建,它指定了輸入數(shù)據(jù)(100億條100字節(jié)記錄),這些數(shù)據(jù)必須完全排序并寫入磁盤。 這是Java或開放源代碼程序的首次獲獎。 有關(guān)更多信息, 請單擊此處 。

歐洲最大的廣告定位平臺使用Hadoop:

歐洲最大的廣告公司每天可獲得超過100GB的數(shù)據(jù),現(xiàn)在使用RDBMS等經(jīng)典解決方案需要5天的時間進行分析并生成報告。 因此他們落后1個弱點。 經(jīng)過大量研究,他們開始使用hadoop。 現(xiàn)在有趣的事實是“ Tey能夠在1小時內(nèi)處理數(shù)據(jù)并生成報告”,這就是Hadoop的魅力所在。 有關(guān)更多信息, 請單擊此處

Hadoop的主要發(fā)行版:

1. Apache Hadoop:

Apache Hadoop項目開發(fā)了用于可靠,可擴展的分布式計算的開源軟件。

Apache Hadoop提供:

  • Hadoop Common支持其他Hadoop子項目的通用實用程序。
  • HDFS一種分布式文件系統(tǒng),可提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問。
  • MapReduce一個用于在計算集群上對大型數(shù)據(jù)集進行分布式處理的軟件框架。
  • Avro數(shù)據(jù)序列化系統(tǒng)。
  • Chukwa用于管理大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。
  • HBase可擴展的分布式數(shù)據(jù)庫,支持大型表的結(jié)構(gòu)化數(shù)據(jù)存儲。
  • Hive一種數(shù)據(jù)倉庫基礎(chǔ)結(jié)構(gòu),可提供數(shù)據(jù)匯總和即席查詢。
  • Mahout可擴展的機器學(xué)習(xí)和數(shù)據(jù)挖掘庫。
  • Pig用于并行計算的高級數(shù)據(jù)流語言和執(zhí)行框架。
  • ZooKeeper針對分布式應(yīng)用程序的高性能協(xié)調(diào)服務(wù)。

2. Cloudera Hadoop:

Cloudera的Apache Hadoop發(fā)行版(CDH)為基于Hadoop的數(shù)據(jù)管理平臺設(shè)定了新標(biāo)準(zhǔn)。 它是當(dāng)今可用的最全面的平臺,可顯著加速組織中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新穩(wěn)定版本。 它包括一些從將來發(fā)行版反向移植的有用補丁,以及我們?yōu)榭蛻糸_發(fā)的改進

Cloudera Hadoop提供:

  • HDFS –自愈式分布式文件系統(tǒng)
  • MapReduce –強大的并行數(shù)據(jù)處理框架
  • Hadoop Common –一組支持Hadoop子項目的實用程序
  • HBase – Hadoop數(shù)據(jù)庫,用于隨機讀寫訪問
  • Hive –大型數(shù)據(jù)集上類似SQL的查詢和表
  • Pig –數(shù)據(jù)流語言和編譯器
  • Oozie –相互依賴的Hadoop作業(yè)的工作流程
  • Sqoop –將數(shù)據(jù)庫和數(shù)據(jù)倉庫與Hadoop集成
  • Flume –高度可靠,可配置的流數(shù)據(jù)收集
  • Zookeeper –分布式應(yīng)用程序的協(xié)調(diào)服務(wù)
  • Hue –用于可視Hadoop應(yīng)用程序的用戶界面框架和SDK
Hadoop體系結(jié)構(gòu): Hadoop分布式文件系統(tǒng)(HDFS)是一種旨在在商品硬件上運行的分布式文件系統(tǒng)。 它與現(xiàn)有的分布式文件系統(tǒng)有許多相似之處。 但是,與其他分布式文件系統(tǒng)的區(qū)別很明顯。 HDFS具有高度的容錯能力,旨在部署在低成本硬件上。 HDFS提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問,并且適用于具有大數(shù)據(jù)集的應(yīng)用程序。 HDFS放寬了一些POSIX要求,以實現(xiàn)對文件系統(tǒng)數(shù)據(jù)的流式訪問。 名稱節(jié)點: NameNode管理名稱空間,文件系統(tǒng)元數(shù)據(jù)和訪問控制。 每個群集中只有一個NameNode。 我們可以說NameNode是主節(jié)點,數(shù)據(jù)節(jié)點是從節(jié)點。 它包含有關(guān)數(shù)據(jù)(即元數(shù)據(jù))的所有信息 數(shù)據(jù)節(jié)點: DataNode保存實際的文件系統(tǒng)數(shù)據(jù)。 每個數(shù)據(jù)節(jié)點管理其自己的本地連接的存儲(即節(jié)點的硬盤),并在文件系統(tǒng)中存儲一些或所有塊的副本。 每個群集中有一個或多個DataNode。 安裝/部署Hadoop:
Hadoop可以三種方式安裝 1.獨立模式:
要以獨立模式部署Hadoop,我們只需要設(shè)置JAVA_HOME的路徑即可。 在這種模式下,不需要啟動守護程序,也不需要名稱節(jié)點格式,因為數(shù)據(jù)保存在本地磁盤中。 2.偽分布式模式:
在這種模式下,所有守護程序(nameNode,dataNode,secondaryNameNode,jobTracker,taskTracker)都在一臺機器上運行。

在此模式下,守護程序(nameNode,jobTracker,secondaryNameNode(可選))在主服務(wù)器(NameNode)上運行,守護程序(dataNode和taskTracker)在從屬服務(wù)器(DataNode)上運行。 請繼續(xù)關(guān)注有關(guān)三種Hadoop模式/配置的文章。

相關(guān)文章 :

  • MapReduce:簡單介紹
  • Cajo,用Java完成分布式計算的最簡單方法
  • Hibernate映射集合性能問題
  • Java Code Geeks Andygene Web原型
  • Servlet 3.0異步處理可將服務(wù)器吞吐量提高十倍


參考:通過高性能計算博客上的 JCG合作伙伴 了解什么是Hadoop 。

翻譯自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html

總結(jié)

以上是生活随笔為你收集整理的Hadoop:简单介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。