日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hadoop简单介绍_Hadoop:简单介绍

發布時間:2023/12/3 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hadoop简单介绍_Hadoop:简单介绍 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

hadoop簡單介紹

什么是Hadoop:
Hadoop是用Java編寫的框架,用于在大型商品硬件群集上運行應用程序,并具有類似于Google File System和MapReduce的功能 。 HDFS是一個高度容錯的分布式文件系統,與Hadoop一樣,旨在部署在低成本硬件上。 它提供對應用程序數據的高吞吐量訪問,并且適用于具有大數據集的應用程序。 誰使用Hadoop:

Hadoop主要由處理大量數據的公司使用。 他們可能需要處理數據執行分析生成報告 。 當前,所有領先的組織,包括Facebook,Yahoo,Amazon,IBM,Joost,PowerSet,New York Times,Veoh等,都在使用Hadoop。 有關更多信息,請查看PoweredBy Hadoop頁面 。

為什么選擇Hadoop:

MapReduce是Google的秘密武器:一種將復雜問題分解并分散到多臺計算機上的方法。 Hadoop是MapReduce及其自己的文件系統HDFS(Hadoop分布式文件系統)的開源實現。

Hadoop在某種程度上擊敗了超級計算機:

Hadoop集群在209秒內對1 TB的數據進行了排序,在年度通用(daytona)TB級的基準測試中打破了之前297秒的記錄。 排序基準是由Jim Gray在1998年創建的,它指定了輸入數據(100億條100字節記錄),這些數據必須完全排序并寫入磁盤。 這是Java或開源程序第一次獲勝。 有關更多信息, 請單擊此處 。

歐洲最大的廣告定位平臺使用Hadoop:

歐洲最大的廣告公司每天獲取超過100GB的數據,現在使用RDBMS之類的經典解決方案,他們需要5天的時間進行分析并生成報告。 因此他們落后1個弱點。 經過大量研究,他們開始使用hadoop。 現在有趣的事實是“ Tey能夠在1小時內處理數據并生成報告”,這就是Hadoop的魅力所在。 有關更多信息, 請單擊此處

Hadoop的主要發行版:

1. Apache Hadoop:

Apache Hadoop項目開發了用于可靠,可擴展的分布式計算的開源軟件。

Apache Hadoop提供:

  • Hadoop Common支持其他Hadoop子項目的通用實用程序。
  • HDFS一種分布式文件系統,可提供對應用程序數據的高吞吐量訪問。
  • MapReduce一種用于在計算集群上對大型數據集進行分布式處理的軟件框架。
  • Avro數據序列化系統。
  • Chukwa用于管理大型分布式系統的數據收集系統。
  • HBase一個可擴展的分布式數據庫,支持大型表的結構化數據存儲。
  • Hive一種數據倉庫基礎結構,可提供數據匯總和即席查詢。
  • Mahout可擴展的機器學習和數據挖掘庫。
  • Pig用于并行計算的高級數據流語言和執行框架。
  • ZooKeeper針對分布式應用程序的高性能協調服務。

2. Cloudera Hadoop:

Cloudera的Apache Hadoop發行版(CDH)為基于Hadoop的數據管理平臺設定了新標準。 它是當今最全面的平臺,可顯著加快組織中Apache Hadoop的部署。 CDH基于Apache Hadoop的最新穩定版本。 它包括一些從將來版本中移植回來的有用補丁,以及我們為客戶開發的改進

Cloudera Hadoop提供:

  • HDFS –自愈式分布式文件系統
  • MapReduce –強大的并行數據處理框架
  • Hadoop Common –一組支持Hadoop子項目的實用程序
  • HBase – Hadoop數據庫,用于隨機讀寫訪問
  • Hive –大型數據集上類似SQL的查詢和表
  • Pig –數據流語言和編譯器
  • Oozie –相互依賴的Hadoop作業的工作流程
  • Sqoop –將數據庫和數據倉庫與Hadoop集成
  • Flume –高度可靠,可配置的流數據收集
  • Zookeeper –分布式應用程序的協調服務
  • Hue –用于可視Hadoop應用程序的用戶界面框架和SDK
Hadoop體系結構: Hadoop分布式文件系統(HDFS)是一種旨在在商品硬件上運行的分布式文件系統。 它與現有的分布式文件系統有許多相似之處。 但是,與其他分布式文件系統的區別很明顯。 HDFS具有高度的容錯能力,旨在部署在低成本硬件上。 HDFS提供對應用程序數據的高吞吐量訪問,并且適用于具有大數據集的應用程序。 HDFS放寬了一些POSIX要求,以實現對文件系統數據的流式訪問。 名稱節點: NameNode管理名稱空間,文件系統元數據和訪問控制。 每個群集中只有一個NameNode。 我們可以說NameNode是主節點,數據節點是從節點。 它包含有關數據(即元數據)的所有信息 數據節點: DataNode保存實際的文件系統數據。 每個數據節點管理其自己的本地連接的存儲(即節點的硬盤),并在文件系統中存儲一些或所有塊的副本。 每個群集中有一個或多個DataNode。 安裝/部署Hadoop:
Hadoop可以三種方式安裝 1.獨立模式:
要以獨立模式部署Hadoop,我們只需要設置JAVA_HOME的路徑即可。 在這種模式下,不需要啟動守護程序,也不需要名稱節點格式,因為數據保存在本地磁盤中。 2.偽分布式模式:
在這種模式下,所有守護程序(nameNode,dataNode,secondaryNameNode,jobTracker,taskTracker)都在一臺機器上運行。

在此模式下,守護程序(nameNode,jobTracker,secondaryNameNode(可選))在主服務器(NameNode)上運行,守護程序(dataNode和taskTracker)在從屬服務器(DataNode)上運行。 請繼續關注有關三種Hadoop模式/配置的文章。

相關文章 :

  • MapReduce:簡單介紹
  • Cajo,用Java完成分布式計算的最簡單方法
  • Hibernate映射集合性能問題
  • Java Code Geeks Andygene Web原型
  • Servlet 3.0異步處理可將服務器吞吐量提高十倍


參考:通過高性能計算博客上的 JCG合作伙伴 了解什么是Hadoop 。

翻譯自: https://www.javacodegeeks.com/2011/05/hadoop-soft-introduction.html

hadoop簡單介紹

總結

以上是生活随笔為你收集整理的hadoop简单介绍_Hadoop:简单介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。