當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【hadoop】1.简介

發(fā)布時(shí)間：2024/4/13 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了【hadoop】1.简介小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

2019獨(dú)角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>

簡(jiǎn)介

通過(guò)本教程您可以學(xué)習(xí)到

hadoop是什么？

hadoop能解決什么問(wèn)題？

hadoop的生態(tài)環(huán)境如何？

1、hadoop是什么

1）Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)

2）主要解決，海量數(shù)據(jù)的存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算問(wèn)題。

3）廣義上來(lái)說(shuō)，HADOOP通常是指一個(gè)更廣泛的概念——HADOOP生態(tài)圈

2、Hadoop發(fā)展歷史

1）Lucene--Doug Cutting開(kāi)創(chuàng)的開(kāi)源軟件，用java書(shū)寫(xiě)代碼，實(shí)現(xiàn)與Google類(lèi)似的全文搜索功能，它提供了全文檢索引擎的架構(gòu)，包括完整的查詢引擎和索引引擎

2）2001年年底成為apache基金會(huì)的一個(gè)子項(xiàng)目

3）對(duì)于大數(shù)量的場(chǎng)景，Lucene面對(duì)與Google同樣的困難

4）學(xué)習(xí)和模仿Google解決這些問(wèn)題的辦法：微型版Nutch

5）可以說(shuō)Google是hadoop的思想之源(Google在大數(shù)據(jù)方面的三篇論文) GFS --->HDFS Map-Reduce --->MR BigTable --->Hbase

6）2003-2004年，Google公開(kāi)了部分GFS和Mapreduce思想的細(xì)節(jié)，以此為基礎(chǔ)Doug Cutting等人用了2年業(yè)余時(shí)間實(shí)現(xiàn)了DFS和Mapreduce機(jī)制，使Nutch性能飆升

7）2005 年Hadoop 作為 Lucene的子項(xiàng)目 Nutch的一部分正式引入Apache基金會(huì)。2006 年 3 月份，Map-Reduce和Nutch Distributed File System (NDFS) 分別被納入稱為 Hadoop 的項(xiàng)目中

8）名字來(lái)源于Doug Cutting兒子的玩具大象 9）Hadoop就此誕生并迅速發(fā)展，標(biāo)志這云計(jì)算時(shí)代來(lái)臨

3、Hadoop三大發(fā)行版本

1）Apache版本: 最原始（最基礎(chǔ)）的版本，對(duì)于入門(mén)學(xué)習(xí)最好。

2）Cloudera在大型互聯(lián)網(wǎng)企業(yè)中用的較多。

3）Hortonworks文檔較好。

1.4 Hadoop的優(yōu)勢(shì)

1）高可靠性：因?yàn)镠adoop假設(shè)計(jì)算元素和存儲(chǔ)會(huì)出現(xiàn)故障，因?yàn)樗S護(hù)多個(gè)工作數(shù)據(jù)副本，在出現(xiàn)故障時(shí)可以對(duì)失敗的節(jié)點(diǎn)重新分布處理。

2）高擴(kuò)展性：在集群間分配任務(wù)數(shù)據(jù)，可方便的擴(kuò)展數(shù)以千計(jì)的節(jié)點(diǎn)。

3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任務(wù)處理速度。

4）高容錯(cuò)性：自動(dòng)保存多份副本數(shù)據(jù)，并且能夠自動(dòng)將失敗的任務(wù)重新分配。

2、Hadoop組成

1）Hadoop HDFS：一個(gè)高可靠、高吞吐量的分布式文件系統(tǒng)。

2）Hadoop MapReduce：一個(gè)分布式的離線并行計(jì)算框架。

3）Hadoop YARN：作業(yè)調(diào)度與集群資源管理的框架。

4）Hadoop Common：支持其他模塊的工具模塊。

2.1 HDFS架構(gòu)概述

1）NameNode（nn）：存儲(chǔ)文件的元數(shù)據(jù)，如文件名，文件目錄結(jié)構(gòu)，文件屬性（生成時(shí)間、副本數(shù)、文件權(quán)限），以及每個(gè)文件的塊列表和塊所在的DataNode等。

2）DataNode(dn)：在本地文件系統(tǒng)存儲(chǔ)文件塊數(shù)據(jù)，以及塊數(shù)據(jù)的校驗(yàn)和。

3）Secondary NameNode(2nn)：用來(lái)監(jiān)控HDFS狀態(tài)的輔助后臺(tái)程序，每隔一段時(shí)間獲取HDFS元數(shù)據(jù)的快照。

2.2 YARN架構(gòu)概述

1）ResourceManager(rm)：處理客戶端請(qǐng)求、啟動(dòng)/監(jiān)控ApplicationMaster、監(jiān)控NodeManager、資源分配與調(diào)度；

2）NodeManager(nm)：單個(gè)節(jié)點(diǎn)上的資源管理、處理來(lái)自ResourceManager的命令、處理來(lái)自ApplicationMaster的命令；

3）ApplicationMaster：數(shù)據(jù)切分、為應(yīng)用程序申請(qǐng)資源，并分配給內(nèi)部任務(wù)、任務(wù)監(jiān)控與容錯(cuò)。

4）Container：對(duì)任務(wù)運(yùn)行環(huán)境的抽象，封裝了CPU、內(nèi)存等多維資源以及環(huán)境變量、啟動(dòng)命令等任務(wù)運(yùn)行相關(guān)的信息。

2.3 MapReduce架構(gòu)概述

MapReduce將計(jì)算過(guò)程分為兩個(gè)階段：Map和Reduce

Map階段并行處理輸入數(shù)據(jù)
Reduce階段對(duì)Map結(jié)果進(jìn)行匯總

3. 兩個(gè)體系圖

3.1 大數(shù)據(jù)生態(tài)體系圖

3.2 大數(shù)據(jù)推薦系統(tǒng)框架圖

參考

本系列的文章參考資料來(lái)源有3個(gè)地方：

尚硅谷官方大數(shù)據(jù)教學(xué)視頻。

書(shū)籍《hadoop權(quán)威指南第四版》

書(shū)籍《Spark快速大數(shù)據(jù)分析》

書(shū)籍《數(shù)據(jù)算法——H/Spark大數(shù)據(jù)處理技巧》

官方文檔。

如果有些章節(jié)忘記填寫(xiě)請(qǐng)?jiān)彙５?和第4相關(guān)的內(nèi)容可能在本系列牽涉不多，期待后期自己不懶，多多分享。

資源獲取

相關(guān)軟件包下載地址: 鏈接: https://pan.baidu.com/s/1cQG9I2OhIwglXG3FufCq3w 提取碼: d8gx

本系列所有代碼下載: Github: https://github.com/joyblack/hadoop-learn

如果對(duì)您有幫助，別忘了點(diǎn)個(gè)start喲~~~

轉(zhuǎn)載于:https://my.oschina.net/u/3091870/blog/2996266

總結(jié)

以上是生活随笔為你收集整理的【hadoop】1.简介的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。