Hadoop学习笔记
1.Hadoop安裝
Apache的國內(nèi)鏡像地址:
地址1:http://mirror.bit.edu.cn/apache/
地址2:https://mirrors.tuna.tsinghua.edu.cn/apache
Fuck CSDN,誰給你的權(quán)利把開源的東西作為商品(下載積分)售賣?
Hadoop安裝教程
2.HDFS(Hadoop Distributed File System)
2.1 HDFS基本概念
HDFS的文件被分成塊(Block)進(jìn)行存儲(chǔ),HDFS塊默認(rèn)大小是64MB,塊是整個(gè)文件存儲(chǔ)處理的邏輯單元
HDFS中有兩類節(jié)點(diǎn)NameNode和DataNode
namenode:
是管理節(jié)點(diǎn),存放文件元數(shù)據(jù)
元數(shù)據(jù)包含兩個(gè)部分:
文件與數(shù)據(jù)塊的映射表
數(shù)據(jù)塊與數(shù)據(jù)節(jié)點(diǎn)的映射表
datanode:
是hdfs的工作節(jié)點(diǎn),存放數(shù)據(jù)塊
2.2 數(shù)據(jù)管理策略
1.每個(gè)數(shù)據(jù)保留三份,兩份存儲(chǔ)在一臺(tái)機(jī)器上,另外一份存儲(chǔ)在另一臺(tái)機(jī)器上。確保數(shù)據(jù)安全可靠
2.心跳檢測
DataNode定期向NameNode發(fā)送心跳檢測,是否宕機(jī),掛掉,作為安全檢測;
3.二級(jí)NameNode
當(dāng)NameNode掛掉SecondaryNameNode會(huì)替代其位置
2.3 HDFS讀取文件流程
客戶端發(fā)送文件讀請求——>namenode返回元數(shù)據(jù)(從哪些datanode找到)——>客戶端讀取block,下載下來之后組裝;
?
客戶端文件拆分成block——>通知namenode返回可用的、有足夠磁盤空間的datanode——>客戶端對(duì)block進(jìn)行寫入——>流水線復(fù)制——>更新元數(shù)據(jù) ;
?
3.MapReduce
3.1 MapReduce的原理
?mapReduce:分而治之的原理,既將大的任務(wù)分解成各個(gè)小的任務(wù),既所謂的map,然后將各個(gè)小任務(wù)的處理結(jié)果進(jìn)行合并,合并匯總稱之為reduce.
1、mapreduce是一個(gè)并行計(jì)算的框架;
2、map將任務(wù)分解成多個(gè)子任務(wù),reduce將子任務(wù)并行執(zhí)行后合并結(jié)果;
3、mapreduce的過程:input split->shuffle->output。
?
?
4、shuffle機(jī)制
?
?
3.2 MapReduce的運(yùn)行流程
MapReduce作業(yè)執(zhí)行過程
MapReduce?容錯(cuò)機(jī)制
JobTracker?功能職責(zé)
4.YARN
(Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者)是一種新的 Hadoop 資源管理器,它是一個(gè)通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。
?
5.Hadpoop生態(tài)
?
轉(zhuǎn)載于:https://www.cnblogs.com/Java-Starter/p/9842631.html
總結(jié)
以上是生活随笔為你收集整理的Hadoop学习笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sha256算法细节详解
- 下一篇: arduino 程序的机制