Hadoop学习笔记
1.Hadoop安裝
Apache的國內鏡像地址:
地址1:http://mirror.bit.edu.cn/apache/
地址2:https://mirrors.tuna.tsinghua.edu.cn/apache
Fuck CSDN,誰給你的權利把開源的東西作為商品(下載積分)售賣?
Hadoop安裝教程
2.HDFS(Hadoop Distributed File System)
2.1 HDFS基本概念
HDFS的文件被分成塊(Block)進行存儲,HDFS塊默認大小是64MB,塊是整個文件存儲處理的邏輯單元
HDFS中有兩類節點NameNode和DataNode
namenode:
是管理節點,存放文件元數據
元數據包含兩個部分:
文件與數據塊的映射表
數據塊與數據節點的映射表
datanode:
是hdfs的工作節點,存放數據塊
2.2 數據管理策略
1.每個數據保留三份,兩份存儲在一臺機器上,另外一份存儲在另一臺機器上。確保數據安全可靠
2.心跳檢測
DataNode定期向NameNode發送心跳檢測,是否宕機,掛掉,作為安全檢測;
3.二級NameNode
當NameNode掛掉SecondaryNameNode會替代其位置
2.3 HDFS讀取文件流程
客戶端發送文件讀請求——>namenode返回元數據(從哪些datanode找到)——>客戶端讀取block,下載下來之后組裝;
?
客戶端文件拆分成block——>通知namenode返回可用的、有足夠磁盤空間的datanode——>客戶端對block進行寫入——>流水線復制——>更新元數據 ;
?
3.MapReduce
3.1 MapReduce的原理
?mapReduce:分而治之的原理,既將大的任務分解成各個小的任務,既所謂的map,然后將各個小任務的處理結果進行合并,合并匯總稱之為reduce.
1、mapreduce是一個并行計算的框架;
2、map將任務分解成多個子任務,reduce將子任務并行執行后合并結果;
3、mapreduce的過程:input split->shuffle->output。
?
?
4、shuffle機制
?
?
3.2 MapReduce的運行流程
MapReduce作業執行過程
MapReduce?容錯機制
JobTracker?功能職責
4.YARN
(Yet Another Resource Negotiator,另一種資源協調者)是一種新的 Hadoop 資源管理器,它是一個通用資源管理系統,可為上層應用提供統一的資源管理和調度,它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。
?
5.Hadpoop生態
?
轉載于:https://www.cnblogs.com/Java-Starter/p/9842631.html
總結
以上是生活随笔為你收集整理的Hadoop学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sha256算法细节详解
- 下一篇: arduino 程序的机制