當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop学习笔记

發布時間：2023/12/10 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop学习笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.Hadoop安裝

Apache的國內鏡像地址：

地址1：http://mirror.bit.edu.cn/apache/

地址2：https://mirrors.tuna.tsinghua.edu.cn/apache

Fuck CSDN，誰給你的權利把開源的東西作為商品（下載積分）售賣？

Hadoop安裝教程

2.HDFS(Hadoop Distributed File System)

2.1 HDFS基本概念

HDFS的文件被分成塊(Block)進行存儲，HDFS塊默認大小是64MB，塊是整個文件存儲處理的邏輯單元

HDFS中有兩類節點NameNode和DataNode

namenode：

是管理節點，存放文件元數據

元數據包含兩個部分：

文件與數據塊的映射表

數據塊與數據節點的映射表

datanode：

是hdfs的工作節點，存放數據塊

2.2 數據管理策略

1.每個數據保留三份，兩份存儲在一臺機器上，另外一份存儲在另一臺機器上。確保數據安全可靠

2.心跳檢測

DataNode定期向NameNode發送心跳檢測，是否宕機，掛掉，作為安全檢測；

3.二級NameNode

當NameNode掛掉SecondaryNameNode會替代其位置

2.3 HDFS讀取文件流程

客戶端發送文件讀請求——>namenode返回元數據（從哪些datanode找到）——>客戶端讀取block，下載下來之后組裝；

客戶端文件拆分成block——>通知namenode返回可用的、有足夠磁盤空間的datanode——>客戶端對block進行寫入——>流水線復制——>更新元數據；

3.MapReduce

3.1 MapReduce的原理

?mapReduce：分而治之的原理，既將大的任務分解成各個小的任務，既所謂的map，然后將各個小任務的處理結果進行合并，合并匯總稱之為reduce.

1、mapreduce是一個并行計算的框架；

2、map將任務分解成多個子任務，reduce將子任務并行執行后合并結果；

3、mapreduce的過程：input split->shuffle->output。

4、shuffle機制

map task是由并發數決定的，有多少個切片就啟動多少個map task

切片是邏輯概念，指文件中數據偏移量的范圍

切片的具體大小應該根據文件的大小來調整

3.2 MapReduce的運行流程

MapReduce作業執行過程

MapReduce?容錯機制

重復執行，一次任務失敗，會進行重試，4次

推測執行，單個任務執行慢時，推測其可能出現故障，再另起一個同樣的任務，并行執行，哪個先執行完使用哪個

JobTracker?功能職責

作業調度

分配任務，監控任務執行進度

監控TaskTracker的狀態

4.YARN

（Yet Another Resource Negotiator，另一種資源協調者）是一種新的 Hadoop 資源管理器，它是一個通用資源管理系統，可為上層應用提供統一的資源管理和調度，它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。

5.Hadpoop生態

轉載于:https://www.cnblogs.com/Java-Starter/p/9842631.html

總結

以上是生活随笔為你收集整理的Hadoop学习笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。