日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop学习笔记

發(fā)布時(shí)間:2023/12/10 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop学习笔记 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.Hadoop安裝

Apache的國內(nèi)鏡像地址:

地址1:http://mirror.bit.edu.cn/apache/

地址2:https://mirrors.tuna.tsinghua.edu.cn/apache

Fuck CSDN,誰給你的權(quán)利把開源的東西作為商品(下載積分)售賣?

Hadoop安裝教程

2.HDFS(Hadoop Distributed File System)

2.1 HDFS基本概念

HDFS的文件被分成塊(Block)進(jìn)行存儲(chǔ),HDFS塊默認(rèn)大小是64MB,塊是整個(gè)文件存儲(chǔ)處理的邏輯單元

HDFS中有兩類節(jié)點(diǎn)NameNode和DataNode

namenode:

是管理節(jié)點(diǎn),存放文件元數(shù)據(jù)

元數(shù)據(jù)包含兩個(gè)部分:

  • 文件與數(shù)據(jù)塊的映射表

  • 數(shù)據(jù)塊與數(shù)據(jù)節(jié)點(diǎn)的映射表

  • datanode:

    是hdfs的工作節(jié)點(diǎn),存放數(shù)據(jù)塊

    2.2 數(shù)據(jù)管理策略

    1.每個(gè)數(shù)據(jù)保留三份,兩份存儲(chǔ)在一臺(tái)機(jī)器上,另外一份存儲(chǔ)在另一臺(tái)機(jī)器上。確保數(shù)據(jù)安全可靠

    2.心跳檢測

    DataNode定期向NameNode發(fā)送心跳檢測,是否宕機(jī),掛掉,作為安全檢測;

    3.二級(jí)NameNode

    當(dāng)NameNode掛掉SecondaryNameNode會(huì)替代其位置

    2.3 HDFS讀取文件流程

    客戶端發(fā)送文件讀請求——>namenode返回元數(shù)據(jù)(從哪些datanode找到)——>客戶端讀取block,下載下來之后組裝;

    ?

    客戶端文件拆分成block——>通知namenode返回可用的、有足夠磁盤空間的datanode——>客戶端對(duì)block進(jìn)行寫入——>流水線復(fù)制——>更新元數(shù)據(jù) ;

    ?

    3.MapReduce

    3.1 MapReduce的原理

    ?mapReduce:分而治之的原理,既將大的任務(wù)分解成各個(gè)小的任務(wù),既所謂的map,然后將各個(gè)小任務(wù)的處理結(jié)果進(jìn)行合并,合并匯總稱之為reduce.

    1、mapreduce是一個(gè)并行計(jì)算的框架;

    2、map將任務(wù)分解成多個(gè)子任務(wù),reduce將子任務(wù)并行執(zhí)行后合并結(jié)果;

    3、mapreduce的過程:input split->shuffle->output。

    ?

    ?

    4、shuffle機(jī)制

  • map task是由并發(fā)數(shù)決定的,有多少個(gè)切片就啟動(dòng)多少個(gè)map task
  • 切片是邏輯概念,指文件中數(shù)據(jù)偏移量的范圍
  • 切片的具體大小應(yīng)該根據(jù)文件的大小來調(diào)整
  • ?

    ?

    3.2 MapReduce的運(yùn)行流程

    MapReduce作業(yè)執(zhí)行過程

    MapReduce?容錯(cuò)機(jī)制

  • 重復(fù)執(zhí)行,一次任務(wù)失敗,會(huì)進(jìn)行重試,4次
  • 推測執(zhí)行,單個(gè)任務(wù)執(zhí)行慢時(shí),推測其可能出現(xiàn)故障,再另起一個(gè)同樣的任務(wù),并行執(zhí)行,哪個(gè)先執(zhí)行完使用哪個(gè)
  • JobTracker?功能職責(zé)

  • 作業(yè)調(diào)度
  • 分配任務(wù),監(jiān)控任務(wù)執(zhí)行進(jìn)度
  • 監(jiān)控TaskTracker的狀態(tài)
  • 4.YARN

    (Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者)是一種新的 Hadoop 資源管理器,它是一個(gè)通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。

    ?

    5.Hadpoop生態(tài)

    ?

    轉(zhuǎn)載于:https://www.cnblogs.com/Java-Starter/p/9842631.html

    總結(jié)

    以上是生活随笔為你收集整理的Hadoop学习笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。