當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

hadoop--HDFS的读写数据流程

發(fā)布時(shí)間：2025/3/17 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了 hadoop--HDFS的读写数据流程小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

HDFS中block、packet、chunk的概念

1. 數(shù)據(jù)塊block

每個(gè)磁盤(pán)都有默認(rèn)的數(shù)據(jù)塊大小，這是磁盤(pán)進(jìn)行數(shù)據(jù)讀寫(xiě)的最小單位。
HDFS也有塊(block)的概念，但是大得多，默認(rèn)128MB，與單一磁盤(pán)上的文件系統(tǒng)相似，HDFS上的文件也被劃分為塊大小的多個(gè)分塊(chunk)，作為獨(dú)立的存儲(chǔ)單元。
但與面向單一磁盤(pán)的文件系統(tǒng)不同的是，HDFS中小于一個(gè)塊大小的文件不會(huì)占據(jù)整個(gè)塊的空間(如一個(gè)文件只有1MB存儲(chǔ)在128MB的塊中，文件只使用1MB的磁盤(pán)空間，而不是128MB)。

2. packet

client向datanode傳輸數(shù)據(jù)的最小單位稱(chēng)為packet (64k=512 byte +4 byte);

3. chunk

chunk是最小單位，默認(rèn)為512byte，加上4byte的校驗(yàn)位chunksum；
HDFSClient創(chuàng)建FSDataInputStream/FSDataOutputStream流時(shí)會(huì)產(chǎn)生緩沖隊(duì)列，存儲(chǔ)512byte的chunk加4byte的校驗(yàn)位chunksum;

chunk–>Packet–>block

HDFS讀數(shù)據(jù)流程

client通過(guò)創(chuàng)建Distributed FileSystem對(duì)象訪問(wèn)namenode，請(qǐng)求訪問(wèn)文件；

namenode判斷是否具有權(quán)限以及集群是否存在目標(biāo)文件，若具備條件，返回目標(biāo)文件的元數(shù)據(jù)；

client通過(guò)創(chuàng)建FSDataInputStream流向dn1(節(jié)點(diǎn)距離最近原則)請(qǐng)求讀取數(shù)據(jù)block1，

datanode1向client端傳輸數(shù)據(jù)；

client向dn2請(qǐng)求讀取數(shù)據(jù)block2(負(fù)載能力原則)；

dn2向client端傳輸數(shù)據(jù)；

tips: 通過(guò)串行讀取數(shù)據(jù)，先讀block1，再讀block2追加在block1后面。

HDFS寫(xiě)數(shù)據(jù)流程

數(shù)據(jù)流–>chunk(512+4)–>Packet–>緩沖隊(duì)列–>發(fā)送–>應(yīng)答–>ack隊(duì)列；
ack隊(duì)列在發(fā)送時(shí)會(huì)存儲(chǔ)一份緩沖數(shù)據(jù)，只有應(yīng)答成功之后，緩沖隊(duì)列才會(huì)刪除；

客戶端通過(guò)創(chuàng)建Distributed FileSystem向namenode發(fā)送消息請(qǐng)求上傳文件；

namenode會(huì)檢查該客戶端是否具有權(quán)限，以及目標(biāo)目錄是否存在；然后響應(yīng)客戶端是否可以上傳；

客戶端切分文件，請(qǐng)求上傳第一個(gè)block(0-128MB)到哪些datenode服務(wù)器；

namenode返回dn1，dn2，dn3節(jié)點(diǎn)，表示這三個(gè)節(jié)點(diǎn)可以用來(lái)存儲(chǔ)數(shù)據(jù)；

客戶端通過(guò)FSDataOutputStream模塊請(qǐng)求與dn1(節(jié)點(diǎn)距離最近)建立傳輸通道，dn1收到請(qǐng)求繼續(xù)調(diào)用dn2(負(fù)載均衡)，dn2調(diào)用dn3，建立起通信管道；

dn1，dn2，dn3逐級(jí)應(yīng)答客戶端；

客戶端以packet (64k)為單位開(kāi)始向dn1傳輸?shù)谝粋€(gè)block，dn1收到一個(gè)packet后就會(huì)傳給dn2，dn2收到傳給dn3；dn1每上傳一個(gè)packet就會(huì)放入ack應(yīng)答隊(duì)列等待，只有應(yīng)答成功后，這個(gè)緩沖數(shù)據(jù)才會(huì)被刪除；

當(dāng)一個(gè)block傳輸完成后，客戶端再次請(qǐng)求namenode上傳第二個(gè)block的服務(wù)器；重復(fù)3-7；

tips:
client端向dn1上傳數(shù)據(jù)，上傳成功后會(huì)有2份數(shù)據(jù)，其中1份寫(xiě)入磁盤(pán)，另一份存在內(nèi)存中直接傳給dn2。

作業(yè)提交全過(guò)程(HDFS & YARN & MapReduce==>)

總結(jié)

以上是生活随笔為你收集整理的hadoop--HDFS的读写数据流程的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：启航
下一篇： XCode: 兼容ARC和non-ARC