日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

HDFS-简介

發(fā)布時間:2025/3/8 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 HDFS-简介 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

HDFS 是 Hadoop Distribute File System 的簡稱,意為:Hadoop 分布式文件系統(tǒng),是一種旨在在商品硬件上運行的分布式文件系統(tǒng)。它與現(xiàn)有的分布式文件系統(tǒng)有許多相似之處。但是,與其他分布式文件系統(tǒng)的區(qū)別很明顯。HDFS具有高度的容錯能力,旨在部署在低成本硬件上。HDFS提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問,并且適用于具有大數(shù)據(jù)集的應(yīng)用程序。HDFS放寬了一些POSIX要求,以實現(xiàn)對文件系統(tǒng)數(shù)據(jù)的流式訪問。HDFS最初是作為Apache Nutch Web搜索引擎項目的基礎(chǔ)結(jié)構(gòu)而構(gòu)建的。HDFS是Apache Hadoop Core項目的一部分,是 Hadoop 核心組件之一,作為最底層的分布式存儲服務(wù)而存在。

一、特點

  • 高容錯:硬件故障是正常現(xiàn)象,而非例外。HDFS實例可能包含數(shù)百或數(shù)千個服務(wù)器計算機,每個服務(wù)器計算機都存儲文件系統(tǒng)數(shù)據(jù)的一部分。存在大量組件并且每個組件的故障概率都很低的事實意味著HDFS的某些組件始終無法運行。因此,檢測故障并快速,自動地從故障中恢復(fù)是HDFS的核心目標(biāo)。
  • 流數(shù)據(jù)訪問:在HDFS上運行的應(yīng)用程序需要對其數(shù)據(jù)集進(jìn)行流式訪問。它們不是通常在通用文件系統(tǒng)上運行的通用應(yīng)用程序。HDFS設(shè)計用于批處理,而不是用戶交互使用。重點在于數(shù)據(jù)訪問的高吞吐量,而不是數(shù)據(jù)訪問的低延遲。POSIX提出了許多針對HDFS的應(yīng)用程序不需要的硬性要求。在一些關(guān)鍵領(lǐng)域中,POSIX語義已經(jīng)被交易以提高數(shù)據(jù)吞吐率。
  • 支持大數(shù)據(jù)集:在HDFS上運行的應(yīng)用程序具有大量數(shù)據(jù)集。HDFS中的典型文件大小為GB到TB。因此,HDFS已調(diào)整為支持大文件。它應(yīng)提供較高的聚合數(shù)據(jù)帶寬,并可以擴展到單個群集中的數(shù)百個節(jié)點。它應(yīng)該在單個實例中支持?jǐn)?shù)千萬個文件。
  • 一次寫入多次讀取:HDFS應(yīng)用程序需要文件一次寫入多次讀取訪問模型。一旦創(chuàng)建,寫入和關(guān)閉文件,除了追加和截斷外,無需更改。支持將內(nèi)容追加到文件末尾,但不能在任意點更新。該假設(shè)簡化了數(shù)據(jù)一致性問題并實現(xiàn)了高吞吐量數(shù)據(jù)訪問。MapReduce應(yīng)用程序或Web爬網(wǎng)程序應(yīng)用程序非常適合此模型。
  • 移動計算:如果應(yīng)用程序所請求的計算在其所操作的數(shù)據(jù)附近執(zhí)行,則效率會高得多。當(dāng)數(shù)據(jù)集的大小巨大時,尤其如此。這樣可以最大程度地減少網(wǎng)絡(luò)擁塞,并提高系統(tǒng)的整體吞吐量。假設(shè)通常是將計算遷移到更靠近數(shù)據(jù)的位置,而不是將數(shù)據(jù)移動到應(yīng)用程序正在運行的位置。HDFS為應(yīng)用程序提供了接口,使它們自己更靠近數(shù)據(jù)所在的位置。
  • 高度可移植性:HDFS是使用Java語言構(gòu)建的;任何支持Java的機器都可以運行NameNode或DataNode軟件。高度可移植的Java語言的使用意味著HDFS可以部署在各種各樣的機器上。
  • 運行于商業(yè)硬件上: Hadoop不需要特別貴的、reliable的(可靠的)機器,可運行于普通商用機器(可以從多家供應(yīng)商采購) ,商用機器不代表低端機器。在集群中(尤其是大的集群),節(jié)點失敗率是比較高的HDFS的目標(biāo)是確保集群在節(jié)點失敗的時候不會讓用戶感覺到明顯的中斷。

二、組成架構(gòu)

HDFS采用主/從體系結(jié)構(gòu),整個HDFS集群由一個Namenode和多個Datanode構(gòu)成master-worker(主從)模式。Namenode負(fù)責(zé)構(gòu)建命名空間,管理文件的元數(shù)據(jù)等,Datanode負(fù)責(zé)實際存儲數(shù)據(jù)和處理來自系統(tǒng)客戶端的讀寫請求。

群集中單個NameNode的存在極大地簡化了系統(tǒng)的體系結(jié)構(gòu)。NameNode是所有HDFS元數(shù)據(jù)的仲裁器和存儲庫。該系統(tǒng)的設(shè)計方式使用戶數(shù)據(jù)永遠(yuǎn)不會流過NameNode。

具體來說,HDFS由四部分組成,HDFS Client、NameNode、DataNode和Secondary NameNode。

**HDFS客戶端:**就是客戶端。
1、提供一些命令來管理、訪問 HDFS,比如啟動或者關(guān)閉HDFS。
2、與 DataNode 交互,讀取或者寫入數(shù)據(jù);讀取時,要與 NameNode 交互,獲取文件的位置信息;寫入 HDFS 的時候,Client 將文件切分成 一個一個的Block,然后進(jìn)行存儲。

**NameNode:**即Master,
1、管理 HDFS 的名稱空間。
2、管理數(shù)據(jù)塊(Block)映射信息
3、配置副本策略
4、處理客戶端讀寫請求。

**DataNode:**就是Slave。NameNode 下達(dá)命令,DataNode 執(zhí)行實際的操作。
1、存儲實際的數(shù)據(jù)塊。
2、執(zhí)行數(shù)據(jù)塊的讀/寫操作。

**Secondary NameNode:**并非 NameNode 的熱備。當(dāng)NameNode 掛掉的時候,它并不能馬上替換 NameNode 并提供服務(wù)。
1、輔助 NameNode,分擔(dān)其工作量。
2、定期合并 fsimage和fsedits,并推送給NameNode。
3、在緊急情況下,可輔助恢復(fù) NameNode。

三、文件系統(tǒng)命名空間

HDFS支持傳統(tǒng)的分層文件組織。用戶或應(yīng)用程序可以創(chuàng)建目錄并將文件存儲在這些目錄中。文件系統(tǒng)名稱空間層次結(jié)構(gòu)與大多數(shù)其他現(xiàn)有文件系統(tǒng)相似。可以創(chuàng)建和刪除文件,將文件從一個目錄移動到另一個目錄或重命名文件。HDFS支持用戶配額和訪問權(quán)限。HDFS不支持硬鏈接或軟鏈接。但是,HDFS體系結(jié)構(gòu)并不排除實現(xiàn)這些功能。

盡管HDFS遵循FileSystem的命名約定,但某些路徑和名稱(例如/.reserved和.snapshot)被保留。功能,如透明加密和快照使用預(yù)約路徑。

NameNode維護(hù)文件系統(tǒng)名稱空間。對文件系統(tǒng)名稱空間或其屬性的任何更改均由NameNode記錄。應(yīng)用程序可以指定應(yīng)由HDFS維護(hù)的文件副本的數(shù)量。文件的副本數(shù)稱為該文件的復(fù)制因子。此信息由NameNode存儲。

四、數(shù)據(jù)復(fù)制

HDFS旨在在大型群集中的計算機之間可靠地存儲非常大的文件。它將每個文件存儲為一系列塊。復(fù)制文件的塊是為了容錯。塊大小和復(fù)制因子是每個文件可配置的。

文件中除最后一個塊外的所有塊都具有相同的大小,而在添加了對可變長度塊的支持后,用戶可以在不填充最后一個塊的情況下開始新的塊,而不用配置的塊大小。

應(yīng)用程序可以指定文件的副本數(shù)。復(fù)制因子可以在文件創(chuàng)建時指定,以后可以更改。HDFS中的文件只能寫入一次(追加和截斷除外),并且在任何時候都只能具有一個寫入器。

NameNode做出有關(guān)塊復(fù)制的所有決定。它定期從群集中的每個DataNode接收心跳信號和Blockreport。收到心跳信號表示DataNode正常運行。Blockreport包含DataNode上所有塊的列表。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的HDFS-简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。