Hadoop学习之HDFS架构(二)
HDFS可以跨越大集群中的機器可靠地存儲非常大的文件,將文件存儲為一系列的塊,除了最后一個塊外,所有的塊的大小都是相同的。當然若文件大小正好為塊大小的倍數(shù)則所有塊的大小相同。為了容錯的目的,一個文件的塊會被復制成若干份,塊大小和復制因子是可配置的。應用程序可以指定文件的副本數(shù)量,復制因子可以在文件創(chuàng)建時指定,也可以以后修改。HDFS中的文件是一次性寫入的,在任何時候都是嚴格一次性寫入的。
NameNode做出關于塊副本的決定,它周期性地收到集群中每個DataNode的心跳和塊報告。收到心跳意味著DataNode運行正常,塊報告包含DataNode上所有塊的清單。下圖即為DataNode中塊復制和NameNode中元數(shù)據(jù)的圖示。
副本的布局對HDFS的可靠性和性能是很關鍵的,副本布局的優(yōu)化是HDFS和其它多數(shù)分布式文件系統(tǒng)的區(qū)別,優(yōu)化副本布局需要很多調試及經驗。機架感知的副本布局策略的目的是改進數(shù)據(jù)的可靠性、可用性和網(wǎng)絡帶寬的利用率,副本布局策略的目前實現(xiàn)是上述方向的第一次成果。該策略實現(xiàn)的短期目標是在生產系統(tǒng)上驗證它,更加了解它的反應,建立測試的基礎并且研究更加精細的策略。
運行大的HDFS實例的集群中的計算機通常分布在很多機架上,不同機架上兩個節(jié)點的通信必須通過交換機。在多數(shù)情況下,相同機架
總結
以上是生活随笔為你收集整理的Hadoop学习之HDFS架构(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop学习之HDFS架构(一)
- 下一篇: Hadoop-2.2.0学习之三YARN