王家林 云计算分布式大数据Hadoop实战高手之路第七讲Hadoop图文训练课程:通过HDFS的心跳来测试replication具体的工作机制和流程...
這一講主要深入使用HDFS命令行工具操作Hadoop分布式集群,主要是通過實驗的配置hdfs-site.xml文件的心跳來測試replication具體的工作和流程。
通過HDFS的心跳來測試replication具體的工作機制和流程的PDF版本請猛擊這里。
?
王家林的“云計算分布式大數據Hadoop實戰高手之路”之完整發布目錄
?
?
在王家林 第六講Hadoop圖文訓練課程:使用HDFS命令行工具操作Hadoop分布式集群初體驗中,我們配置了hadoop.main這臺主機的hdfs-site.xml這個配置文件的“dfs.replication”的值為2:
?
當我們上傳文件時候文件會保存2份副本:
下面我們通過實驗的方式探究replication屬性配置的作用。
首先關閉集群:
然后修改hadoop.main這臺機器上的hdfs-site.xml配置文件:
在這個配置文件中加入新的配置信息:
保存退出。
新加入的配置信息:
的具體含義是當DataNode和NameNode的心跳失去連接的時間超過15秒之后,Hadoop系統就會認為這個DataNode已經死亡,此時Hadoop會把這個DataNode標記為不能工作的狀態,以后如果客戶端去 訪問數據的時候,Hadoop就不會嘗試到這個DataNode去獲取數據。
下面看一下其工作的具體方式:
首先啟動HDFS:
進入HDFS的Web監控臺的Node頁面:
我們發現hadoop.main和hadoop.slave這兩個DataNode均在正常的工作中。
我們觀察到“Last Contact”選項的數據,該數據是表明DataNode和NameNode最近聯系的心跳成功的時間,我們再次刷新頁面看一下這個數據:
我們發現這個具體的數據時比較低的。
此時我們通過命令行工作查看datanode進程:
我們發現hadoop.main上運行的DataNode節點的進程是16228,我們把這個DataNode殺掉:
我們再次刷新HDFS的Node的控制臺:
繼續刷新:
繼續刷新:
可以發現第一個DataNode的心跳時間不斷的在增加,同時在第三次刷新的時候心跳間隔時間為25,這個數據超過我們配置文件中的15,再刷新一次:
此時發現只有一個正在服務的DataNode,因為我們的Hadoop.main中的DataNode心跳間隔時間超過了15秒,Hadoop此時把把該節點標記為無效節點。
我們返回文件系統頁面看一下我們上傳的文件存儲信息:
此外發現文件的可訪問信息只是存放在了hadoop.slave這個節點中了,當然,此時我們還是可以正常的訪問文件,雖然只有一份可用副本,這就是replication節點的作用,我們在配置該節點的時候把值設置為2,表明同一個文件在HDFS中有兩個副本,當一個運行DataNode的進程因為某些原因不能工作的時候,我們依舊可以使用剩余的一份副本工作,這不會影響客戶端對數據的訪問。
?
?
?
?
分類:? 云計算分布式大數據Hadoop實戰高手之路---從零開始 標簽:? 王家林 云計算分布式大數據Hadoop實戰高手之路第七講Hadoop圖文訓練課程:通過HDFS的心跳轉載于:https://www.cnblogs.com/dyllove98/archive/2013/06/16/3138844.html
總結
以上是生活随笔為你收集整理的王家林 云计算分布式大数据Hadoop实战高手之路第七讲Hadoop图文训练课程:通过HDFS的心跳来测试replication具体的工作机制和流程...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 批量scp脚本——从多台机器拷贝文件
- 下一篇: 区分Activity的四种加载模式