Hadoop DistCp工具简介及其参数
生活随笔
收集整理的這篇文章主要介紹了
Hadoop DistCp工具简介及其参数
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1 概述
??DistCp(分布式拷貝)是用于大規模集群內部和集群之間拷貝的工具。 它使用Map/Reduce實現文件分發,錯誤處理和恢復,以及報告生成。 它把文件和目錄的列表作為map任務的輸入,每個任務會完成源列表中部分文件的拷貝。官網地址:http://hadoop.apache.org/docs/r2.7.0/hadoop-distcp/DistCp.html
2 適合的場景及其有點
??適合場景:數據異地災;機房下線,數據遷移等。
??優點:①可以限制帶寬,使用bandwidth參數對distcp的每個map任務限流,同時控制map并發數量即可控制整個拷貝任務的帶寬,防止拷貝任務將帶寬打滿,影響其它業務。
??②支持overwrite(覆蓋寫,無條件覆蓋目標文件,即使它們存在),update(增量寫,如果dest文件的名稱和大小與src文件不同,則覆蓋;若目的文件大小和名稱與源文件相同則跳過),delete(刪除寫,刪除dst中存在的文件,但在src中不存在)等多種源和目的校驗的拷貝方式,大量數據的拷貝必然要做到數據拷貝過程中的校驗,來保證源和目的數據的一致性。
2 參數說明
??此參數為Hadoop2.x版本
# hadoop distcp usage: distcp OPTIONS [source_path...] <target_path>OPTIONS-append 重用目標文件中的現有數據,并在可能的情況下添加新數據,新增進去而不是覆蓋它-async 是否應該阻塞distcp執行-atomic 提交所有更改或不提交更改-bandwidth <arg> 以MB/second為單位指定每個map的帶寬-delete 刪除目標文件中存在的文件,但在源文件中不存在,走HDFS垃圾回收站-diff <arg> 使用snapshot diff報告來標識源和目標之間的差異-f <arg> 需要復制的文件列表-filelimit <arg> (已棄用!)限制復制到<= n的文件數-filters <arg> 從復制的文件列表中排除-i 忽略復制過程中的失敗-log <arg> HDFS上的distcp執行日志文件夾保存-m <arg> 限制同步啟動的map數,默認每個文件對應一個map,每臺機器最多啟動20個map-mapredSslConf <arg> 配置ssl配置文件,用于hftps://-numListstatusThreads <arg> 用于構建文件清單的線程數(最多40個),當文件目錄結構復雜時應該適當增大該值-overwrite 選擇無條件覆蓋目標文件,即使它們存在。-p <arg> 保留源文件狀態(rbugpcaxt)(復制,塊大小,用戶,組,權限,校驗和類型,ACL,XATTR,時間戳)-sizelimit <arg> (已棄用!)限制復制到<= n的文件數字節-skipcrccheck 是否跳過源和目標路徑之間的CRC檢查。-strategy <arg> 選擇復制策略,默認值uniformsize,每個map復制的文件總大小均衡;可以設置為dynamic,使更快的map復制更多的文件,以提高性能-tmp <arg> 要用于原子的中間工作路徑承諾-update 如果目標文件的名稱和大小與源文件不同,則覆蓋;如果目標文件大小和名稱與源文件相同則跳過注意:如果設置了-overwrite或-update,則每個源URI和目標URI保持同級一致,如
hadoop distcp -i -p hdfs://192.168.40.100:8020/user/hive/warehouse/iot.db/dwd_pollution_distcp hdfs://192.168.40.200:8020/user/hive/warehouse/iot.db/ hadoop distcp -i -update -delete -p hdfs://192.168.40.100:8020/user/hive/warehouse/iot.db/dwd_pollution_distcp hdfs://192.168.40.200:8020/user/hive/warehouse/iot.db/dwd_pollution_distcp總結
以上是生活随笔為你收集整理的Hadoop DistCp工具简介及其参数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2022年计算机考研学校,2022计算机
- 下一篇: 逻辑回归-分类算法