當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop DistCp工具简介及其参数

發布時間：2024/7/5 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop DistCp工具简介及其参数小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 概述

??DistCp（分布式拷貝）是用于大規模集群內部和集群之間拷貝的工具。它使用Map/Reduce實現文件分發，錯誤處理和恢復，以及報告生成。它把文件和目錄的列表作為map任務的輸入，每個任務會完成源列表中部分文件的拷貝。官網地址：http://hadoop.apache.org/docs/r2.7.0/hadoop-distcp/DistCp.html

2 適合的場景及其有點

??適合場景：數據異地災；機房下線，數據遷移等。
??優點：①可以限制帶寬，使用bandwidth參數對distcp的每個map任務限流，同時控制map并發數量即可控制整個拷貝任務的帶寬，防止拷貝任務將帶寬打滿，影響其它業務。
??②支持overwrite（覆蓋寫，無條件覆蓋目標文件，即使它們存在），update（增量寫，如果dest文件的名稱和大小與src文件不同，則覆蓋；若目的文件大小和名稱與源文件相同則跳過），delete（刪除寫，刪除dst中存在的文件，但在src中不存在）等多種源和目的校驗的拷貝方式，大量數據的拷貝必然要做到數據拷貝過程中的校驗，來保證源和目的數據的一致性。

2 參數說明

??此參數為Hadoop2.x版本

# hadoop distcp usage: distcp OPTIONS [source_path...] <target_path>OPTIONS-append 重用目標文件中的現有數據，并在可能的情況下添加新數據，新增進去而不是覆蓋它-async 是否應該阻塞distcp執行-atomic 提交所有更改或不提交更改-bandwidth <arg> 以MB/second為單位指定每個map的帶寬-delete 刪除目標文件中存在的文件，但在源文件中不存在，走HDFS垃圾回收站-diff <arg> 使用snapshot diff報告來標識源和目標之間的差異-f <arg> 需要復制的文件列表-filelimit <arg> （已棄用！）限制復制到<= n的文件數-filters <arg> 從復制的文件列表中排除-i 忽略復制過程中的失敗-log <arg> HDFS上的distcp執行日志文件夾保存-m <arg> 限制同步啟動的map數，默認每個文件對應一個map，每臺機器最多啟動20個map-mapredSslConf <arg> 配置ssl配置文件，用于hftps：//-numListstatusThreads <arg> 用于構建文件清單的線程數(最多40個)，當文件目錄結構復雜時應該適當增大該值-overwrite 選擇無條件覆蓋目標文件，即使它們存在。-p <arg> 保留源文件狀態（rbugpcaxt）（復制，塊大小，用戶，組，權限，校驗和類型，ACL，XATTR，時間戳）-sizelimit <arg> （已棄用！）限制復制到<= n的文件數字節-skipcrccheck 是否跳過源和目標路徑之間的CRC檢查。-strategy <arg> 選擇復制策略，默認值uniformsize，每個map復制的文件總大小均衡；可以設置為dynamic，使更快的map復制更多的文件，以提高性能-tmp <arg> 要用于原子的中間工作路徑承諾-update 如果目標文件的名稱和大小與源文件不同，則覆蓋；如果目標文件大小和名稱與源文件相同則跳過

注意：如果設置了-overwrite或-update，則每個源URI和目標URI保持同級一致，如

hadoop distcp -i -p hdfs://192.168.40.100:8020/user/hive/warehouse/iot.db/dwd_pollution_distcp hdfs://192.168.40.200:8020/user/hive/warehouse/iot.db/ hadoop distcp -i -update -delete -p hdfs://192.168.40.100:8020/user/hive/warehouse/iot.db/dwd_pollution_distcp hdfs://192.168.40.200:8020/user/hive/warehouse/iot.db/dwd_pollution_distcp

總結

以上是生活随笔為你收集整理的Hadoop DistCp工具简介及其参数的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2022年计算机考研学校,2022计算机
下一篇：逻辑回归-分类算法