hadoop streaming archives解压jar、zip、tar.gz的验证分析
云計算
這篇文章主要講解了“hadoop streaming archives解壓jar、zip、tar.gz的驗證分析”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“hadoop streaming archives解壓jar、zip、tar.gz的驗證分析”吧!
1、archives作用描述:
Hadoop中DistributedCache方法之一(其他參考文章后面的參考文章),作用是將指定文件分發到各個Task的工作目錄下,并對名稱后綴為“.jar”、“.zip”,“.tar.gz”、“.tgz”的文件自動解壓,默認情況下,解壓后的內容存放到工作目錄下名稱為解壓前文件名的目錄中,比如壓縮包為dict.zip,則解壓后內容存放到目錄dict.zip中。為此,你可以給文件起個別名/軟鏈接,比如dict.zip#dict,這樣,壓縮包會被解壓到目錄dict中。
2、測試jar文件(基本直接摘抄參考文檔的)
$lstest_jar/filefile1file2file=thisisfile1(實驗的時候這里搞錯了,應該是用file1,對結果無影響,不做修改了)file2=thisisfile2$jarcvfcache.jar-Ctest_jar/.$hdfsdfs-putcache.jar/user/work/cachefile#touch一個input.txt文件,然后put到/user/work/cachefile$hdfsdfs-cat/user/work/cachefile/input.txtcache/file(cache是解壓后的目錄名,用#重定義的別名,參加下面的)cache/file2HADOOP_HOME=/home/hadoop/hadoop-2.3.0-cdh6.1.3$HADOOP_HOME/bin/hadoopfs-rmr/cacheout/$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.3.0-cdh6.1.3.jar\\-archives/user/work/cachefile/cache.jar#cache\\-Dmapred.map.tasks=1\\-Dmapred.reduce.tasks=1\\-Dmapred.job.name="Experiment"\\-input"cachefile/input2.txt"\\-output"/cacheout/"\\-mapper"xargscat"\\-reducer"cat"hadoopfs-cat/cacheout/*thisisfile2thisisfile1
3、測試zip & tar.gz
分別打包zip , tar.gz的壓縮包,put到hdfs繼續測試。
-archives/user/work/cachefile/cache.tar.gz#cache\\只修改后綴名,會報文件找不到的錯誤
查錯:確認是否能解壓,將mapper 改成:
-mapper"lscache"\\
發現:jar文件 :結果有4個文件,分別是META-INF、file、file1、file2
zip & tar.gz:只有一個,是test_jar的目錄名
然后查看3種包的壓縮文件,顯然是解壓成功了,找不到文件的原因是目錄問題,這個就要詳細研究下3中打包方式了,不再贅述。:
感謝各位的閱讀,以上就是“hadoop streaming archives解壓jar、zip、tar.gz的驗證分析”的內容了,經過本文的學習后,相信大家對hadoop streaming archives解壓jar、zip、tar.gz的驗證分析這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是箭頭云,小編將為大家推送更多相關知識點的文章,歡迎關注!
總結
以上是生活随笔為你收集整理的hadoop streaming archives解压jar、zip、tar.gz的验证分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: hadoop中map的个数是多少
- 下一篇: linux CentOS 7 云服务器常