日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hadoop深入研究:(五)——Archives

發布時間:2023/12/10 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hadoop深入研究:(五)——Archives 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載請注明來源地址:http://blog.csdn.net/lastsweetop/article/details/9123155

簡介

我們在hadoop深入研究:(一)——hdfs介紹里已講過,hdfs并不擅長存儲小文件,因為每個文件最少一個block,每個block的元數據都會在namenode節點占用內存,如果存在這樣大量的小文件,它們會吃掉namenode節點的大量內存。 hadoop Archives可以有效的處理以上問題,他可以把多個文件歸檔成為一個文件,歸檔成一個文件后還可以透明的訪問每一個文件,并且可以做為mapreduce任務的輸入。

?

用法

hadoop Archives可以使用archive工具創建,同上一篇講的distcp一樣,archive也是一個mapreduce任務。首先我們先來看下我的目錄結構:

?

[hadoop@namenode ~]$hadoop fs -lsr drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2013-06-20 12:37 /user/hadoop/har drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2013-05-23 11:35 /user/hadoop/input -rw-r--r-- ? 2 hadoop supergroup ? ? 888190 2013-05-23 11:35 /user/hadoop/input/1901 -rw-r--r-- ? 2 hadoop supergroup ? ? 888978 2013-05-23 11:35 /user/hadoop/input/1902 -rw-r--r-- ? 2 hadoop supergroup ? ? ? ?293 2013-06-02 17:44 /user/hadoop/news.txt 我們通過archive工具才對該目錄進行歸檔
hadoop archive -archiveName input.har -p /user/hadoop/ input har archiveName指定archive的文件名,-p代表父目錄,可以把多個目錄文件放到archive里,我們來看下創建好的har文件。 [hadoop@namenode ~]$hadoop fs -ls har Found 1 items drwxr-xr-x - hadoop supergroup 0 2013-06-20 12:38 /user/hadoop/har/input.har [hadoop@namenode ~]$hadoop fs -ls har/input.har Found 4 items -rw-r--r-- 2 hadoop supergroup 0 2013-06-20 12:38 /user/hadoop/har/input.har/_SUCCESS -rw-r--r-- 5 hadoop supergroup 272 2013-06-20 12:38 /user/hadoop/har/input.har/_index -rw-r--r-- 5 hadoop supergroup 23 2013-06-20 12:38 /user/hadoop/har/input.har/_masterindex -rw-r--r-- 2 hadoop supergroup 1777168 2013-06-20 12:38 /user/hadoop/har/input.har/part-0 這里可以看到har文件包括,兩個索引文件,多個part文件,這里只顯示一個。part文件是多個原文件的集合,根據index文件去找到原文件。 如果用har uri去訪問的話,這些文件就會隱藏起來,只顯示原文件 [hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har drwxr-xr-x - hadoop supergroup 0 2013-05-23 11:35 /user/hadoop/har/input.har/input -rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902 -rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901 還可以象普通文件系統那樣訪問har下一級的文 [hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har/input -rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902 -rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901 如果要遠程訪問的話可以使用以下命令 [hadoop@namenode ~]$hadoop fs -lsr har://hdfs-namenode:9000/user/hadoop/har/input.har/input -rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902 -rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901 har開頭說明時har文件系統,hdfs-域名:端口,har文件系統進行轉換直到har文件末位,例子中會轉換為hdfs://namenode:9000/user/hadoop/har/input.har,剩余的部分仍然用archive方式打開:input 刪除文件相對簡單,但需要遞歸刪除,否則報錯 [hadoop@namenode ~]$hadoop fs -rmr har/input.har Deleted hdfs://192.168.115.5:9000/user/hadoop/har/input.har

限制

archive文件有一些限制條件

1.創建archive文件要消耗和原文件一樣多的硬盤空間

2.archive文件不支持壓縮,盡管archive文件看起來象已經被壓縮過了。

3.archive文件一旦創建就無法改變,這就意味這你要改一些東西的話,你需要創新創建archive文件

4.雖然解決了namenode的內存空間問題,但是在執行mapreduce時,會把多個小文件交給同一個mapreduce去split,這樣明顯是低效的

解決namenode內存的問題可以參照之前的文章中的hdfs federation。

?

?

?

轉載于:https://www.cnblogs.com/snake-hand/p/3149452.html

總結

以上是生活随笔為你收集整理的hadoop深入研究:(五)——Archives的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。