hadoop的限制/不足
Hadoop不足:
1.不適合低延遲數(shù)據(jù)訪問(wèn)
HDFS面向大規(guī)模數(shù)據(jù)批處理設(shè)計(jì),采用流式數(shù)據(jù)處理,具有很高的數(shù)據(jù)吞吐率,但這也意味著有較高的延時(shí)。
2.不能夠高效的存儲(chǔ)小文件數(shù)據(jù)
Hadoop是基于HDFS文件存儲(chǔ)系統(tǒng),HDFS是采用塊為基本單位存儲(chǔ)數(shù)據(jù),每個(gè)塊大小為64KB(不確定現(xiàn)在多少),如果一個(gè)文件達(dá)不到64KB,也會(huì)存成一個(gè)獨(dú)立的塊。如果存在大量的小文件(假設(shè)都小于64KB)那么會(huì)造成每個(gè)塊都無(wú)法存儲(chǔ)滿,造成大量的空間浪費(fèi)。
HDFS是采用主從節(jié)點(diǎn)架構(gòu)。集群中只設(shè)置一個(gè)主節(jié)點(diǎn)(可能有備份主節(jié)點(diǎn)),可由很多個(gè)從節(jié)點(diǎn)。主節(jié)點(diǎn)負(fù)責(zé)集群管理,資源配置,作業(yè)調(diào)度等。從節(jié)點(diǎn)負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)與讀取。HDFS采用主節(jié)點(diǎn)管理元數(shù)據(jù),元數(shù)據(jù)被保存在內(nèi)存中,從而使得客戶端可以快速查詢到數(shù)據(jù)塊位置,數(shù)據(jù)塊號(hào)。然后再在從節(jié)點(diǎn)讀寫(xiě)數(shù)據(jù)。如果存在大量小文件,則會(huì)使得在主節(jié)點(diǎn)查詢效率降低。導(dǎo)致主節(jié)點(diǎn)效率下降。
3.不支持用戶寫(xiě)入并修改文件
Hadoop現(xiàn)在還不支持多人寫(xiě)入,任意修改的功能。只允許一個(gè)文件有一個(gè)寫(xiě)入者,不允許多個(gè)用戶堆同一文件執(zhí)行寫(xiě)操作,而且只允許對(duì)文件進(jìn)行追加,也就是說(shuō)每次寫(xiě)入都會(huì)添加在文件末尾(區(qū)分關(guān)系型數(shù)據(jù)庫(kù)的特點(diǎn))。
總結(jié)
以上是生活随笔為你收集整理的hadoop的限制/不足的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 编译asp.net文件为dll文件
- 下一篇: CentOS 5 上安装git