日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

hive与hbase的以及mongodb和cassandra区别整理

發(fā)布時(shí)間:2023/12/31 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hive与hbase的以及mongodb和cassandra区别整理 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?

?

HiveHbase
數(shù)據(jù)處理和計(jì)算問(wèn)題實(shí)時(shí)數(shù)據(jù)查詢(xún)問(wèn)題
不是數(shù)據(jù)庫(kù)NoSQL數(shù)據(jù)庫(kù)
清洗數(shù)據(jù)海量數(shù)據(jù)查詢(xún)接口
OLAPOLTP(嚴(yán)格講只是OLP,不包含T)
邏輯表,不存儲(chǔ)實(shí)際數(shù)據(jù)物理表
行模式列模式
不提供row-level的更新支持row-level的更新
完整的SQL實(shí)現(xiàn)不適用于有join,多級(jí)索引,表關(guān)系復(fù)雜
HDFS文件的視圖,HDFS文件的SQL接口建了索引的key-value表
批處理事務(wù)處理(例如和web開(kāi)發(fā)結(jié)合)
單次Hive查詢(xún)都需要耗費(fèi)分鐘級(jí)以上的時(shí)間(哪怕一個(gè)再小的表),因此無(wú)法作為web后端的數(shù)據(jù)庫(kù)使用。

HBase可以替代MySQL使用,至少淘寶就是這么做了。

HBase是建造在HDFS基礎(chǔ)上的分布式數(shù)據(jù)庫(kù),可以支持海量數(shù)據(jù)(比MySQL高一到兩個(gè)量級(jí))的存儲(chǔ)和查詢(xún)。

DataGripPhoenix
hive可以?huà)旖觝base,即針對(duì)hbase開(kāi)放出SQL的接口

不用Hive,也能操作HBase

Hive是建立在Hadoop之上為了減少M(fèi)apReduce jobs編寫(xiě)工作的批處理系統(tǒng)HBase是為了支持彌補(bǔ)Hadoop對(duì)實(shí)時(shí)操作的缺陷的項(xiàng)目 。
蜜蜂蜂蜜
Hive支持標(biāo)準(zhǔn)SQL查詢(xún)HBase不支持SQL,有自己的語(yǔ)法規(guī)則
一種客戶(hù)端工具一種db

?

從上面的表格可以看出,hbase可以替換hive嗎?不行,因?yàn)閔base支持不了復(fù)雜的sql

?

比起單機(jī)的Oracle和MySQL,好處就是伸縮性好啊

劣勢(shì)就是分布式帶來(lái)的可用性,一致性,分區(qū)容忍性~等問(wèn)題,以及分布式事務(wù)難以實(shí)現(xiàn)。

Hbase,主要用于明細(xì)查詢(xún),即席查詢(xún),因?yàn)樗彀?#xff0c;但是不適合多條件查詢(xún)

?

?

hive更像是hadoop客戶(hù)端,可以將SQL任務(wù)轉(zhuǎn)化為mapreduce任務(wù)操作hdfs中的數(shù)據(jù)。

hbase則是支持大數(shù)據(jù)存儲(chǔ)和查詢(xún)的數(shù)據(jù)倉(cāng)庫(kù),在CAP理論中,選擇了CA,保留了一致性,舍棄了可用性,簡(jiǎn)單直白理解就是不容易丟數(shù)據(jù)。是noSQL典型代表。

?

使用關(guān)系
?? ?源數(shù)據(jù)生產(chǎn)者 -Flume/Kafka-> Flume/消費(fèi)者 -write-> HDFS -Hive.load-> Hive -ETL/Analyze.result-> HBase
?? ?源數(shù)據(jù)生產(chǎn)者 -Kafka-> SparkStreaming/消費(fèi)者 -write-> HDFS [-SparkSQL-> Hive] && [-SparkSQL-> HBase]
?

類(lèi)比于單機(jī)系統(tǒng)。hdfs就是linux的文件系統(tǒng),hbase就是資源管理器,hive就是圖形化界面,GUI再快,不可能快過(guò)命令行

?

個(gè)人理解:

hive的優(yōu)勢(shì)是在于對(duì)于集群文件HDFS的查詢(xún)功能。

HBase早期在國(guó)內(nèi)被很多大型互聯(lián)網(wǎng)公司大規(guī)模使用,促進(jìn)了國(guó)內(nèi)的生態(tài)發(fā)展,而Cassandra似乎在國(guó)外發(fā)展得更好

?

?

Hbase,主要用于明細(xì)查詢(xún),即席查詢(xún),因?yàn)樗彀?#xff0c;但是不適合多條件查詢(xún)

?

?hbase適合寫(xiě)密集型應(yīng)用,每天寫(xiě)入量巨大,而相對(duì)讀數(shù)量較小的應(yīng)用,比如IM的歷史消息,游戲的日志等等

HBase是根據(jù)谷歌的BigTable設(shè)計(jì)的。典型的應(yīng)用場(chǎng)景就是不斷插入新的信息(谷歌的情況下就是互聯(lián)網(wǎng)上新生成的網(wǎng)頁(yè)),而不怎么修改。比如現(xiàn)在Facebook的messenger就是用HBase實(shí)現(xiàn)的。

這里要提到HBase是按行存儲(chǔ)的,所以特點(diǎn)就是插入(ingest)快。但是做分析的時(shí)候經(jīng)常是要按列掃描(scan)的。比如算一個(gè)公司員工的平均工資。

Cloudera在推出新的列存儲(chǔ)引擎Kudu的時(shí)候討論過(guò)HDFS,HBase,和Kudu的應(yīng)用場(chǎng)景。

?

根據(jù)[2]其實(shí)Cassandra的寫(xiě)入性能比Hbase更勝一籌,并且讀取性能也優(yōu)于hbase

?

下面是商用的公司:

數(shù)據(jù)庫(kù)公司
Hbase美團(tuán),淘寶
Cassandra蘋(píng)果

?

注意,無(wú)論是國(guó)內(nèi)的前程無(wú)憂(yōu)還是國(guó)外的indeed,目前hbase的崗位需求都高于cassandra十倍以上。


Reference:

[1]HBase 和 Hive 的差別是什么,各自適用在什么場(chǎng)景中?

[2]Cassandra HBase和MongoDb性能比較

總結(jié)

以上是生活随笔為你收集整理的hive与hbase的以及mongodb和cassandra区别整理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。