关于HTAP与HSAP
交易分析混合負載HTAP方興未艾時,同時,還有一個新的概念在業(yè)界流轉(zhuǎn),即HSAP,Hybrid Serving & Analytical processing 服務(wù)分析混合負載。
1. 概念
在討論HSAP之前,首先需要了解其概念中對服務(wù)與分析的區(qū)分。相當(dāng)多從應(yīng)用角度對數(shù)據(jù)處理分類的劃分,大致分為Transaction交易與Analysis分析兩大類,一類位于企業(yè)數(shù)據(jù)架構(gòu)的上游用于生產(chǎn)數(shù)據(jù),一類位于企業(yè)數(shù)據(jù)架構(gòu)的下游用于數(shù)據(jù)價值的利用。而HSAP則對位于下游的數(shù)據(jù)價值利用進行了進一步的區(qū)分:簡單查詢與復(fù)雜的分析查詢,前者涉及的數(shù)據(jù)范圍小,實質(zhì)上是傳統(tǒng)TP系統(tǒng)擅長的點查,或者簡單聚合查詢,后者涉及的數(shù)據(jù)范圍大,需要掃描大量數(shù)據(jù),實質(zhì)上是傳統(tǒng)AP系統(tǒng)擅長的分析類查詢。在HSAP的概念中,將簡單點查稱為“數(shù)據(jù)服務(wù)”,將”復(fù)雜查詢“稱為“分析”,而兩者的混合負載就稱為HSAP,這就是HSAP概念的解釋。
2. HSAP需求分析
初看起來,HSAP的需求,HTAP也能實現(xiàn):Transaction交易機制滿足QPS類點查需求,Analysis分析機制滿足復(fù)雜查詢需求。而在標(biāo)準(zhǔn)的HTAP數(shù)據(jù)庫(一般是指分布式數(shù)據(jù)庫,不包括那些自稱是HTAP但實際是傳統(tǒng)單體數(shù)據(jù)庫架構(gòu)的產(chǎn)品)中,一般都存在兩套技術(shù)機制,即基于行存的交易機制與基于列存的分析機制,兩者采用分離且實時一致的存儲引擎,或者統(tǒng)一且行列混布的共享存儲引擎。
但為什么又會有HSAP的提法呢?其核心的原因?qū)嶋H上來源于:HSAP的出現(xiàn)是為了滿足企業(yè)對“大數(shù)據(jù)”的需求。也就是說,HTAP雖然同時滿足交易類數(shù)據(jù)的分析查詢需求,但對更大范圍的大數(shù)據(jù),比如來自日志等非交易系統(tǒng)(用戶行為)的數(shù)據(jù),則不能很好的滿足。因為HTAP系統(tǒng)設(shè)計的基石和優(yōu)勢是支持細粒度的分布式事務(wù),交易型數(shù)據(jù)往往以大量分布式小事務(wù)的方式寫入HTAP系統(tǒng)。而來自日志等系統(tǒng)的數(shù)據(jù),大多并沒有分布式事務(wù)的需求,以HTAP系統(tǒng)來處理它們,顯然會帶來不必要的開銷,從而降低了系統(tǒng)效能;更重要的是,這類非交易型大數(shù)據(jù)的體量,要比交易數(shù)據(jù)大的多,甚至是好幾個數(shù)據(jù)級,這就帶來了HSAP系統(tǒng)的另一個技術(shù)要求:動輒每秒鐘數(shù)千萬甚至上億條事件的極高吞吐數(shù)據(jù)實時寫入,包括海量單條與低頻批量。只有能夠與HTAP一樣,實時的承載大數(shù)據(jù)+交易數(shù)據(jù)的寫入,并在秒級甚至亞秒級就能被服務(wù)與分析所消費,而不是需要一個冗長的離線ETL過程,HSAP的概念才真正有意義。
相當(dāng)長一段時間以來,企業(yè)面向這種HSAP的需求都是采用一套復(fù)雜的技術(shù)棧組合來完成的,例如用Flink+HBase+Hive/Druid等等形成一個集成系統(tǒng),其間不可避免的數(shù)據(jù)孤島、數(shù)據(jù)同步、一致性等問題對開發(fā)與運維都帶來了巨大的復(fù)雜性,而HSAP即是用一套系統(tǒng)來滿足這種要求。
在如上討論中,分布式是一個隱含的條件,因為彈性與擴展需求是不言而喻的,這里就不再贅述。
3. HSAP技術(shù)特性
至此,關(guān)于HSAP不僅是概念清楚了,即“服務(wù)分析混合負載的分布式數(shù)據(jù)系統(tǒng)”,而且對其技術(shù)特性與要求也清楚了:
4. HSAP與HTAP
再來看看HSAP與HTAP的區(qū)別。本質(zhì)上,HSAP的出現(xiàn),是因為在應(yīng)對更大數(shù)量的非交易型大數(shù)據(jù)需求時,HTAP中Transaction的分布式小事務(wù)能力,其實是不需要的,但卻會帶來不必要的開銷。從而,HSAP為了滿足這一類的需求,對HTAP中的分布式小事務(wù)能力進行了妥協(xié),從而帶來了吞吐、性能的提升,這實際上是繼Hadoop類大數(shù)據(jù)系統(tǒng)與分布式事務(wù)型數(shù)據(jù)庫之后,CAP理論的又一產(chǎn)出。
這樣看來,HSAP與HTAP都會成為企業(yè)數(shù)據(jù)架構(gòu)中不可或缺的重要組成部分,而在應(yīng)對有規(guī)模企業(yè),特別是當(dāng)互聯(lián)網(wǎng)/物聯(lián)網(wǎng)應(yīng)用不斷擴大時,企業(yè)分析查詢對大數(shù)據(jù)有著越來越高的需求,那么這時,HSAP就有了其更加不可或缺的作用。而對HTAP數(shù)據(jù)庫來講,雖然在技術(shù)實現(xiàn)上并不會太簡單,但從本質(zhì)上講,HTAP在對其分布式事務(wù)能力進行妥協(xié)后,應(yīng)該也有同時具備HSAP能力的潛能。
總結(jié)
以上是生活随笔為你收集整理的关于HTAP与HSAP的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么是HTAP 阿里云上实现
- 下一篇: 图象关于y轴对称是什么意思_函数图象关于