仓库处理中 无法修改_阿里云自研数据仓库 AnalyticDB 再捧 TPC 全球冠军
5月14日,TPC 官網(wǎng)正式公布,阿里云自研的 AnalyticDB 通過了TPC-DS全流程測試,將前世界紀(jì)錄的性能提升了29%,并把單位成本降低了三分之二,成功奪得全球數(shù)據(jù)倉庫的桂冠。
云市場“只見新人笑、不見老牌哭”。
目前業(yè)界普遍認(rèn)為容器、物聯(lián)網(wǎng)、數(shù)據(jù)庫和數(shù)倉會是云計算未來四大增長技術(shù)。尤其是物聯(lián)網(wǎng)將帶來的30倍于目前互聯(lián)網(wǎng)的流量,將會促使業(yè)界從傳統(tǒng)的 Big Data 向 Fast Data 的演進(jìn)歷史。
據(jù)最新預(yù)測數(shù)據(jù),到 2025 年企業(yè) 50% 的數(shù)據(jù)是云存儲,企業(yè) 75% 的數(shù)據(jù)庫運(yùn)行在云上。可以說一個性能強(qiáng)大的數(shù)倉產(chǎn)品,已經(jīng)成為云服務(wù)商的必選項了。
據(jù)Gartner最新數(shù)據(jù),亞馬遜、微軟、阿里巴巴三家云計算巨頭之間激戰(zhàn)正酣。贏者通吃,是云計算市場真實的寫照。相信本次AnalyticDB的表現(xiàn),對于阿里云繼續(xù)擴(kuò)大市場份額,有一些推動作用。
初識數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是由比爾?恩門(Bill Inmon)教授在1990年提出,在概念提出伊始,主要功能是將通過聯(lián)機(jī)事務(wù)處理(OLTP)所產(chǎn)生大量數(shù)據(jù),透過數(shù)據(jù)倉庫理論的資料儲存架構(gòu),進(jìn)行數(shù)據(jù)的分析整理,進(jìn)而支持如決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EIS)的創(chuàng)建,幫助用戶在快速有效的大量數(shù)據(jù)中,分析出有價值的資訊,以利決策擬定及快速回應(yīng)外在環(huán)境變動,幫助建構(gòu)商業(yè)智能(BI)。與傳統(tǒng)的數(shù)據(jù)庫相比數(shù)據(jù)倉庫的不同之處有以下幾點:
1、數(shù)據(jù)倉庫是面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。
2、數(shù)據(jù)倉庫的數(shù)據(jù)是其它數(shù)據(jù)源抽取而來。數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成,統(tǒng)一與綜合后才能進(jìn)入數(shù)據(jù)倉庫。數(shù)倉中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。
3、數(shù)據(jù)倉庫是不可更新的。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦數(shù)據(jù)被修改,其實就涉嫌數(shù)據(jù)造假,一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,修改和刪除操作,通常只是定期的加載、刷新。
TP數(shù)據(jù)庫是面向事務(wù)處理的,所謂事務(wù)其實就是交易各個狀態(tài)之間的遷移與記錄,因此TP庫各個業(yè)務(wù)系統(tǒng)之間各自分離。AP數(shù)倉中的則是按照一定的主題域進(jìn)行組織的。主題是與TP數(shù)據(jù)庫的面向應(yīng)用相對應(yīng)的,是一個抽象概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。每一個主題對應(yīng)一個宏觀的分析領(lǐng)域。可以說處理任務(wù)的不同是TP數(shù)據(jù)庫與AP數(shù)倉之間的本質(zhì)區(qū)別。
數(shù)據(jù)倉庫的江湖慢是“原罪”
在這個Fast Data的時代,誰的數(shù)倉能先跑出結(jié)果,誰就能掌握先機(jī)。比如目前筆者所在銀行業(yè)的核心系統(tǒng)一般都用Oracle數(shù)據(jù)庫,來進(jìn)行交易處理(TP),完成整個流程性應(yīng)用的內(nèi)容,并產(chǎn)生應(yīng)用數(shù)據(jù)數(shù)據(jù)。等交易結(jié)束了,數(shù)據(jù)的生命周期也結(jié)束了。要想把數(shù)據(jù)價值做二次表達(dá),要每天做ETL,跑批作業(yè),存到數(shù)據(jù)倉庫中,然后在數(shù)據(jù)倉庫中建模、挖掘、數(shù)據(jù)集市、ODS,一層一層地構(gòu)建起數(shù)據(jù)倉庫報表。
這時可能一些更細(xì)節(jié)、隱含的問題,比如非線性問題還是回答不了,那么就要把數(shù)據(jù)復(fù)制到SAS中做機(jī)器學(xué)習(xí),再做統(tǒng)計的指標(biāo)體系,去做進(jìn)一步的挖掘。數(shù)據(jù)要在這里搬動三次,復(fù)制三份冗余,還要管理數(shù)據(jù)一致性,每天數(shù)據(jù)中心運(yùn)維的大量工作在做數(shù)據(jù)搬家。而所以分析處理(AP)操作結(jié)束往往都已經(jīng)是T+1日的下午了,這樣的效率是無法滿足云時代快速展示的競爭要求。
因此云時代的數(shù)據(jù)中心急需要一款融合性的計算框架,AnalyticDB所帶來的極致速度,堪稱云時代計算框架的典范。在Forrester發(fā)布《The Forrester Wave: Cloud Data Warehouse》研究報告中,阿里云入選強(qiáng)勁表現(xiàn)者象限,位列中國廠商中的第一。
AnalyticDB的速度之源
在翻閱了AnalyticDB的論文(https://dl.acm.org/doi/10.14778/3352063.3352124)之后,筆者ADB最大的亮點在于其基于 Raft 協(xié)議構(gòu)建了一套分布式強(qiáng)一致高可靠的輕量級存儲。ADB存儲可實現(xiàn)高吞吐實時寫入,在實時寫入強(qiáng)一致可見、支持 ACID ,特別極致分析性能場景,在SQL 分析性能上有較大優(yōu)勢。AnalyticDB 存儲整體架構(gòu)如下:
目前在一致性算法領(lǐng)域幾乎是Paxos的天下,如阿里的金融級分布式數(shù)據(jù)庫OceanBase是使用Paxos算法來保證節(jié)點一致性的,詳見《200行代碼解讀國產(chǎn)數(shù)據(jù)庫阿里在OceanBase的速度頭源》。本次ADB使用RAFT協(xié)議做為其自研存儲的一致性算法,則給業(yè)界帶來了一股清新的氣息。
一個最小化的Raft集群,典型節(jié)點數(shù)量是5個,這樣的配置可以同時容忍兩臺服務(wù)器出現(xiàn)故障。服務(wù)器可能會處于如下三種角色:leader、candidate、follower,正常運(yùn)行的情況下,會有一個leader,其他全為follower,follower只會響應(yīng)leader和candidate的請求,客戶端的請求則全部由leader處理,即使有客戶端請求了一個follower也會將請求重定向到leader。candidate代表候選人,出現(xiàn)在選舉leader階段,選舉成功后candidate將會成為新的leader。可能出現(xiàn)的狀態(tài)轉(zhuǎn)換關(guān)系如下圖:
可以看到,在RAFT集群剛啟動時,所有節(jié)點都是follower,之后在time out信號的驅(qū)使下,follower會轉(zhuǎn)變成candidate去拉取選票,獲得大多數(shù)選票后就會成為leader,這時候如果其他候選人發(fā)現(xiàn)了新的leader已經(jīng)誕生,就會自動轉(zhuǎn)變?yōu)閒ollower;而如果另一個time out信號發(fā)出時,將會重新開始一次新的選舉。
不光是自研存儲,ADB在高性能批量導(dǎo)入、高吞吐實時更新 DML、行列混存和智能索引等方面也有很多創(chuàng)新點,后續(xù)有機(jī)會筆者再詳細(xì)向大家介紹。
更多精彩推薦
?自動化神經(jīng)網(wǎng)絡(luò)理論進(jìn)展緩慢,AutoML 算法的邊界到底在哪?
?瑞幸咖啡 CEO 和 COO 被暫停職務(wù);快手起訴抖音索賠 500 萬元;Wine 5.8 發(fā)布 | 極客頭條
?任正非談“狼文化”:華為沒有 996,更沒有 007
?作詞家下崗系列:教你用 AI 做一個寫歌詞的軟件!
?手把手教你配置VS Code 遠(yuǎn)程開發(fā)工具,工作效率提升N倍
?區(qū)塊鏈必讀“上鏈”哲學(xué):“胖鏈下”與“瘦鏈上”
你點的每個“在看”,我都認(rèn)真當(dāng)成了喜歡總結(jié)
以上是生活随笔為你收集整理的仓库处理中 无法修改_阿里云自研数据仓库 AnalyticDB 再捧 TPC 全球冠军的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 很好的阻止了事件的发生_请定好您的闹钟,
- 下一篇: java和c语言的区别_单片机为什么一直