當(dāng)前位置：首頁 >

仓库处理中无法修改_阿里云自研数据仓库 AnalyticDB 再捧 TPC 全球冠军

發(fā)布時間：2024/10/6 46 豆豆

生活随笔收集整理的這篇文章主要介紹了仓库处理中无法修改_阿里云自研数据仓库 AnalyticDB 再捧 TPC 全球冠军小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者 | 馬超責(zé)編 | 伍杏玲出品 | CSDN(ID：CSDNnews)

5月14日，TPC 官網(wǎng)正式公布，阿里云自研的 AnalyticDB 通過了TPC-DS全流程測試，將前世界紀(jì)錄的性能提升了29%，并把單位成本降低了三分之二，成功奪得全球數(shù)據(jù)倉庫的桂冠。

云市場“只見新人笑、不見老牌哭”。

目前業(yè)界普遍認(rèn)為容器、物聯(lián)網(wǎng)、數(shù)據(jù)庫和數(shù)倉會是云計算未來四大增長技術(shù)。尤其是物聯(lián)網(wǎng)將帶來的30倍于目前互聯(lián)網(wǎng)的流量，將會促使業(yè)界從傳統(tǒng)的 Big Data 向 Fast Data 的演進(jìn)歷史。

據(jù)最新預(yù)測數(shù)據(jù)，到 2025 年企業(yè) 50% 的數(shù)據(jù)是云存儲，企業(yè) 75% 的數(shù)據(jù)庫運(yùn)行在云上。可以說一個性能強(qiáng)大的數(shù)倉產(chǎn)品，已經(jīng)成為云服務(wù)商的必選項了。

據(jù)Gartner最新數(shù)據(jù)，亞馬遜、微軟、阿里巴巴三家云計算巨頭之間激戰(zhàn)正酣。贏者通吃，是云計算市場真實的寫照。相信本次AnalyticDB的表現(xiàn)，對于阿里云繼續(xù)擴(kuò)大市場份額，有一些推動作用。

初識數(shù)據(jù)倉庫

數(shù)據(jù)倉庫是由比爾?恩門(Bill Inmon)教授在1990年提出，在概念提出伊始，主要功能是將通過聯(lián)機(jī)事務(wù)處理(OLTP)所產(chǎn)生大量數(shù)據(jù)，透過數(shù)據(jù)倉庫理論的資料儲存架構(gòu)，進(jìn)行數(shù)據(jù)的分析整理，進(jìn)而支持如決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EIS)的創(chuàng)建，幫助用戶在快速有效的大量數(shù)據(jù)中，分析出有價值的資訊，以利決策擬定及快速回應(yīng)外在環(huán)境變動，幫助建構(gòu)商業(yè)智能(BI)。與傳統(tǒng)的數(shù)據(jù)庫相比數(shù)據(jù)倉庫的不同之處有以下幾點：

1、數(shù)據(jù)倉庫是面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù)，數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面，一個主題通常與多個操作型信息系統(tǒng)相關(guān)。

2、數(shù)據(jù)倉庫的數(shù)據(jù)是其它數(shù)據(jù)源抽取而來。數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù)，將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來，進(jìn)行加工與集成，統(tǒng)一與綜合后才能進(jìn)入數(shù)據(jù)倉庫。數(shù)倉中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的，必須消除源數(shù)據(jù)中的不一致性，以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。

3、數(shù)據(jù)倉庫是不可更新的。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用，所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢，一旦數(shù)據(jù)被修改，其實就涉嫌數(shù)據(jù)造假，一旦某個數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后，一般情況下將被長期保留，也就是數(shù)據(jù)倉庫中一般有大量的查詢操作，修改和刪除操作，通常只是定期的加載、刷新。

TP數(shù)據(jù)庫是面向事務(wù)處理的，所謂事務(wù)其實就是交易各個狀態(tài)之間的遷移與記錄，因此TP庫各個業(yè)務(wù)系統(tǒng)之間各自分離。AP數(shù)倉中的則是按照一定的主題域進(jìn)行組織的。主題是與TP數(shù)據(jù)庫的面向應(yīng)用相對應(yīng)的，是一個抽象概念，是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。每一個主題對應(yīng)一個宏觀的分析領(lǐng)域。可以說處理任務(wù)的不同是TP數(shù)據(jù)庫與AP數(shù)倉之間的本質(zhì)區(qū)別。

數(shù)據(jù)倉庫的江湖慢是“原罪”

在這個Fast Data的時代，誰的數(shù)倉能先跑出結(jié)果，誰就能掌握先機(jī)。比如目前筆者所在銀行業(yè)的核心系統(tǒng)一般都用Oracle數(shù)據(jù)庫，來進(jìn)行交易處理(TP)，完成整個流程性應(yīng)用的內(nèi)容，并產(chǎn)生應(yīng)用數(shù)據(jù)數(shù)據(jù)。等交易結(jié)束了，數(shù)據(jù)的生命周期也結(jié)束了。要想把數(shù)據(jù)價值做二次表達(dá)，要每天做ETL，跑批作業(yè)，存到數(shù)據(jù)倉庫中，然后在數(shù)據(jù)倉庫中建模、挖掘、數(shù)據(jù)集市、ODS，一層一層地構(gòu)建起數(shù)據(jù)倉庫報表。

這時可能一些更細(xì)節(jié)、隱含的問題，比如非線性問題還是回答不了，那么就要把數(shù)據(jù)復(fù)制到SAS中做機(jī)器學(xué)習(xí)，再做統(tǒng)計的指標(biāo)體系，去做進(jìn)一步的挖掘。數(shù)據(jù)要在這里搬動三次，復(fù)制三份冗余，還要管理數(shù)據(jù)一致性，每天數(shù)據(jù)中心運(yùn)維的大量工作在做數(shù)據(jù)搬家。而所以分析處理(AP)操作結(jié)束往往都已經(jīng)是T+1日的下午了，這樣的效率是無法滿足云時代快速展示的競爭要求。

因此云時代的數(shù)據(jù)中心急需要一款融合性的計算框架，AnalyticDB所帶來的極致速度，堪稱云時代計算框架的典范。在Forrester發(fā)布《The Forrester Wave: Cloud Data Warehouse》研究報告中，阿里云入選強(qiáng)勁表現(xiàn)者象限，位列中國廠商中的第一。

AnalyticDB的速度之源

在翻閱了AnalyticDB的論文(https://dl.acm.org/doi/10.14778/3352063.3352124)之后，筆者ADB最大的亮點在于其基于 Raft 協(xié)議構(gòu)建了一套分布式強(qiáng)一致高可靠的輕量級存儲。ADB存儲可實現(xiàn)高吞吐實時寫入，在實時寫入強(qiáng)一致可見、支持 ACID ，特別極致分析性能場景，在SQL 分析性能上有較大優(yōu)勢。AnalyticDB 存儲整體架構(gòu)如下：

目前在一致性算法領(lǐng)域幾乎是Paxos的天下，如阿里的金融級分布式數(shù)據(jù)庫OceanBase是使用Paxos算法來保證節(jié)點一致性的，詳見《200行代碼解讀國產(chǎn)數(shù)據(jù)庫阿里在OceanBase的速度頭源》。本次ADB使用RAFT協(xié)議做為其自研存儲的一致性算法，則給業(yè)界帶來了一股清新的氣息。

一個最小化的Raft集群，典型節(jié)點數(shù)量是5個，這樣的配置可以同時容忍兩臺服務(wù)器出現(xiàn)故障。服務(wù)器可能會處于如下三種角色：leader、candidate、follower，正常運(yùn)行的情況下，會有一個leader，其他全為follower，follower只會響應(yīng)leader和candidate的請求，客戶端的請求則全部由leader處理，即使有客戶端請求了一個follower也會將請求重定向到leader。candidate代表候選人，出現(xiàn)在選舉leader階段，選舉成功后candidate將會成為新的leader。可能出現(xiàn)的狀態(tài)轉(zhuǎn)換關(guān)系如下圖：

可以看到，在RAFT集群剛啟動時，所有節(jié)點都是follower，之后在time out信號的驅(qū)使下，follower會轉(zhuǎn)變成candidate去拉取選票，獲得大多數(shù)選票后就會成為leader，這時候如果其他候選人發(fā)現(xiàn)了新的leader已經(jīng)誕生，就會自動轉(zhuǎn)變?yōu)閒ollower；而如果另一個time out信號發(fā)出時，將會重新開始一次新的選舉。

不光是自研存儲，ADB在高性能批量導(dǎo)入、高吞吐實時更新 DML、行列混存和智能索引等方面也有很多創(chuàng)新點，后續(xù)有機(jī)會筆者再詳細(xì)向大家介紹。

更多精彩推薦

?自動化神經(jīng)網(wǎng)絡(luò)理論進(jìn)展緩慢，AutoML 算法的邊界到底在哪？

?瑞幸咖啡 CEO 和 COO 被暫停職務(wù)；快手起訴抖音索賠 500 萬元；Wine 5.8 發(fā)布 | 極客頭條

?任正非談“狼文化”：華為沒有 996，更沒有 007

?作詞家下崗系列：教你用 AI 做一個寫歌詞的軟件！

?手把手教你配置VS Code 遠(yuǎn)程開發(fā)工具，工作效率提升N倍

?區(qū)塊鏈必讀“上鏈”哲學(xué)：“胖鏈下”與“瘦鏈上”

你點的每個“在看”，我都認(rèn)真當(dāng)成了喜歡

總結(jié)

以上是生活随笔為你收集整理的仓库处理中无法修改_阿里云自研数据仓库 AnalyticDB 再捧 TPC 全球冠军的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：很好的阻止了事件的发生_请定好您的闹钟，
下一篇： java和c语言的区别_单片机为什么一直

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

仓库处理中 无法修改_阿里云自研数据仓库 AnalyticDB 再捧 TPC 全球冠军

總結(jié)

仓库处理中无法修改_阿里云自研数据仓库 AnalyticDB 再捧 TPC 全球冠军