阿里云数据库再获学术顶会认可,一文全览VLDB最新亮点
一年一度的數據庫領域頂級會議VLDB 2019于當地時間8月26日-8月30日在洛杉磯圓滿落幕。在本屆大會上,阿里云數據庫產品團隊濃墨登場,不僅有多篇論文入選Research Track和Industrial Track,為了進一步加深產學研學術交流,阿里云還在大會期間舉辦了“阿里之夜”交流晚宴。
8月29日晚,超200名論文作者、行業專家、來自MIT、CMU等高校的學術界資深教授、學者和產業界人士共赴“阿里之夜——Alibaba Night Networking Event“,活動空前爆滿。在輕松氛圍中,參會者共同探討全球數據庫生態,并就阿里云目前在數據庫和大數據方面的最新技術進展進行交流與研討,開啟了一場智慧碰撞的盛宴。
在VLDB大會上,阿里巴巴集團副總裁、阿里云數據庫事業部總裁、達摩院數據庫首席科學家李飛飛進行題為《Cloud Native Database System at Alibaba: Opportunities and Challenges》的主題演講。李飛飛分享了云原生數據庫在阿里發展的心路歷程,并表示:“云原生數據庫天然擁有云計算的彈性能力,不僅具備開源數據庫的易用、開放特點,而且擁有傳統數據庫的管理和處理性能等優勢“。
他還詳細介紹了阿里云自研數據庫的兩款明星產品:OLTP數據庫——POLARDB基于共享存儲的Scale-up 架構和基于分片的scale-out分布式架構,以及OLAP數據庫——AnalyticDB的MPP架構、極具特色的全索引和行列混存結構,以及在海量數據場景下極致性能。
領跑數據時代 技術實力再獲權威認可
VLDB大會全稱International Conference on Very Large Data Bases,是數據庫及相關領域研究者、供應商、參與者、應用開發者所廣泛關注的主要國際學術會議,也是公認的數據庫領域三大頂級會議(SIGMOD、VLDB、ICDE)之一,反映了當前數據庫研究的前沿方向、工業界的最新技術以及各國的研發水平。在發表論文難度和受關注程度上,與SIGMOD可謂并駕齊驅。
根據大會官方公布,今年VLDB共接收了128篇Research Paper、22篇Industrial Paper和48個Demo。從投稿數量與錄用率來看,Research Paper投稿677篇,錄用率18.9%,Industry Paper為72/30.6%,只有具有極高創新性的論文才有機會被VLDB錄用。
作為阿里巴巴IT基礎設施的重要組成部分,阿里云數據庫在工程實踐和技術創新上一直走在領域前列,相關研究成果已多次入選國際數據庫頂級會議(SIGMOD、VLDB、ICDE等)。本次VLDB大會,阿里云數據庫共有3篇論文被收錄,下面小編將對入選的論文佳作進行匯總賞析,萃取精華之精華,以饗讀者。
No.1
論文題目:《S3: A Scalable In-memory Skip-List Index for Key-Value Store》
亮點:阿里云攜手浙江大學的最新聯合研究成果入選Industrial Track
作者:浙江大學Jingtian Zhang、Sai Wu、Zeyuan Tan、Gang Chen,阿里云數據庫產品事業部成柱石、曹偉、高玉嵩、酆曉杰
附送論文下載鏈接:http://www.vldb.org/pvldb/vol12/p2183-zhang.pdf
本文貢獻
針對 Skip List 這種被廣泛使用的索引結構,對其在高并發場景下的性能表現進行了詳實的測試驗證,建立數據模型分析在垂直下降和水平移動兩個不同方向上的 cost-model,確立 Skip List 在當前實現下的性能上限。
基于上述模型分析,設計實現了 S3:A Scalable In-memory Skip-List Index,通過分層的方法把整個結構分為兩部分:Top layer 利用 cache-sensitive 的數據結構來索引 bottom layer 的部分節點(guard entries),以大幅降低現有 Skip-List 在垂直下降過程中的性能損耗;Bottom layer 維護一個低層高的 Semi-ordered Skip-List,由多個 guard entries 分隔開,各 entries 之間有序、內部無序,以進一步提升其在插入方面的優勢。
考慮到 guard entryies 選擇的非確定性,結合實際場景中業務 workload 變化比較平滑,引入 Neural Model 來指導其selection,以達到更優的優化效果。
VLDB評委點評
“Many previous in-memory indexes, although showing significantly better performance than skip-list, have not been integrated with the real systems and thus, there is no clue about how they will work with other system modules. S3, on the other hand, can be easily integrated with the disk part of RocksDB and LevelDB, because it maintains the same interface.
The top layer is cache-oblivious, while the bottom layer can speed up the lookup operations of skip-list.
It’s an interesting idea to use a neural model, LSTM, to tune the index, i.e., optimizing guard entry selection and using some rules to optimize multi-thread access.
Extensive experiments for comparison of the proposed method with different in-memory indexes have been conducted and the result shows benefit, not to mention that it is implemented in a real system RocksDB.”
No.2
論文題目:《iBTune: Individualized Buffer Tuning for Large-scale Cloud Databases》
亮點:阿里巴巴在數據庫智能化方向的重要里程碑,入選Research Track
作者:阿里云譚劍、鐵贏、飛刀、艾奧、祺星、池院、洪林、石悅、鳴嵩、張瑞
附送論文下載鏈接:http://www.vldb.org/pvldb/vol12/p1221-tan.pdf
本文貢獻
基于數據驅動和機器學習算法的數據庫參數優化是近年來數據庫智能優化的一個熱點方向,但也面臨著很大的技術挑戰。要解決的問題是在大規模數據庫場景下,如何對百萬級別運行不同業務的數據庫實例完成自動配置,同時權衡性能和成本,在滿足SLA的前提下資源成本最低,該技術對于CSP(Cloud Service Provider)有重要價值。
學術界近一兩年在該方向有一些研究(比如CMU的OtterTune),但該算法依賴于一些人工先驗經驗且在大規模場景下不具備可擴展性。據了解, 其他云廠商Azure SQL Database以及AWS該方向都有投入,目前尚未看到相關論文或產品發布。
從18年初開始,阿里云開始數據庫智能參數優化的探索,從問題定義,關鍵算法設計,算法評估及改進,到最終端到端自動化流程落地,多個團隊通力合作完成了技術突破且實現了大規模落地。
這項工作不僅在數據庫智能參數優化理論方面提出了創新想法,而且目前已經在阿里集團~10000實例上實現了規?;涞?,累計節省~12%內存資源,是目前業界唯一一家真正實現數據庫智能參數優化大規模落地的公司。
經過算法探索和端到端自動Buffer Pool優化流程建設,FY2019集團內全網最終優化 ~10000 個實例,將整體內存使用量從 217T內存縮減到 190T內存,節省 12.44%內存資源(27TB)。
論文深度解讀請戳↓:
前沿 | VLDB 2019論文解讀:阿里巴巴大規模數據庫智能參數優化的創新與實踐
VLDB評委點評
Lessons learned from tuning many database instances in a production system offer interesting insights to the data management community.
It is encouraging to see how deep neural networks can help with tuning a parameter of the database system and how its results are used by the control plane of a large scale deployment to tune many database instances in a rolling fashion.
No.3
論文題目:《AnalyticDB: Realtime OLAP Database System at Alibaba Cloud》
亮點:阿里云大規模、海量數據實時分析型數據庫系統——AnalyticDB最新研究成果入選Industrial Track
作者:阿里云數據庫產品事業部占超群、蘇茂萌、魏闖先、彭曉強、林亮、汪晟、陳哲、李飛飛、潘岳、鄭方、柴成亮
附送論文下載鏈接:http://www.vldb.org/pvldb/vol12/p2059-zhan.pdf
本文貢獻
已有的分析型數據庫(以下簡稱OLAP)諸如Impala、Pinot、Druid等,總結了OLAP系統在設計的過程中應該解決的問題:低延遲、數據新鮮度、多樣性、低成本、高擴展性、高可靠性。和這些已有的OLAP系統相比,AnalyticDB承載著更大的規模:2000+臺物理機器、10PB+規模數據、百萬張數據表以及萬億條數據行。
論文講述了AnalyticDB如何在設計與實現上,不僅解決了已有OLAP系統的問題,還攻克了以下三大業界難題:
1) 隨著用戶分析需求的急劇增加,用戶的查詢變得復雜且多樣化:這些查詢涵蓋點查詢、全表掃描、多表關聯等,還會包含對任意列組合的篩選條件。如何在這種復雜分析場景下依然保證大部分甚至所有查詢的低延遲,是一個非常大的挑戰;
2) 如何在保證低延遲查詢的情況下,仍然能處理每秒千萬級別的寫吞吐。傳統的設計理念在同一條鏈路上同時處理讀寫請求,這會造成讀寫性能的互相嚴重影響。
3) 復雜分析場景下,會對行存、列存、關系型存儲、復雜數據類型(JSON、vector、text)都有著強烈需求。如何設計一個對這些存儲格式都很友好的存儲層,也是一個業界難題。
深度解讀請戳↓:
前沿 | VLDB論文解讀:阿里云超大規模實時分析型數據庫AnalyticDB
VLDB評委點評
This paper presents a solid OLAP database integrating a few interesting and well-designed ideas including an asynchronous all-column index, an extended hybrid row-column layout and a read/write decoupling architecture. The presentation is clear and the solution has been shown to be effective empirically.
The combination of different design choices indicate that the system achieves significant performance improvements over other similar systems.
本文作者:Roin
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的阿里云数据库再获学术顶会认可,一文全览VLDB最新亮点的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 优秀DWG看图软件尧创CAD
- 下一篇: echarts实现环形图