日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hologres揭秘:优化COPY,批量导入性能提升5倍+

發(fā)布時間:2024/9/3 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hologres揭秘:优化COPY,批量导入性能提升5倍+ 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
簡介:揭秘Hologres優(yōu)化COPY的技術(shù)原理,實現(xiàn)批量導入性能提升5倍+

Hologres(中文名交互式分析)是阿里云自研的一站式實時數(shù)倉,這個云原生系統(tǒng)融合了實時服務(wù)和分析大數(shù)據(jù)的場景,全面兼容PostgreSQL協(xié)議并與大數(shù)據(jù)生態(tài)無縫打通,能用同一套數(shù)據(jù)架構(gòu)同時支持實時寫入實時查詢以及實時離線聯(lián)邦分析。它的出現(xiàn)簡化了業(yè)務(wù)的架構(gòu),為業(yè)務(wù)提供實時決策的能力,讓大數(shù)據(jù)發(fā)揮出更大的商業(yè)價值。從阿里集團誕生到云上商業(yè)化,隨著業(yè)務(wù)的發(fā)展和技術(shù)的演進,Hologres也在持續(xù)不斷優(yōu)化核心技術(shù)競爭力,為了讓大家更加了解Hologres,我們計劃持續(xù)推出Hologres底層技術(shù)原理揭秘系列,從高性能存儲引擎到高效率查詢引擎,高吞吐寫入到高QPS查詢等,全方位解讀Hologres,請大家持續(xù)關(guān)注!

往期精彩內(nèi)容:

  • 2020年VLDB的論文《Alibaba Hologres: A cloud-Native Service for Hybrid Serving/Analytical Processing》
  • Hologres揭秘:首次公開!阿里巴巴云原生實時數(shù)倉核心技術(shù)揭秘
  • Hologres揭秘:首次揭秘云原生Hologres存儲引擎
  • Hologres揭秘:Hologres高效率分布式查詢引擎
  • Hologres揭秘:高性能原生加速MaxCompute核心原理

    本期我們將帶來Hologers COPY導入性能優(yōu)化實現(xiàn)性能提升5+倍方面的技術(shù)原理解讀。

背景

在PostgreSQL中,COPY命令用于文本文件數(shù)據(jù)導入,其在PG生態(tài)里面有著重要的作用:

  • 完美兼容PG幾十種數(shù)據(jù)類型,包括自定義類型等等。
  • 文本解析導入細節(jié)考慮的非常完善,也是業(yè)界標桿。
  • 業(yè)務(wù)價值,業(yè)務(wù)集成的成本低,psql一條命令或者copy manager等等無需第三方的集成依賴。
  • 日常開發(fā)測試中高頻使用,比如tpch測試,功能驗證,線上問題復現(xiàn)等。


Hologres完全兼容PG(PostgreSQL)生態(tài),支持使用COPY命令導入數(shù)據(jù),但是在PostgreSQL中,COPY的導入性能差強人意,只有20MB/s。而大數(shù)據(jù)處理場景,往往需要高性能的寫入,PG的COPY寫入性能不能滿足實際業(yè)務(wù)。
基于此,Hologres對COPY寫入性能進行了優(yōu)化,以達到高性能、高可用的目的。本文將會介紹Hologres對COPY命令優(yōu)化的技術(shù)原理,從而實現(xiàn)導入性能5倍+。


COPY瓶頸定位


在早期版本中,COPY導入在Hologres的實現(xiàn)流程圖如下:
執(zhí)行流程:

1.FE(FrontEnd,前端節(jié)點)負責接收用戶的請求,數(shù)據(jù)流入,以及具體的解析工作(包括分行,拆列,類型Format解析等)。

2.FE把完成解析的數(shù)據(jù)轉(zhuǎn)成Arrow寫入到Shuffle Service。

3.HQE(Hologres Query Engine)從Shuffle Service獲取數(shù)據(jù),并根據(jù)分布鍵完成Shuffle。

4.SE(Storage Engine)把數(shù)據(jù)流寫入Pangu。


在COPY工作的過程中,能夠看到FE的進程一直處于CPU打滿的狀態(tài),下圖是性能調(diào)試時的記錄:


可以確定以下瓶頸:

  • Shuffle Service中間節(jié)點引入的性能損耗。如上圖的紅框部分,需要將PG的內(nèi)部數(shù)據(jù)結(jié)構(gòu)HeapTuple轉(zhuǎn)換成Arrow并寫入Shuffle Service。
  • PG解析本身的耗時,比如,I/O,對數(shù)據(jù)流切分,按照類型Format解析等等。


改造技術(shù)難點

定位了瓶頸之后,結(jié)合Hologres現(xiàn)有技術(shù)架構(gòu),要提升性能,主要有以下幾個難點:

  • PostgreSQL的進程模型,有很多Global Runtime Context,多線程改造成本高。
  • 類型解析依賴PostgreSQL類型系統(tǒng),所以無法簡單的利用第三方文本解析庫加速,比如Arrow。
  • FE Meta管理過程中,需要PostgreSQL系統(tǒng)表和COPY的交互,從而保證PostgreSQL COPY系統(tǒng)表的行為穩(wěn)定及正確性。

Hologres優(yōu)化方案


為了突破上面的難點,從而解決導入效率的問題,Hologres針對FE做了優(yōu)化,主要是解耦FE工作流程:


  • 保證Request進程只負責,接收請求,數(shù)據(jù)流入以及簡單的數(shù)據(jù)切分;
  • 文本解析的工作交給具備PG計算能力支持的PQE分布式執(zhí)行,
  • 優(yōu)化后的執(zhí)行方案如圖:
    優(yōu)化后,數(shù)據(jù)通過COPY導入Hologres的執(zhí)行流程如下:
  • FE負責接收用戶請求,并把流入的數(shù)據(jù)按行切片,并寫入共享隊列Queue。
  • Coordinator把FE和PQE調(diào)度到同一臺機器,這樣Queue能以Shared Memory的方式實現(xiàn),FE和PQE交互更高效。
  • PQE從Queue里面獲取對應(yīng)的切片,并完成拆行,分列,以及具體類型解析。
  • HQE從PQE拖取數(shù)據(jù),并計算分布并Shuffle。
  • SE負責把流入數(shù)據(jù)寫入到Pangu。


5倍+性能提升

通過對系統(tǒng)的優(yōu)化,Hologres的COPY導入性能有了質(zhì)的飛躍。以TPCH lineitem表為例,1億條數(shù)據(jù),文件13G,COPY導入性能如下:



可以從圖中看到,優(yōu)化后,Hologres COPY上傳速度能達200MB/s+,相比PostgreSQL快5倍以上!

總結(jié)

Hologres致力于一站式實時數(shù)倉,在數(shù)據(jù)接入上有著非常龐大的生態(tài)家族,支持多種異構(gòu)數(shù)據(jù)源的離線、實時寫入,包括DataWorks數(shù)據(jù)集成、Flink、MaxCompute等豐富的寫入方式。在大數(shù)據(jù)場景中,Hologres完全兼容PostgreSQL的COPY命令,并在此基礎(chǔ)之上,對系統(tǒng)優(yōu)化,實現(xiàn)了COPY導入性能比PG快5倍+。COPY命令方式導入數(shù)據(jù),為Hologres數(shù)據(jù)接入生態(tài)又新增一種方式,滿足業(yè)務(wù)高性能寫入需求,助力快速搭建企業(yè)級實時數(shù)倉。


作者:鄭曉文(魯來) 現(xiàn)從事交互式分析Hologres引擎研發(fā)工作。


后續(xù)我們將會陸續(xù)推出有關(guān)Hologres的技術(shù)底層原理揭秘系列,具體規(guī)劃如下,敬請持續(xù)關(guān)注!


  • Hologres揭秘:首次公開!阿里巴巴云原生實時數(shù)倉核心技術(shù)揭秘
  • Hologres揭秘:首次揭秘云原生Hologres存儲引擎
  • Hologres揭秘:深度解析高效率分布式查詢引擎
  • Hologres揭秘:高性能原生加速MaxCompute核心原理
  • Hologres揭秘:如何利用COPY實現(xiàn)高效率導入(本文)
  • Hologres揭秘:如何支持高吞吐Upsert
  • Hologres揭秘:如何支持在線服務(wù)場景的超高QPS
  • Hologres揭秘:如何支持高并發(fā)查詢
  • Hologres揭秘:如何支持高可用架構(gòu)
  • Hologres揭秘:如何支持資源隔離,支持多種負載
  • Hologres揭秘:向量檢索引擎Proxima原理與使用實踐
  • Hologres揭秘:讀懂執(zhí)行計劃,查詢性能翻十倍
  • Hologres揭秘:分布式系統(tǒng)如何設(shè)計Shard與Table Group
  • Hologres揭秘:如何支持更多Postgres生態(tài)擴展包
  • Hologres揭秘:高吞吐寫入Hologres的N種姿勢
  • ......

感謝您的閱讀,也歡迎使用體驗Hologres,可以參考使用手冊。

原文鏈接:https://developer.aliyun.com/article/785001?

版權(quán)聲明:本文內(nèi)容由阿里云實名注冊用戶自發(fā)貢獻,版權(quán)歸原作者所有,阿里云開發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔相應(yīng)法律責任。具體規(guī)則請查看《阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開發(fā)者社區(qū)知識產(chǎn)權(quán)保護指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫侵權(quán)投訴表單進行舉報,一經(jīng)查實,本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。

總結(jié)

以上是生活随笔為你收集整理的Hologres揭秘:优化COPY,批量导入性能提升5倍+的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。