日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

presto spill to disk

發(fā)布時間:2023/12/15 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 presto spill to disk 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2019獨角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>

概況

為了預(yù)防內(nèi)存緊張的operator,presto允許將中間操作的結(jié)果轉(zhuǎn)存到磁盤上。這個機制的目的是為了讓那些需要的內(nèi)存超過一臺機器一個query內(nèi)存限制的query能夠執(zhí)行。

這個機制類似于操作系統(tǒng)級的頁交換。但是,它是被應(yīng)用在應(yīng)用程序級去滿足presto的特殊需求。

溢寫的屬性在https://prestodb.io/docs/current/admin/properties.html#tuning-spilling這里描述

內(nèi)存管理和溢寫

默認情況下,presto殺掉那些執(zhí)行內(nèi)存超過會話屬性query_max_memory 或 query_max_memory_per_node。這個機制保證內(nèi)存的公平分配,防止內(nèi)存分配造成死鎖。當(dāng)集群中有很多小查詢的時候,這是非常有效的。但是會殺掉那些超過限制的大查詢。

為了克服這個問題,可撤回的內(nèi)存概念被提出。一個查詢可以請求不限制的內(nèi)存,但是這個內(nèi)存可以被任何時候被內(nèi)存管理回收。當(dāng)內(nèi)存被回收,這個查詢在內(nèi)存中的數(shù)據(jù)被溢寫到磁盤上,稍后繼續(xù)處理。

事實上,當(dāng)集群是空閑的時候,所有內(nèi)存都可以獲取,一個消耗內(nèi)存的查詢可以用完整個集群的內(nèi)存。相反的,當(dāng)集群沒有足夠的內(nèi)存,同樣的查詢當(dāng)前的數(shù)據(jù)被強制寫到磁盤上。被溢寫到磁盤上的查詢可能有一個較長的執(zhí)行時間比完全在內(nèi)存中運行。

請注意開啟溢寫到磁盤機制不保證消耗內(nèi)存的查詢運行成功。當(dāng)加載數(shù)據(jù)到內(nèi)存的時候,查詢運行程序可能無法將中間數(shù)據(jù)劃分為足夠小的塊,以便每個塊都適合于內(nèi)存,導(dǎo)致 out of memory 錯誤。

溢出磁盤

溢寫中間數(shù)據(jù)到磁盤,然后再加載到內(nèi)存是一個高IO的操作,因此,磁盤可能是這些查詢的瓶頸。為了提高性能,建議在分開的磁盤上提供多重路徑。相關(guān)屬性https://prestodb.io/docs/current/admin/properties.html#tuning-spilling。

系統(tǒng)驅(qū)動盤不要被用作溢寫,也不要運行在JVM運行和寫日志的地方。這樣做可能會導(dǎo)致系統(tǒng)不穩(wěn)定。除此之外,建議監(jiān)控溢寫路徑磁盤的飽和狀態(tài)。

presto將溢寫路徑作為獨立的磁盤,沒有必要用?RAID 做溢寫。

支持的操作

不是所有的操作支持溢寫到磁盤,每一個處理溢寫不同。目前,這個機制被用于如下操作。

Joins

在join期間,其中一個表被存在內(nèi)存。這個表被稱為生成表。如果另一張表里的記錄與生成表里的記錄匹配,則被傳遞給下一個操作。join中最費內(nèi)存的部分就是生成表。

當(dāng)任務(wù)的并發(fā)性大于1,生成表被分區(qū)。分區(qū)的數(shù)目等于任務(wù)的并發(fā)數(shù)task.concurrency 。屬性配置如https://prestodb.io/docs/current/admin/properties.html#task-properties

當(dāng)生成表被分區(qū),溢寫磁盤機制能降低join操作需要內(nèi)存的峰值。當(dāng)一個查詢接近內(nèi)存限制,生成表的部分分區(qū)被溢寫到內(nèi)存,與此同時,這些分區(qū)內(nèi)的另一張表的記錄也被寫入磁盤。被溢寫到磁盤的分區(qū)數(shù)量決定著占用磁盤空間的大小。

后面,被溢寫的分區(qū)一個一個的讀會內(nèi)存,完成join操作。

有了這個機制,join操作使用的內(nèi)存峰值被降低到生成表的最大分區(qū)的大小。假設(shè)沒有數(shù)據(jù)傾斜,這將是整個生成表的 1/task.concurrency

Aggregations

聚合函數(shù)處理一組數(shù)據(jù)返回一個值。如果分組數(shù)目非常大,需要的內(nèi)存也自然就很多。當(dāng)啟動溢寫機制,直接計算的聚合結(jié)果被寫到磁盤,當(dāng)有內(nèi)存資源的時候,它被讀入內(nèi)存合并。

?

轉(zhuǎn)載于:https://my.oschina.net/u/2000675/blog/2056427

總結(jié)

以上是生活随笔為你收集整理的presto spill to disk的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。