编程问答

数据倾斜？几招把你安排的板板正正的！

發(fā)布時間：2024/7/23 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了数据倾斜？几招把你安排的板板正正的！小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?🍅 作者：不吃西紅柿?

🍅 簡介：CSDN博客專家🏆、HDZ核心組成員💪、C站總榜前10名??

🍅 粉絲專屬福利：文末公號「信息技術(shù)智庫」回復(fù)「資料」領(lǐng)取

🍅 如覺得文章不錯，歡迎點贊、收藏、評論

文末下載PDF

擁有本篇PDF，意味著你擁有一本完善的書籍，本篇文章整理了數(shù)據(jù)倉庫領(lǐng)域，幾乎所有的知識點，文章內(nèi)容主要來源于以下幾個方面：

源于「數(shù)據(jù)倉庫交流群」資深數(shù)據(jù)倉庫工程師的交流討論，如《sql行轉(zhuǎn)列的千種寫法》。

源于群友面試大廠遇到的面試真題，整理投稿給我，形成《面試題庫》。

源于筆者在系統(tǒng)學(xué)習(xí)過程中整理的筆記和一點理解。

源于技術(shù)網(wǎng)站的優(yōu)質(zhì)文章和高贊答案。

本篇文章尤其適合初級程序員準(zhǔn)備面試，以及作為工作中的指導(dǎo)手冊，對資深程序員來說也可夯實基礎(chǔ)。

當(dāng)然，技術(shù)學(xué)習(xí)僅僅依靠一篇文章還是不夠的，可加入公眾號和技術(shù)交流群（聯(lián)系方式見文末），群里有很多數(shù)據(jù)倉庫領(lǐng)域資深大佬，大家經(jīng)常在群里討論技術(shù)熱點問題、互相解決工作難題、安排內(nèi)推、甚至有部門leader直接發(fā)出崗位邀請。「西紅柿🍅」也會持續(xù)更新優(yōu)質(zhì)文章，也歡迎熱愛學(xué)習(xí)總結(jié)的小伙伴有償投稿，共同推動中國信息技術(shù)行業(yè)發(fā)展，讓我們一起加油吧！

1、數(shù)據(jù)傾斜表現(xiàn)

1.1 hadoop中的數(shù)據(jù)傾斜表現(xiàn)

有一個多幾個Reduce卡住，卡在99.99%，一直不能結(jié)束。
各種container報錯OOM
異常的Reducer讀寫的數(shù)據(jù)量極大，至少遠(yuǎn)遠(yuǎn)超過其它正常的Reducer
伴隨著數(shù)據(jù)傾斜，會出現(xiàn)任務(wù)被kill等各種詭異的表現(xiàn)。

1.2 hive中數(shù)據(jù)傾斜

一般都發(fā)生在Sql中g(shù)roup by和join on上，而且和數(shù)據(jù)邏輯綁定比較深。
?

1.3 Spark中的數(shù)據(jù)傾斜

Spark中的數(shù)據(jù)傾斜，包括Spark Streaming和Spark Sql，表現(xiàn)主要有下面幾種：

Executor lost，OOM，Shuffle過程出錯；
Driver OOM；
單個Executor執(zhí)行時間特別久，整體任務(wù)卡在某個階段不能結(jié)束；
正常運行的任務(wù)突然失敗；

2、數(shù)據(jù)傾斜產(chǎn)生原因

我們以Spark和Hive的使用場景為例。

在做數(shù)據(jù)運算的時候會涉及到，count distinct、group by、join on等操作，這些都會觸發(fā)Shuffle動作。一旦觸發(fā)Shuffle，所有相同key的值就會被拉到一個或幾個Reducer節(jié)點上，容易發(fā)生單點計算問題，導(dǎo)致數(shù)據(jù)傾斜。
?

一般來說，數(shù)據(jù)傾斜原因有以下幾方面：

1）key分布不均勻；

2）建表時考慮不周

舉一個例子，就說數(shù)據(jù)默認(rèn)值的設(shè)計吧，假設(shè)我們有兩張表：

????user（用戶信息表）：userid，register_ip

????ip（IP表）：ip，register_user_cnt

這可能是兩個不同的人開發(fā)的數(shù)據(jù)表。如果我們的數(shù)據(jù)規(guī)范不太完善的話，會出現(xiàn)一種情況：

user表中的register_ip字段，如果獲取不到這個信息，我們默認(rèn)為null；

但是在ip表中，我們在統(tǒng)計這個值的時候，為了方便，我們把獲取不到ip的用戶，統(tǒng)一認(rèn)為他們的ip為0。
?

兩邊其實都沒有錯的，但是一旦我們做關(guān)聯(lián)了，這個任務(wù)會在做關(guān)聯(lián)的階段，也就是sql的on的階段卡死。
?

3）業(yè)務(wù)數(shù)據(jù)激增

比如訂單場景，我們在某一天在北京和上海兩個城市多了強力的推廣，結(jié)果可能是這兩個城市的訂單量增長了10000%，其余城市的數(shù)據(jù)量不變。
?

然后我們要統(tǒng)計不同城市的訂單情況，這樣，一做group操作，可能直接就數(shù)據(jù)傾斜了。
?

3、解決數(shù)據(jù)傾斜思路

很多數(shù)據(jù)傾斜的問題，都可以用和平臺無關(guān)的方式解決，比如更好的數(shù)據(jù)預(yù)處理，異常值的過濾等。因此，解決數(shù)據(jù)傾斜的重點在于對數(shù)據(jù)設(shè)計和業(yè)務(wù)的理解，這兩個搞清楚了，數(shù)據(jù)傾斜就解決了大部分了。

1）業(yè)務(wù)邏輯

我們從業(yè)務(wù)邏輯的層面上來優(yōu)化數(shù)據(jù)傾斜，比如上面的兩個城市做推廣活動導(dǎo)致那兩個城市數(shù)據(jù)量激增的例子，我們可以單獨對這兩個城市來做count，單獨做時可用兩次MR，第一次打散計算，第二次再最終聚合計算。完成后和其它城市做整合。

2）程序?qū)用?/strong>

比如說在Hive中，經(jīng)常遇到count(distinct)操作，這樣會導(dǎo)致最終只有一個Reduce任務(wù)。

我們可以先group by，再在外面包一層count，就可以了。比如計算按用戶名去重后的總用戶量：
?

（1）優(yōu)化前?

只有一個reduce，先去重再count負(fù)擔(dān)比較大：

select name,count(distinct name)from user;

（2）優(yōu)化后

// 設(shè)置該任務(wù)的每個job的reducer個數(shù)為3個。Hive默認(rèn)-1，自動推斷。

set mapred.reduce.tasks=3;

// 啟動兩個job，一個負(fù)責(zé)子查詢(可以有多個reduce)，另一個負(fù)責(zé)count(1)：

select count(1) from (select name from user group by name) tmp;
?

3）調(diào)參方面

Hadoop和Spark都自帶了很多的參數(shù)和機制來調(diào)節(jié)數(shù)據(jù)傾斜，合理利用它們就能解決大部分問題。
?

4）從業(yè)務(wù)和數(shù)據(jù)上解決數(shù)據(jù)傾斜

很多數(shù)據(jù)傾斜都是在數(shù)據(jù)的使用上造成的。我們舉幾個場景，并分別給出它們的解決方案。
?

一個原則：盡早過濾每個階段的數(shù)據(jù)量。

數(shù)據(jù)有損的方法：找到異常數(shù)據(jù)，比如ip為0的數(shù)據(jù)，過濾掉。
數(shù)據(jù)無損的方法：對分布不均勻的數(shù)據(jù)，單獨計算。
hash法：先對key做一層hash，先將數(shù)據(jù)隨機打散讓它的并行度變大，再匯聚。
數(shù)據(jù)預(yù)處理：就是先做一層數(shù)據(jù)質(zhì)量處理，類似于數(shù)據(jù)倉庫維度建模時，底層先處理數(shù)據(jù)質(zhì)量。

添加公眾號「信息技術(shù)智庫」：

🍅 硬核資料：20G，8大類資料，關(guān)注即可領(lǐng)取（PPT模板、簡歷模板、技術(shù)資料）
🍅 技術(shù)互助：技術(shù)群大佬指點迷津，你的問題可能不是問題，求資源在群里喊一聲。
🍅 面試題庫：由各個技術(shù)群小伙伴們共同投稿，熱乎的大廠面試真題，持續(xù)更新中。
🍅 知識體系：含編程語言、算法、大數(shù)據(jù)生態(tài)圈組件（Mysql、Hive、Spark、Flink）、數(shù)據(jù)倉庫、前端等。

👇👇送書抽獎丨技術(shù)互助丨粉絲福利👇👇

總結(jié)

以上是生活随笔為你收集整理的数据倾斜？几招把你安排的板板正正的！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

数据

几招

把你

板正

歡迎分享！

轉(zhuǎn)載請說明來源于"生活随笔"，并保留原作者的名字。

本文地址：数据倾斜？几招把你安排的板板正正的！

上一篇：排序（冒泡、选择、插入、希尔、快排、堆排

下一篇：埋点技术：“呵呵，你在网上的一举一动，都

最新發(fā)布

点击弹窗 input直接是待输入状态_第六课：你知道如何用两行代码做个弹窗吗？看这里...

暖通专业标准规范大全_中高级职称专业分类改革机械类十大热门专业分享

动态添加的路由直接访问_VUE 动态路由（二）

重新分区_手机DATA重新分区教程(超详细)

怎么挪动_你真的懂iPhone上的小圆点怎么玩吗

熱門推薦

蓝牙厂商代码与公司对应列表

历年高考报考人数和录取人数

河南王牌计算机专业,河南计算机专业实力突出的7所大学，郑大位列次席，榜首实至名归...

UniCode编码对照表及过滤方案

LeetCode——Backtracking

標(biāo)簽云

连接数据库

单元格

蓝牙耳机

程序语言

微信游戏

软件安装

双系统

游戏开发者

设计理念

计算机资源

visiting

星条旗

蔡国庆

浩哥拍

来福枪

五米长三米宽

改一般

世界文化遗产

parents

人均可支配