日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

mysql查看数据倾斜_深入理解hadoop数据倾斜

發布時間:2024/10/8 数据库 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 mysql查看数据倾斜_深入理解hadoop数据倾斜 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

深入理解hadoop之數據傾斜

1、什么是數據傾斜

我們在用map /reduce程序執行時,有時候會發現reduce節點大部分執行完畢,但是有一個或者幾個reduce節點運行很慢,導致整個程序的處理時間很長,這是因為某一個key的條數比其他key多很多(有時是百倍或者千倍之多),這條key所在的reduce節點所處理的數據量比其他節點就大很多,從而導致某幾個節點遲遲運行不完。這種現象就是因為key分布不均勻、散度不夠導致的,也就是我們所說的數據傾斜。

2、數據傾斜產生的原因

在hive上執行join,group by,count distinct等操作的時候可能會發現ruduce階段卡在99.99%,一直99.99%不能結束,查看任務監控頁面,發現只有少量(1個或幾個)reduce子任務未完成;這里進一步查看進程日志或者WEBUI會發現:有一個多幾個reduce卡住;各種container報錯OOM,讀寫的數據量極大,至少遠遠超過其它正常的reduce ,伴隨著數據傾斜,會出現任務被kill等各種詭異的表現。一般情況下Hive的數據傾斜,都發生在Sql中Group和On上,而且和數據邏輯綁定比較深。

3、數據傾斜解決的辦法

1)hive.groupby.skewindata變量,這個變量是用于控制負載均衡的。當數據出現傾斜時,如果該變量設置為true,那么Hive會自動進行負載均衡。

2)mapjoin方式

3)count distinct的操作,先轉成group,再count

4)hive.groupby.skewindata=true

5)left semi jioin的使用

6)設置map端輸出、中間結果壓縮

總結

以上是生活随笔為你收集整理的mysql查看数据倾斜_深入理解hadoop数据倾斜的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。