當前位置：首頁 >

窗口函数和hive优化简记

發布時間：2024/8/23 48 豆豆

生活随笔收集整理的這篇文章主要介紹了窗口函数和hive优化简记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

窗口函數：
（1） OVER()：指定分析函數工作的數據窗口大小，這個數據窗口大小可能會隨著行的變而變化。常用partition by 分區order by排序。
（2）CURRENT ROW：當前行
（3）n PRECEDING：往前n行數據
（4） n FOLLOWING：往后n行數據
（5）UNBOUNDED：起點，UNBOUNDED PRECEDING 表示從前面的起點， UNBOUNDED FOLLOWING表示到后面的終點
（6） LAG(col,n)：往前第n行數據
（7）LEAD(col,n)：往后第n行數據
（8） NTILE(n)：把有序分區中的行分發到指定數據的組中，各個組有編號，編號從1開始，對于每一行，NTILE返回此行所屬的組的編號。注意：n必須為int類型。

排序函數：
（1）RANK() 排序相同時會重復，總數不會變
（2）DENSE_RANK() 排序相同時會重復，總數會減少
（3）ROW_NUMBER() 會根據順序計算

4個By區別
1）Sort By：分區內有序；
2）Order By：全局排序，只有一個Reducer；
3）Distrbute By：類似MR中Partition，進行分區，結合sort by使用。
4） Cluster By：當Distribute by和Sorts by字段相同時，可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外還兼具Sort by的功能。但是排序只能是升序排序，不能指定排序規則為ASC或者DESC。

Hive優化
1）MapJoin
如果不指定MapJoin或者不符合MapJoin的條件，那么Hive解析器會將Join操作轉換成Common Join，即：在Reduce階段完成join。容易發生數據傾斜。可以用MapJoin把小表全部加載到內存在map端進行join，避免reducer處理。
2）行列過濾
列處理：在SELECT中，只拿需要的列，如果有，盡量使用分區過濾，少用SELECT *。
行處理：在分區剪裁中，當使用外關聯時，如果將副表的過濾條件寫在Where后面，那么就會先全表關聯，之后再過濾。
3）采用分桶技術
4）采用分區技術

總結

以上是生活随笔為你收集整理的窗口函数和hive优化简记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【转载保存】MySQL时间、字符串、时间
下一篇：【TensorFlow】稀疏矢量

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

窗口函数和hive优化简记

總結