當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析工具篇——HQL原理及函数逻辑

發布時間：2023/12/2 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了数据分析工具篇——HQL原理及函数逻辑小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

HQL原理及優化

HQL是數據分析過程中的必備技能，隨著數據量增加，這一技能越來越重要，熟練應用的同時會帶來效率的問題，動輒十幾億的數據量如果處理不完善的話有可能導致一個作業運行幾個小時，更嚴重的還有可能因占用過多資源而引發生產問題，所以HQL優化就變得非常重要，本文我們就深入HQL的原理中，探索HQL優化的方法和邏輯。

group by的計算原理

代碼為：

SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;

可以看到，group by本身不是全局變量，任務會被分到各個map中進行分組，然后再在reduce中聚合。

默認設置了hive.map.aggr=true，所以會在mapper端先group by一次，最后再把結果merge起來，為了減少reducer處理的數據量。注意看explain的mode是不一樣的。mapper是hash，reducer是mergepartial。如果把hive.map.aggr=false，那將groupby放到reducer才做，他的mode是complete。

優化點：

Group by主要是面對數據傾斜的問題。<

總結

以上是生活随笔為你收集整理的数据分析工具篇——HQL原理及函数逻辑的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习实战应用50讲（一）-使用stu
下一篇：战略分析思路——商业模式及沙盘推演