當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

asc desc排序_HIVE的学习之路（六）Hive的分组Join排序

發布時間：2025/3/20 编程问答 53 豆豆

生活随笔收集整理的這篇文章主要介紹了 asc desc排序_HIVE的学习之路（六）Hive的分组Join排序小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

分組

Group By語句

GROUP BY語句通常會和聚合函數一起使用，按照一個或者多個列隊結果進行分組，然后對每個組執行聚合操作。

案例實操：

（1）計算emp表每個部門的平均工資

hive (default)> select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno;

（2）計算emp每個部門中每個崗位的最高薪水

hive (default)> select t.deptno, t.job, max(t.sal) max_sal from emp t group byt.deptno, t.job;

Having語句

1．having與where不同點

（1）where針對表中的列發揮作用，查詢數據；having針對查詢結果中的列發揮作用，篩選數據。

（2）where后面不能寫分組函數，而having后面可以使用分組函數。

（3）having只用于group by分組統計語句。

2．案例實操

（1）求每個部門的平均薪水大于2000的部門

求每個部門的平均工資

hive (default)> select deptno, avg(sal) from emp group by deptno;

求每個部門的平均薪水大于2000的部門

hive (default)> select deptno, avg(sal) avg_sal from emp group by deptno havingavg_sal > 2000;

Join語句

Inner JOIN 內連接

SELECT <select_list> FROM Table_A A INNER JOIN Table_B B ON A.Key = B.Key

Left JOIN 左連接

SELECT <select_list> FROM Table_A A LEFT JOIN Table_B B ON A.Key = B.Key

Right JOIN 右連接

SELECT <select_list> FROM Table_A A RIGHT JOIN Table_B B ON A.Key = B.Key

Outer JOIN 滿外連接

SELECT <select_list> FROM Table_A A FULL OUTER JOIN Table_B B ON A.Key = B.Key

Left Excluding JOIN 左外連接

SELECT <select_list> FROM Table_A A LEFT JOIN Table_B B ON A.Key = B.Key WHERE B.Key IS NULL

Right Excluding JOIN 右外連接

SELECT <select_list> FROM Table_A A RIGHT JOIN Table_B B ON A.Key = B.Key WHERE A.Key IS NULL

Outer Excluding JOIN 全外連接

SELECT <select_list> FROM Table_A A FULL OUTER JOIN Table_B B ON A.Key = B.Key WHERE A.Key IS NULL OR B.Key IS NULL

笛卡爾積

1．笛卡爾集會在下面條件下產生

（1）省略連接條件

（2）連接條件無效

（3）所有表中的所有行互相連接

2．案例實操

hive (default)> select empno, dname from emp, dept;

案例模板：

dept.txt

10 ACCOUNTING 1700 20 RESEARCH 1800 30 SALES 1900 40 OPERATIONS 1700--建表語句 CREATE TABLE IF NOT EXISTS emp(empno int,ename string,job STRING,mgr int,hiredate string,sal double,comm double,deptno int ) ROW FORMAT DELIMITED FIELDS TERMINATED BY 't';--導入語句 load DATA LOCAL INPATH '/home/dept.txt' OVERWRITE INTO TABLE dept;

epm.txt

7369 SMITH CLERK 7902 1980-12-17 800.00 20 7499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 30 7521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 30 7566 JONES MANAGER 7839 1981-4-2 2975.00 20 7654 MARTIN SALESMAN 7698 1981-9-28 1250.00 1400.00 30 7698 BLAKE MANAGER 7839 1981-5-1 2850.00 30 7782 CLARK MANAGER 7839 1981-6-9 2450.00 10 7788 SCOTT ANALYST 7566 1987-4-19 3000.00 20 7839 KING PRESIDENT 1981-11-17 5000.00 10 7844 TURNER SALESMAN 7698 1981-9-8 1500.00 0.00 30 7876 ADAMS CLERK 7788 1987-5-23 1100.00 20 7900 JAMES CLERK 7698 1981-12-3 950.00 30 7902 FORD ANALYST 7566 1981-12-3 3000.00 20 7934 MILLER CLERK 7782 1982-1-23 1300.00 10--建表語句 CREATE TABLE IF NOT EXISTS dept(deptno int,dname STRING,loc int ) ROW FORMAT DELIMITED FIELDS TERMINATED BY 't';--導入語句 load DATA LOCAL INPATH '/home/epm.txt' OVERWRITE INTO TABLE emp;

loc.txt

1700 Beijing 1800 London 1900 Tokyo--建表語句 create table if not exists location( loc int, loc_name string ) row format delimited fields terminated by 't' location '/hive_test';--導入語句 LOAD data local inpath '/home/loc.txt' into table location;

排序

全局排序（Order By）

Order By：全局排序，一個Reducer

1．使用 ORDER BY 子句排序

ASC（ascend）: 升序（默認）

DESC（descend）: 降序

2．ORDER BY 子句在SELECT語句的結尾

3．案例實操

（1）查詢員工信息按工資升序排列

hive (default)> select * from emp order by sal;

（2）查詢員工信息按工資降序排列

hive (default)> select * from emp order by sal desc;

按照別名排序

按照員工薪水的2倍排序

hive (default)> select ename, sal*2 twosal from emp order by twosal;

多個列排序

按照部門和工資升序排序

hive (default)> select ename, deptno, sal from emp order by deptno, sal ;

每個MapReduce內部排序（Sort By）

Sort By：每個Reducer內部進行排序，對全局結果集來說不是排序。

1．設置reduce個數

hive (default)> set mapreduce.job.reduces=3;

2．查看設置reduce個數

hive (default)> set mapreduce.job.reduces;

3．根據部門編號降序查看員工信息

hive (default)> select * from emp sort by empno desc;

4．將查詢結果導入到文件中（按照部門編號降序排序）

hive (default)> insert overwrite local directory '/opt/module/datas/sortby-result'select * from emp sort by deptno desc;

分區排序（Distribute By）

Distribute By：類似MR中partition，進行分區，結合sort by使用。

注意，Hive要求DISTRIBUTE BY語句要寫在SORT BY語句之前。

對于distribute by進行測試，一定要分配多reduce進行處理，否則無法看到distribute by的效果。

案例實操：

（1）先按照部門編號分區，再按照員工編號降序排序。

hive (default)> set mapreduce.job.reduces=3; hive (default)> insert overwrite local directory '/opt/module/datas/distribute-result' select * from emp distribute by deptno sort by empno desc;

Cluster By

當distribute by和sorts by字段相同時，可以使用cluster by方式。

cluster by除了具有distribute by的功能外還兼具sort by的功能。但是排序只能是升序排序，不能指定排序規則為ASC或者DESC。

1）以下兩種寫法等價

hive (default)> select * from emp cluster by deptno; hive (default)> select * from emp distribute by deptno sort by deptno;

注意：按照部門編號分區，不一定就是固定死的數值，可以是20號和30號部門分到一個分區里面去。

分桶及抽樣查詢

分桶表數據存儲

分區針對的是數據的存儲路徑；分桶針對的是數據文件。

分區提供一個隔離數據和優化查詢的便利方式。不過，并非所有的數據集都可形成合理的分區，特別是之前所提到過的要確定合適的劃分大小這個疑慮。

分桶是將數據集分解成更容易管理的若干部分的另一個技術。

1．先創建分桶表，通過直接導入數據文件的方式

（1）數據準備

1001 ss1 1002 ss2 1003 ss3 1004 ss4 1005 ss5 1006 ss6 1007 ss7 1008 ss8 1009 ss9 1010 ss10 1011 ss11 1012 ss12 1013 ss13 1014 ss14 1015 ss15 1016 ss16

（2）創建分桶表

create table stu_buck(id int, name string)clustered by(id) into 4 bucketsrow format delimited fields terminated by 't';

（3）查看表結構

hive (default)> desc formatted stu_buck; Num Buckets: 4

（4）導入數據到分桶表中

hive (default)> load data local inpath '/opt/module/datas/student.txt' into tablestu_buck;

（5）查看創建的分桶表中是否分成4個桶，如圖6-7所示

發現并沒有分成4個桶。是什么原因呢？

2．創建分桶表時，數據通過子查詢的方式導入

（1）先建一個普通的stu表

create table stu(id int, name string)row format delimited fields terminated by 't';

（2）向普通的stu表中導入數據

load data local inpath '/opt/module/datas/student.txt' into table stu;

（3）清空stu_buck表中數據

truncate table stu_buck;select * from stu_buck;

（4）導入數據到分桶表，通過子查詢的方式

insert into table stu_buckselect id, name from stu;

（5）發現還是只有一個分桶，如圖6-8所示

（6）需要設置一個屬性

hive (default)> set hive.enforce.bucketing=true;hive (default)> set mapreduce.job.reduces=-1;hive (default)> insert into table stu_buckselect id, name from stu;

（7）查詢分桶的數據

hive (default)> select * from stu_buck;OKstu_buck.id stu_buck.name1004 ss41008 ss81012 ss121016 ss161001 ss11005 ss51009 ss91013 ss131002 ss21006 ss61010 ss101014 ss141003 ss31007 ss71011 ss111015 ss15

分桶抽樣查詢

對于非常大的數據集，有時用戶需要使用的是一個具有代表性的查詢結果而不是全部結果。Hive可以通過對表進行抽樣來滿足這個需求。

查詢表stu_buck中的數據。

hive (default)> select * from stu_buck tablesample(bucket 1 out of 4 on id);

注：tablesample是抽樣語句，語法：TABLESAMPLE(BUCKET x OUT OF y) 。

y必須是table總bucket數的倍數或者因子。hive根據y的大小，決定抽樣的比例。例如，table總共分了4份，當y=2時，抽取(4/2=)2個bucket的數據，當y=8時，抽取(4/8=)1/2個bucket的數據。

x表示從哪個bucket開始抽取，如果需要取多個分區，以后的分區號為當前分區號加上y。例如，table總bucket數為4，tablesample(bucket 1 out of 2)，表示總共抽取（4/2=）2個bucket的數據，抽取第1(x)個和第3(x+y)個bucket的數據。

注意：x的值必須小于等于y的值，否則

FAILED: SemanticException [Error 10061]: Numerator should not be bigger than denominator in sample clause for table stu_buck

總結

以上是生活随笔為你收集整理的asc desc排序_HIVE的学习之路（六）Hive的分组Join排序的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python xlsxwriter 画图
下一篇：控件尺寸规范_微信小程序设计规范你了解多