日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hive的row_number()、rank()和dense_rank()的区别以及具体使用

發布時間:2023/12/10 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hive的row_number()、rank()和dense_rank()的区别以及具体使用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?

參考:https://blog.csdn.net/qq_20641565/article/details/52841345?locationNum=5&fps=1

2016年10月17日 20:05:21

閱讀數:4931

row_number()、rank()和dense_rank()這三個是hive內置的分析函數,下面我們來看看他們的區別和具體的使用案例。

  • 首先創建一個文件test:

A,1 B,3 C,2 D,3 E,4 F,5 G,6

  • ?
  • 然后創建hive表:

create table test_rank(a string,b int) row format delimited fields terminated by ',' stored as textfile;

  • 1
  • load數據到表中

load data local inpath '/usr/java/test' overwrite into table test_rank;

  • 1
  • 執行下面的語句

select a,row_number() over(order by b) row_number,rank() over(order by b) rank, dense_rank() over(order by b) dense_rank from lijie.test_rank;

  • 1
  • 2

結果為:

a row_number rank dense_rank A 1 1 1 C 2 2 2 D 3 3 3 B 4 3 3 E 5 5 4 F 6 6 5 G 7 7 6

由此可見:?

row_number:不管排名是否有相同的,都按照順序1,2,3…..n?

rank:排名相同的名次一樣,同一排名有幾個,后面排名就會跳過幾次?

dense_rank:排名相同的名次一樣,且后面名次不跳躍

實際使用:?

現在有一個需求: 需要加工一張表M 其中要求要A表,B表,C表的數據加工,A和B表連接字段都是唯一值,但是和C表連接的字段不唯一,如果A join B,然后再Join C 這樣加工出來的表數據會不準確,這里需求是需要最新的C表中關聯字段的數據。?

可以按照如下方法解決(c2是C表的關聯字段,通過update_time的降序取最新的那條數據):

select A.xxx, B.xxx, C.xxx, .... from A left outer join B on A.c1 = B.c1 left outer join ( select cc.*,row_number() over(distribute by cc.c2 sort by cc.update_time desc) as rownum from C cc ) C on A.c2 = C.c2 and C.rownum = 1;

  • ?

版權聲明:本文為博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/qq_20641565/article/details/52841345

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的hive的row_number()、rank()和dense_rank()的区别以及具体使用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。