當(dāng)前位置：首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

2021年大数据Spark（二十九）：SparkSQL案例四开窗函数

發(fā)布時(shí)間：2023/11/28 生活经验 67 豆豆

生活随笔收集整理的這篇文章主要介紹了 2021年大数据Spark（二十九）：SparkSQL案例四开窗函数小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

案例四：開(kāi)窗函數(shù)

概述

介紹

聚合函數(shù)和開(kāi)窗函數(shù)

開(kāi)窗函數(shù)分類

???????聚合開(kāi)窗函數(shù)

排序開(kāi)窗函數(shù)

?ROW_NUMBER順序排序

???????RANK跳躍排序

????????DENSE_RANK連續(xù)排序

???????NTILE分組排名[了解]

???????代碼演示

???????案例四：開(kāi)窗函數(shù)

概述

https://www.cnblogs.com/qiuting/p/7880500.html

介紹

開(kāi)窗函數(shù)的引入是為了既顯示聚集前的數(shù)據(jù)，又顯示聚集后的數(shù)據(jù)。即在每一行的最后一列添加聚合函數(shù)的結(jié)果。

開(kāi)窗用于為行定義一個(gè)窗口(這里的窗口是指運(yùn)算將要操作的行的集合)，它對(duì)一組值進(jìn)行操作，不需要使用 GROUP BY 子句對(duì)數(shù)據(jù)進(jìn)行分組，能夠在同一行中同時(shí)返回基礎(chǔ)行的列和聚合列。

聚合函數(shù)和開(kāi)窗函數(shù)

聚合函數(shù)是將多行變成一行，count,avg....

開(kāi)窗函數(shù)是將一行變成多行；

聚合函數(shù)如果要顯示其他的列必須將列加入到group by中

開(kāi)窗函數(shù)可以不使用group by，直接將所有信息顯示出來(lái)

開(kāi)窗函數(shù)分類

1.聚合開(kāi)窗函數(shù)

聚合函數(shù)(列) OVER(選項(xiàng))，這里的選項(xiàng)可以是PARTITION BY 子句，但不可以是 ORDER BY 子句。

2.排序開(kāi)窗函數(shù)

排序函數(shù)(列) OVER(選項(xiàng))，這里的選項(xiàng)可以是ORDER BY 子句，也可以是 OVER(PARTITION BY 子句 ORDER BY 子句)，但不可以是 PARTITION BY 子句。

???????聚合開(kāi)窗函數(shù)

示例1

OVER 關(guān)鍵字表示把聚合函數(shù)當(dāng)成聚合開(kāi)窗函數(shù)而不是聚合函數(shù)。

SQL標(biāo)準(zhǔn)允許將所有聚合函數(shù)用做聚合開(kāi)窗函數(shù)。

spark.sql("select ?count(name) ?from scores").show

spark.sql("select name, class, score, count(name) over()?name_count from scores").show

查詢結(jié)果如下所示：

+----+-----+-----+----------+ ??????????????????????????????????????????????????

+----+-----+-----+----------+

| ?a1| ???1| ??80| ???????11|

| ?a2| ???1| ??78| ???????11|

| ?a3| ???1| ??95| ???????11|

| ?a4| ???2| ??74| ???????11|

| ?a5| ???2| ??92| ???????11|

| ?a6| ???3| ??99| ???????11|

| ?a7| ???3| ??99| ???????11|

| ?a8| ???3| ??45| ???????11|

| ?a9| ???3| ??55| ???????11|

| a10| ???3| ??78| ???????11|

| a11| ???3| ?100| ???????11|

+----+-----+-----+----------+

?示例2

OVER 關(guān)鍵字后的括號(hào)中還可以添加選項(xiàng)用以改變進(jìn)行聚合運(yùn)算的窗口范圍。

如果 OVER 關(guān)鍵字后的括號(hào)中的選項(xiàng)為空，則開(kāi)窗函數(shù)會(huì)對(duì)結(jié)果集中的所有行進(jìn)行聚合運(yùn)算。

開(kāi)窗函數(shù)的 OVER 關(guān)鍵字后括號(hào)中的可以使用 PARTITION BY 子句來(lái)定義行的分區(qū)來(lái)供進(jìn)行聚合計(jì)算。

與 GROUP BY 子句不同，PARTITION BY 子句創(chuàng)建的分區(qū)是獨(dú)立于結(jié)果集的，創(chuàng)建的分區(qū)只是供進(jìn)行聚合計(jì)算的，而且不同的開(kāi)窗函數(shù)所創(chuàng)建的分區(qū)也不互相影響。

下面的 SQL 語(yǔ)句用于顯示按照班級(jí)分組后每組的人數(shù)：

OVER(PARTITION BY class)表示對(duì)結(jié)果集按照 class 進(jìn)行分區(qū)，并且計(jì)算當(dāng)前行所屬的組的聚合計(jì)算結(jié)果。

spark.sql("select name, class, score, count(name)?over(partition by class) name_count from scores").show

查詢結(jié)果如下所示：

+----+-----+-----+----------+ ??????????????????????????????????????????????????

+----+-----+-----+----------+

| ?a1| ???1| ??80| ????????3|

| ?a2| ???1| ??78| ????????3|

| ?a3| ???1| ??95| ????????3|

| ?a6| ???3| ??99| ????????6|

| ?a7| ???3| ??99| ????????6|

| ?a8| ???3| ??45| ????????6|

| ?a9| ???3| ??55| ????????6|

| a10| ???3| ??78| ????????6|

| a11| ???3| ?100| ????????6|

| ?a4| ???2| ??74| ????????2|

| ?a5| ???2| ??92| ????????2|

+----+-----+-----+----------+

排序開(kāi)窗函數(shù)

?ROW_NUMBER順序排序

row_number() over(order by score) as rownum 表示按score 升序的方式來(lái)排序，并得出排序結(jié)果的序號(hào)

注意：

在排序開(kāi)窗函數(shù)中使用 PARTITION ?BY 子句需要放置在ORDER ?BY 子句之前。

?●示例1

spark.sql("select name, class, score, row_number()?over(order by score)?rank?from scores").show()

+----+-----+-----+----+

+----+-----+-----+----+

| ?a8| ???3| ??45| ??1|

| ?a9| ???3| ??55| ??2|

| ?a4| ???2| ??74| ??3|

| ?a2| ???1| ??78| ??4|

| a10| ???3| ??78| ??5|

| ?a1| ???1| ??80| ??6|

| ?a5| ???2| ??92| ??7|

| ?a3| ???1| ??95| ??8|

| ?a6| ???3| ??99| ??9|

| ?a7| ???3| ??99| ?10|

| a11| ???3| ?100| ?11|

+----+-----+-----+----+

spark.sql("select name, class, score, row_number() over(partition by class order by score) rank from scores").show()

+----+-----+-----+----+ ????????????????????????????????????????????????????????

+----+-----+-----+----+

| ?a2| ???1| ??78| ??1|

| ?a1| ???1| ??80| ??2|

| ?a3| ???1| ??95| ??3|

| ?a8| ???3| ??45| ??1|

| ?a9| ???3| ??55| ??2|

| a10| ???3| ??78| ??3|

| ?a6| ???3| ??99| ??4|

| ?a7| ???3| ??99| ??5|

| a11| ???3| ?100| ??6|

| ?a4| ???2| ??74| ??1|

| ?a5| ???2| ??92| ??2|

+----+-----+-----+----+

???????RANK跳躍排序

rank() over(order by score) as rank表示按 score升序的方式來(lái)排序，并得出排序結(jié)果的排名號(hào)。

這個(gè)函數(shù)求出來(lái)的排名結(jié)果可以并列，并列排名之后的排名將是并列的排名加上并列數(shù)

簡(jiǎn)單說(shuō)每個(gè)人只有一種排名，然后出現(xiàn)兩個(gè)并列第一名的情況，這時(shí)候排在兩個(gè)第一名后面的人將是第三名，也就是沒(méi)有了第二名，但是有兩個(gè)第一名

●示例2

spark.sql("select name, class, score, rank() over(order by score) rank?from scores").show() ????????????????????????????????????????????????????

+----+-----+-----+----+

+----+-----+-----+----+

| ?a8| ???3| ??45| ??1|

| ?a9| ???3| ??55| ??2|

| ?a4| ???2| ??74| ??3|

| a10| ???3| ??78| ??4|

| ?a2| ???1| ??78| ??4|

| ?a1| ???1| ??80| ??6|

| ?a5| ???2| ??92| ??7|

| ?a3| ???1| ??95| ??8|

| ?a6| ???3| ??99| ??9|

| ?a7| ???3| ??99| ??9|

| a11| ???3| ?100| ?11|

+----+-----+-----+----+

spark.sql("select name, class, score, rank() over(partition by class order by score) rank from scores").show()

+----+-----+-----+----+ ????????????????????????????????????????????????????????

+----+-----+-----+----+

| ?a2| ???1| ??78| ??1|

| ?a1| ???1| ??80| ??2|

| ?a3| ???1| ??95| ??3|

| ?a8| ???3| ??45| ??1|

| ?a9| ???3| ??55| ??2|

| a10| ???3| ??78| ??3|

| ?a6| ???3| ??99| ??4|

| ?a7| ???3| ??99| ??4|

| a11| ???3| ?100| ??6|

| ?a4| ???2| ??74| ??1|

| ?a5| ???2| ??92| ??2|

+----+-----+-----+----+

????????DENSE_RANK連續(xù)排序

dense_rank() over(order by ?score) as ?dense_rank 表示按score 升序的方式來(lái)排序，并得出排序結(jié)果的排名號(hào)。

這個(gè)函數(shù)并列排名之后的排名只是并列排名加１

簡(jiǎn)單說(shuō)每個(gè)人只有一種排名，然后出現(xiàn)兩個(gè)并列第一名的情況，這時(shí)候排在兩個(gè)第一名后面的人將是第二名，也就是兩個(gè)第一名，一個(gè)第二名

●示例3

spark.sql("select name, class, score,?dense_rank() over(order by score) rank from scores").show()

+----+-----+-----+----+

+----+-----+-----+----+

| ?a8| ???3| ??45| ??1|

| ?a9| ???3| ??55| ??2|

| ?a4| ???2| ??74| ??3|

| ?a2| ???1| ??78| ??4|

| a10| ???3| ??78| ??4|

| ?a1| ???1| ??80| ??5|

| ?a5| ???2| ??92| ??6|

| ?a3| ???1| ??95| ??7|

| ?a6| ???3| ??99| ??8|

| ?a7| ???3| ??99| ??8|

| a11| ???3| ?100| ??9|

+----+-----+-----+----+

spark.sql("select name, class, score, dense_rank() over(partition by class order by score) rank?from scores").show()

+----+-----+-----+----+ ????????????????????????????????????????????????????????

+----+-----+-----+----+

| ?a2| ???1| ??78| ??1|

| ?a1| ???1| ??80| ??2|

| ?a3| ???1| ??95| ??3|

| ?a8| ???3| ??45| ??1|

| ?a9| ???3| ??55| ??2|

| a10| ???3| ??78| ??3|

| ?a6| ???3| ??99| ??4|

| ?a7| ???3| ??99| ??4|

| a11| ???3| ?100| ??5|

| ?a4| ???2| ??74| ??1|

| ?a5| ???2| ??92| ??2|

+----+-----+-----+----+

???????NTILE分組排名[了解]

ntile(6) over(order by score)as ntile表示按 score 升序的方式來(lái)排序，然后 6 等分成 6 個(gè)組，并顯示所在組的序號(hào)。

?示例4

spark.sql("select name, class, score, ntile(6) over(order by score) rank?from scores").show()

+----+-----+-----+----+

+----+-----+-----+----+

| ?a8| ???3| ??45| ??1|

| ?a9| ???3| ??55| ??1|

| ?a4| ???2| ??74| ??2|

| ?a2| ???1| ??78| ??2|

| a10| ???3| ??78| ??3|

| ?a1| ???1| ??80| ??3|

| ?a5| ???2| ??92| ??4|

| ?a3| ???1| ??95| ??4|

| ?a6| ???3| ??99| ??5|

| ?a7| ???3| ??99| ??5|

| a11| ???3| ?100| ??6|

+----+-----+-----+----+

spark.sql("select name, class, score, ntile(6) over(partition by class order by score)?rank from scores").show()

+----+-----+-----+----+ ????????????????????????????????????????????????????????

+----+-----+-----+----+

| ?a2| ???1| ??78| ??1|

| ?a1| ???1| ??80| ??2|

| ?a3| ???1| ??95| ??3|

| ?a8| ???3| ??45| ??1|

| ?a9| ???3| ??55| ??2|

| a10| ???3| ??78| ??3|

| ?a6| ???3| ??99| ??4|

| ?a7| ???3| ??99| ??5|

| a11| ???3| ?100| ??6|

| ?a4| ???2| ??74| ??1|

| ?a5| ???2| ??92| ??2|

+----+-----+-----+----+

???????代碼演示

package cn.itcast.sqlimport org.apache.spark.SparkContext
import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}/*** Author itcast* Date 2020/9/21 9:33* Desc 使用SparkSQL支持的開(kāi)窗函數(shù)/窗口函數(shù)完成對(duì)各個(gè)班級(jí)的學(xué)生成績(jī)的排名*/
object RowNumberDemo {case class Score(name: String, clazz: Int, score: Int)def main(args: Array[String]): Unit = {//1.準(zhǔn)備環(huán)境val spark: SparkSession = SparkSession.builder().appName("WordCount").master("local[*]").getOrCreate()val sc: SparkContext = spark.sparkContextsc.setLogLevel("WARN")import spark.implicits._//2.加載數(shù)據(jù)val scoreDF: DataFrame = sc.makeRDD(Array(Score("a1", 1, 80),Score("a2", 1, 78),Score("a3", 1, 95),Score("a4", 2, 74),Score("a5", 2, 92),Score("a6", 3, 99),Score("a7", 3, 99),Score("a8", 3, 45),Score("a9", 3, 55),Score("a10", 3, 78),Score("a11", 3, 100))).toDF("name", "class", "score")scoreDF.createOrReplaceTempView("t_scores")scoreDF.show()/*+----+-----+-----+|name|class|score|num+----+-----+-----+| ?a1| ???1| ??80|| ?a2| ???1| ??78|| ?a3| ???1| ??95|| ?a4| ???2| ??74|| ?a5| ???2| ??92|| ?a6| ???3| ??99|| ?a7| ???3| ??99|| ?a8| ???3| ??45|| ?a9| ???3| ??55|| a10| ???3| ??78|| a11| ???3| ?100|+----+-----+-----+*///使用ROW_NUMBER順序排序spark.sql("select name, class, score, row_number() over(partition by class order by score) num from t_scores").show()//使用RANK跳躍排序spark.sql("select name, class, score, rank() over(partition by class order by score) num from t_scores").show()//使用DENSE_RANK連續(xù)排序spark.sql("select name, class, score, dense_rank() over(partition by class order by score) num from t_scores").show()/*
ROW_NUMBER順序排序--1234
+----+-----+-----+---+
|name|class|score|num|
+----+-----+-----+---+
| ?a2| ???1| ??78| ?1|
| ?a1| ???1| ??80| ?2|
| ?a3| ???1| ??95| ?3|
| ?a8| ???3| ??45| ?1|
| ?a9| ???3| ??55| ?2|| a10| ???3| ??78| ?3|
| ?a6| ???3| ??99| ?4|
| ?a7| ???3| ??99| ?5|
| a11| ???3| ?100| ?6|| ?a4| ???2| ??74| ?1|
| ?a5| ???2| ??92| ?2|
+----+-----+-----+---+使用RANK跳躍排序--1224
+----+-----+-----+---+
|name|class|score|num|
+----+-----+-----+---+
| ?a2| ???1| ??78| ?1|
| ?a1| ???1| ??80| ?2|
| ?a3| ???1| ??95| ?3|
| ?a8| ???3| ??45| ?1|
| ?a9| ???3| ??55| ?2|| a10| ???3| ??78| ?3|
| ?a6| ???3| ??99| ?4|
| ?a7| ???3| ??99| ?4|
| a11| ???3| ?100| ?6|| ?a4| ???2| ??74| ?1|
| ?a5| ???2| ??92| ?2|
+----+-----+-----+---+DENSE_RANK連續(xù)排序--1223
+----+-----+-----+---+
|name|class|score|num|
+----+-----+-----+---+
| ?a2| ???1| ??78| ?1|
| ?a1| ???1| ??80| ?2|
| ?a3| ???1| ??95| ?3|
| ?a8| ???3| ??45| ?1|
| ?a9| ???3| ??55| ?2|| a10| ???3| ??78| ?3|
| ?a6| ???3| ??99| ?4|
| ?a7| ???3| ??99| ?4|
| a11| ???3| ?100| ?5|| ?a4| ???2| ??74| ?1|
| ?a5| ???2| ??92| ?2|
+----+-----+-----+---+*//*val sql ="""|select 字段1,字段2,字段n,|row_number() over(partition by 字段1 order by 字段2 desc) num|from 表名|having num <= 3|""".stripMarginimport org.apache.spark.sql.functions._df.withColumn("num",row_number().over(Window.partitionBy('字段1).orderBy('字段2.desc))).filter('num <= 3).show(false)*/}
}

總結(jié)

以上是生活随笔為你收集整理的2021年大数据Spark（二十九）：SparkSQL案例四开窗函数的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： 2021年大数据Spark（四十四）：S
下一篇： 2021年大数据Spark（四十五）：S

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活经验

2021年大数据Spark（二十九）：SparkSQL案例四开窗函数

???????案例四：開(kāi)窗函數(shù)

概述

介紹

聚合函數(shù)和開(kāi)窗函數(shù)

開(kāi)窗函數(shù)分類

???????聚合開(kāi)窗函數(shù)

排序開(kāi)窗函數(shù)

?ROW_NUMBER順序排序

???????RANK跳躍排序

????????DENSE_RANK連續(xù)排序

???????NTILE分組排名[了解]

???????代碼演示

總結(jié)