日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

hive表指定分区字段搜索_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件...

發(fā)布時(shí)間:2025/3/15 数据库 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hive表指定分区字段搜索_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

首先說一下,這里解決的問題應(yīng)用場景:

sparksql處理Hive表數(shù)據(jù)時(shí),判斷加載的是否是分區(qū)表,以及分區(qū)表的字段有哪些?再進(jìn)一步限制查詢分區(qū)表必須指定分區(qū)?

這里涉及到兩種情況:select SQL查詢和加載Hive表路徑的方式。這里僅就"加載Hive表路徑的方式"解析分區(qū)表字段,在處理時(shí)出現(xiàn)的一些問題及解決作出詳細(xì)說明。

如果大家有類似的需求,筆者建議通過解析Spark SQL logical plan和下面說的這種方式解決方案結(jié)合,封裝成一個(gè)通用的工具。

問題現(xiàn)象

sparksql加載指定Hive分區(qū)表路徑,生成的DataSet沒有分區(qū)字段。

如,

sparkSession.read.format("parquet").load(s"${hive_path}"),hive_path為Hive分區(qū)表在HDFS上的存儲路徑。

hive_path的幾種指定方式會導(dǎo)致這種情況的發(fā)生(test_partition是一個(gè)Hive外部分區(qū)表,dt是它的分區(qū)字段,分區(qū)數(shù)據(jù)有dt為20200101和20200102):

1. hive_path為"/spark/dw/test.db/test_partition/dt=20200101"

2. hive_path為"/spark/dw/test.db/test_partition/*"

因?yàn)闋可娴降脑创a比較多,這里僅以示例的程序中涉及到的源碼中的class、object和方法,繪制成xmind圖如下,想細(xì)心研究的可以參考該圖到spark源碼中進(jìn)行分析。

問題分析

我這里主要給出幾個(gè)源碼段,結(jié)合上述xmind圖理解:

在沒有指定參數(shù)basePath的情況下:

1. hive_path為/spark/dw/test.db/test_partition/dt=20200101

sparksql底層處理后得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【偽代碼】

leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【偽代碼】

2. hive_path為/spark/dw/test.db/test_partition/*

sparksql底層處理后得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【偽代碼】

leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【偽代碼】

這兩種情況導(dǎo)致源碼if(basePaths.contains(currentPath))為true,還沒有解析分區(qū)就重置變量finished為true跳出循環(huán),因此最終生成的結(jié)果也就沒有分區(qū)字段:

解決方案(親測有效)

1. 在Spark SQL加載Hive表數(shù)據(jù)路徑時(shí),指定參數(shù)basePath,如

sparkSession.read.option("basePath","/spark/dw/test.db/test_partition")

2. 主要重寫basePaths方法和parsePartition方法中的處理邏輯,同時(shí)需要修改其他涉及的代碼。由于涉及需要改寫的代碼比較多,可以封裝成工具

關(guān)聯(lián)文章:

總結(jié)

以上是生活随笔為你收集整理的hive表指定分区字段搜索_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。