hive表指定分区字段搜索_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件...
首先說一下,這里解決的問題應(yīng)用場景:
sparksql處理Hive表數(shù)據(jù)時(shí),判斷加載的是否是分區(qū)表,以及分區(qū)表的字段有哪些?再進(jìn)一步限制查詢分區(qū)表必須指定分區(qū)?
這里涉及到兩種情況:select SQL查詢和加載Hive表路徑的方式。這里僅就"加載Hive表路徑的方式"解析分區(qū)表字段,在處理時(shí)出現(xiàn)的一些問題及解決作出詳細(xì)說明。
如果大家有類似的需求,筆者建議通過解析Spark SQL logical plan和下面說的這種方式解決方案結(jié)合,封裝成一個(gè)通用的工具。
問題現(xiàn)象
sparksql加載指定Hive分區(qū)表路徑,生成的DataSet沒有分區(qū)字段。
如,
sparkSession.read.format("parquet").load(s"${hive_path}"),hive_path為Hive分區(qū)表在HDFS上的存儲路徑。
hive_path的幾種指定方式會導(dǎo)致這種情況的發(fā)生(test_partition是一個(gè)Hive外部分區(qū)表,dt是它的分區(qū)字段,分區(qū)數(shù)據(jù)有dt為20200101和20200102):
1. hive_path為"/spark/dw/test.db/test_partition/dt=20200101"
2. hive_path為"/spark/dw/test.db/test_partition/*"
因?yàn)闋可娴降脑创a比較多,這里僅以示例的程序中涉及到的源碼中的class、object和方法,繪制成xmind圖如下,想細(xì)心研究的可以參考該圖到spark源碼中進(jìn)行分析。
問題分析
我這里主要給出幾個(gè)源碼段,結(jié)合上述xmind圖理解:
在沒有指定參數(shù)basePath的情況下:
1. hive_path為/spark/dw/test.db/test_partition/dt=20200101
sparksql底層處理后得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【偽代碼】
leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【偽代碼】
2. hive_path為/spark/dw/test.db/test_partition/*
sparksql底層處理后得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【偽代碼】
leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【偽代碼】
這兩種情況導(dǎo)致源碼if(basePaths.contains(currentPath))為true,還沒有解析分區(qū)就重置變量finished為true跳出循環(huán),因此最終生成的結(jié)果也就沒有分區(qū)字段:
解決方案(親測有效)
1. 在Spark SQL加載Hive表數(shù)據(jù)路徑時(shí),指定參數(shù)basePath,如
sparkSession.read.option("basePath","/spark/dw/test.db/test_partition")
2. 主要重寫basePaths方法和parsePartition方法中的處理邏輯,同時(shí)需要修改其他涉及的代碼。由于涉及需要改寫的代碼比較多,可以封裝成工具
關(guān)聯(lián)文章:
總結(jié)
以上是生活随笔為你收集整理的hive表指定分区字段搜索_Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 试用去水印_教你一键视频去水印,支持抖音
- 下一篇: mysql 没有mysql库_MySQL