hive分区用2个字段有何限制_Hive分区表和桶表的使用
我們看官網文檔中這個地方
我們先創建好數據庫,以供練習
使用數據庫
我們創建數據表
我們創建分區表,選取的字段不能是表中存在的字段
元數據信息
Formatted信息
那我們加載信息
load data local inpath '/data/hivetest/dept.txt' into table dept_partition partition(bmbh=1);
我們查看數據
我們看下HDFS上,是目錄的形式
所以我們可以多加載幾份數據
查看數據和HDFS上
也可以創建二級分區
載入數據
查看下數據
查看下元數據
再看下HDFS
我們就可以依據條件查詢使用where語句
注:分區表可以提高查詢的效率。
我們再看這個地方-桶表
這個和分區表不一樣的地方,選取字段必須是表里的字段
我們準備個員工表
我們創建下桶表
我們加載下數據
看下HDFS
實際在桶表中,我們應該使用另外一種語句
運行過程
出現了點問題
三個節點時間不同步,設定下時間
date -s "2019-12-5 17:50:00"
再執行就可以了
查看結果
我們看HDFS上
我們查看下文件,已經分開了,如果有問題看看你的hive版本是否有這個屬性沒有打開。hive.enforce.bucketing。
注:其中桶表查詢還有下面的語句,可以仔細研究下,暫時先放一放,后續學習深入再了解。
Select * from table tablesample(bucket 1 out of 2)
Tablesample是抽樣數據,語法tablesample(bucket x out of y)y必須是table總bucket數的倍數或者因子。Hive根據y的大小,決定抽樣比例。例如:table總共分為64份,當y=32時,抽取(64/32)2個bucket數據;當y=128時,抽取(64/128)1/2個bucket數據,x表示從哪個bucket開始抽取,例如table總bucket數為32,tablesample(3 out of 16),表示總共抽取(32/16)2個bucket數據,分別為第3個bucket和第(3+16)19個bucket數據。
總結
以上是生活随笔為你收集整理的hive分区用2个字段有何限制_Hive分区表和桶表的使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 4阶范德蒙德行列式例题_行列式的性质和计
- 下一篇: 怎么判断前轮左右的位置_新手开车技巧,确