hive 表存储大小_Hive中文件存储格式及大小比较测试
在hive中創(chuàng)建表是有如下一個語句
[ROW FORMAT row_format]
row_format 的類型有如下:
file_format:
: SEQUENCEFILE
| TEXTFILE -- (Default, depending on hive.default.fileformat configuration)
| RCFILE -- (Note: Available in Hive 0.6.0 and later)
| ORC -- (Note: Available in Hive 0.11.0 and later)
| PARQUET -- (Note: Available in Hive 0.13.0 and later)
| AVRO -- (Note: Available in Hive 0.14.0 and later)
| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname
默認(rèn)是文本格式例如:
按照數(shù)據(jù)存儲方式分類
按照行存儲
SEQUENCEFILE
TEXTFILE
按照列存儲
RCFILE
ORC
PARQUET
說明:parquet目前已經(jīng)是apache的頂級項目了,在hive,hbase,spark中都是經(jīng)常使用的。
文件格式的壓縮比較
實際業(yè)務(wù)我們是按照列來分析數(shù)據(jù)及使用數(shù)據(jù)的。
1、創(chuàng)建文本表
2、加載數(shù)據(jù)
image.png
3、查看創(chuàng)建OCR文件的格式
4、創(chuàng)建ocr文件
5、把文件表中的數(shù)據(jù)插入到OCR類型的表中
6、創(chuàng)建parquet類型的表并插入數(shù)據(jù)
7、查看文件大小
原始文本文件的大小
orc文件大小
partquet文件大小
執(zhí)行sql語句測試執(zhí)行速度
總結(jié)
以上是生活随笔為你收集整理的hive 表存储大小_Hive中文件存储格式及大小比较测试的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: string java getbytes
- 下一篇: java hook 框架_hook框架-