當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hive 结构metastone_深入理解hive之事务处理

發布時間：2023/12/15 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 hive 结构metastone_深入理解hive之事务处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

事務的四個特性

1.automicity：原子性

2.consistency:一致性

3. isolation:獨立性

4.durability:持久性

5.支持事務有幾個條件需要滿足：1.所有的事務都支持自動提交；2.只支持ORC格式的數據；3.桶表

7.配置hive的參數使其支持事務：

在hive-site.xml文件中進行如下的配置

hive.support.concurrency

true

hive.exec.dynamic.partition.mode

nonstrict

hive.txn.manager

org.apache.hadoop.hive.ql.lockmgr.DbTxnManager

hive.compactor.initiator.on

true

hive.compactor.worker.threads

hive.enforce.bucketing

true

對幾個重要的屬性做闡述：

hive.exec.dynamic.partition.mode:

可選值有：strict, nonstric.

strict嚴格模式下，必須制定一個partition為靜態分區，目的是為了防止誤操作其他partition.

在一個事務中，可能不止會更新一個Partition, 而且更新時也無法控制到底哪些partition會被操作到，因此為了支持事務，必須使用 Nonstrict.

hive.compactor.initiator.on

默認值是 false, 因為默認的情況連事務都不開啟。

這個屬性很重要的原因是回答之前我們的一個問題，如果 delta 文件過多，對namenode造成了影響，我們改如何改善系統性能？(在thrift metaserver 上)開啟了這個屬性之后，會使得在 metaStore 實例上運行　　Initiator, cleaner 進程。initiator 進程負責查找哪些表或者分區的 delta 文件需要被壓縮，cleaner 進程負責刪除已經不再需要的 delta 文件。接下來看看幾個hive的事務性操作

$hive>create table tx(id int,name string,age int) clustered by (id) into 3 buckets row format delimited fields terminated by ',' stored as orc ;//創建桶表，存儲格式為orc使其支持事務

$hive>desc formatted tx ;　　//查看tx表的結構

$hive>insert into tx values(1,'tom',23); //向桶表中來插入數據

hive分區

Hive分區的概念與傳統關系型數據庫分區不同。

傳統數據庫的分區方式：就oracle而言，分區獨立存在于段里，里面存儲真實的數據，在數據進行插入的時候自動分配分區。

Hive的分區方式：由于Hive實際是存儲在HDFS上的抽象，Hive的一個分區名對應一個目錄名，子分區名就是子目錄名，并不是一個實際字段。所以我們在插入數據的時候指定分區，就是新建一個目錄或者子目錄，或者在原來目錄的基礎上來添加數據。對于hive分區而言，可以分為靜態分區和動態分區這兩個類

1.靜態分區

$hive>create table customers(id int,name string ,age int ) partitioned by(year int,month int) row format delimited? fields terminated by ',';　//創建靜態分區表

$hive>alter table customers add partition(year=2014,month=11) partition(year=2014,month=12);//在靜態分區表中來添加分區

$hive>desc customers;//查看表結構

$hive>show partitions customers ;?　　//查看customers表的分區結構

$hive>load data local inpath '/data/customers.txt' into table customers? partition(year=2014,year=11); //從外部表加載數據到靜態分區表的指定分區中來,這是文件的復制操作

$hive>dfs -lsr /;　　//查看文件系統的文件結構

$hive>select? * from customers where?year=2014 and? month=11;

新建表的時候定義的分區順序，決定了文件目錄順序(誰是父目錄誰是子目錄)，正因為有了這個層級關系，當我們查詢所有year=1024的時候，2014以下的所有日期下的數據都會被查出來。如果只查詢月份分區，但父目錄都有該日期的數據，那么Hive會對輸入路徑進行修剪，從而只掃描日期分區，性別分區不作過濾(即查詢結果包含了所有性別)。

2.動態分區

在使用靜態分區的時候，我們首先要知道有什么分區類型，然后每個分區來進行數據的加載，這個操作過程比較麻煩；而動態分區不會有這些不必要的操作，動態分區可以根據查詢得到的數據動態地分配到分區中去，動態分區與靜態分區最大的區別是不指定分區目錄，由系統自己進行過選擇。

動態分區模式可以分為嚴格模式(strict)和非嚴格模式(non-strict),二者的區別是：嚴格模式在進行插入的時候至少指定一個靜態分區，而非嚴格模式在進行插入的時候可以不指定靜態分區

首先啟動動態分區的功能：

$hive>set hive.exec.dynamic.partition=true;

再設置分區模式為非嚴格模式

$hive>set hive.exec.dynamic.partition.mode=nonstrict

總結

以上是生活随笔為你收集整理的hive 结构metastone_深入理解hive之事务处理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：小米汽车工厂一期项目厂房已基本成型预计
下一篇：带通滤波器作用和用途_带通滤波器的作用和

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

hive 结构metastone_深入理解hive之事务处理

總結