當(dāng)前位置：首頁(yè) > 运维知识 > 数据库 >内容正文

数据库

6、HIVE JDBC开发、UDF、体系结构、Thrift服务器、Driver、元数据库Metastore、数据库连接模式、单/多用户模式、远程服务模式、Hive技术原理解析、优化等(整理的笔记)

發(fā)布時(shí)間：2024/9/27 数据库 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 6、HIVE JDBC开发、UDF、体系结构、Thrift服务器、Driver、元数据库Metastore、数据库连接模式、单/多用户模式、远程服务模式、Hive技术原理解析、优化等(整理的笔记) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目錄：
5 HIVE開(kāi)發(fā)
5.1 Hive JDBC開(kāi)發(fā)
5.2 Hive UDF
6 Hive的體系結(jié)構(gòu)
6.2 Thrift服務(wù)器
6.3 Driver
6.4 元數(shù)據(jù)庫(kù)Metastore
6.5 數(shù)據(jù)庫(kù)連接模式
6.5.1 單用戶模式
6.5.2 多用戶模式
6.5.3 遠(yuǎn)程服務(wù)模式
7 Hive技術(shù)原理解析
7.1 Hive工作原理
7.2.1 Hive編譯器的組成
7.2.2 Query Compiler
7.2.3新版本Hive也支持Tez或Spark作為執(zhí)行引擎
8 Hive優(yōu)化

5 HIVE開(kāi)發(fā)

5.1 Hive JDBC開(kāi)發(fā)

若想進(jìn)行Hive JDBC的開(kāi)發(fā)，需要開(kāi)啟HiveServer2服務(wù)，這里要參考第二章節(jié)的”連接方式”中的HiveServer2/beeline章節(jié)。

其中一個(gè)Hive JDBC的案例如下：

啟動(dòng)完HiveServer2服務(wù)，就提供JDBC服務(wù)了，類(lèi)似：

import java.sql.SQLException; import java.sql.Connection; import java.sql.ResultSet; import java.sql.Statement; import java.sql.DriverManager;public class HiveJdbcClient {private static String driverName = "org.apache.hive.jdbc.HiveDriver";/*** @param args* @throws SQLException*/public static void main(String[] args) throws SQLException {try {Class.forName(driverName);} catch (ClassNotFoundException e) {// TODO Auto-generated catch blocke.printStackTrace();System.exit(1);}//replace "hive" here with the name of the user the queries should run asConnection con = DriverManager.getConnection("jdbc:hive2://localhost:10000/default", "hive", "");Statement stmt = con.createStatement();String tableName = "testHiveDriverTable";stmt.execute("drop table if exists " + tableName);stmt.execute("create table " + tableName + " (key int, value string)");// show tablesString sql = "show tables '" + tableName + "'";System.out.println("Running: " + sql);ResultSet res = stmt.executeQuery(sql);if (res.next()) {System.out.println(res.getString(1));}// describe tablesql = "describe " + tableName;System.out.println("Running: " + sql);res = stmt.executeQuery(sql);while (res.next()) {System.out.println(res.getString(1) + "\t" + res.getString(2));}// load data into table// NOTE: filepath has to be local to the hive server// NOTE: /tmp/a.txt is a ctrl-A separated file with two fields per lineString filepath = "/tmp/a.txt";sql = "load data local inpath '" + filepath + "' into table " + tableName;System.out.println("Running: " + sql);stmt.execute(sql);// select * querysql = "select * from " + tableName;System.out.println("Running: " + sql);res = stmt.executeQuery(sql);while (res.next()) {System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));}// regular hive querysql = "select count(1) from " + tableName;System.out.println("Running: " + sql);res = stmt.executeQuery(sql);while (res.next()) {System.out.println(res.getString(1));}} }

5.2 Hive UDF

簡(jiǎn)單UDF示例
前期準(zhǔn)備，要把hive的lib包導(dǎo)入到工程中，其中UDF依賴的是hive-exec-2.3.4.jar（針對(duì)hive2.3.4版本）。也就是說(shuō)要把$HIVE_HOME\lib中的內(nèi)容引入到工程中。若用到hadoop中的一些api，也把hadoop的相關(guān)的jar包也引入進(jìn)去。
1、先開(kāi)發(fā)一個(gè)java類(lèi)，繼承UDF，并重載evaluate方法。

package hiveudf;import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text;public class ToLowerCase extends UDF {public Text evaluate(final Text s) {if(s == null) {returnnull;}returnnew Text(s.toString().toLowerCase());} }

2、打成jar包上傳到服務(wù)器
3、將jar包添加到hive的classpath
4、hive> add jar /home/udf/hivedata/udf.jar;
5、hive>創(chuàng)建臨時(shí)函數(shù)與開(kāi)發(fā)好的java class關(guān)聯(lián)

hive> create temporary function toLowercase as 'hiveudf.ToLowerCase'; OK Time taken: 0.039 seconds hive>

6、即可在HiveQL中使用自定義的函數(shù)toLowercase

hive> select toLowercase("ZHANGSAN") from dual; OK zhangsan Time taken: 0.122 seconds, Fetched: 1 row(s) hive>

再如判斷身份證的一個(gè)UDF函數(shù)：

package com.xxx.xxx.udf;import java.text.SimpleDateFormat; import java.util.Date; import java.util.regex.Matcher; import java.util.regex.Pattern;import org.apache.hadoop.hive.ql.exec.UDF;/*** 身份證校驗(yàn)UDF* * @author xxx* @date 2019年5月29日* * 1.身份證號(hào)碼構(gòu)成：6位地址編碼+8位生日+3位順序碼+1位校驗(yàn)碼 * 2.驗(yàn)證15位，18位證件號(hào)碼是否有效； * 3.15位號(hào)碼將直接轉(zhuǎn)為18位；【這一步不做轉(zhuǎn)化】* 4.校驗(yàn)身份證號(hào)碼除了校驗(yàn)位是否為數(shù)值，校驗(yàn)省份、出生日期* 省份編碼[11, 12, 13, 14, 15, 21, 22, 23, 31, 32, 33, 34, 35, 36, 37, 41, 42, 43,44, 45, 46, 50, 51, 52, 53, 54, 61, 62, 63, 64, 65, 71, 81, 82, 91]* 5.校驗(yàn)位不正確的會(huì)被正確的替代.【最后1位是根據(jù)前面17位生成的,如果不正確,會(huì)生成正確的檢驗(yàn)碼進(jìn)行修正.】* 6.出生日期邏輯有效性，即是否1864年前出生，是否當(dāng)前日期后出生已校驗(yàn)。* 7.1984年4月6日國(guó)務(wù)院發(fā)布《中華人民共和國(guó)居民身份證試行條例》，并且開(kāi)始頒發(fā)第一代居民身份證,按壽命120歲驗(yàn)證，年齡區(qū)間是1864年至今。 * 8.15位證件號(hào)碼轉(zhuǎn)換未考慮1900年前出生的人【這一步不做轉(zhuǎn)化】* 9.去除null,去除空串,去除非15位和18位* 10.判斷前17位是否含非數(shù)字字符.* 11.判斷非法日期,如生日所在日期(2019年2月29日)不存在.* * add jar hdfs://tqHadoopCluster/xxx/udf/idCardUdf.jar;* create temporary function cheakIdCardNumber as 'com.xxx.xxx.udf.IdNumber';* 這這就可以使用cheakIdCardNumber(String idCardNumber)進(jìn)行校驗(yàn)身份證了*/ public class IdNumber extends UDF {private final static int NEW_CARD_NUMBER_LENGTH = 18;private final static int OLD_CARD_NUMBER_LENGTH = 15;/** 開(kāi)始年份 */private final static int YEAR_BEGIN = 1864;/** 18位身份證中最后一位校驗(yàn)碼 */private final static char[] VERIFY_CODE = {'1', '0', 'X', '9', '8', '7', '6', '5', '4', '3', '2'};/** 18位身份證中，各個(gè)數(shù)字的生成校驗(yàn)碼時(shí)的權(quán)值 */private final static int[] VERIFY_CODE_WEIGHT = {7, 9, 10, 5, 8, 4, 2, 1, 6, 3, 7, 9, 10, 5, 8, 4, 2};/** 省份編碼集合 */private final static int[] PROVINCE_CODE = {11, 12, 13, 14, 15, 21, 22, 23, 31, 32, 33, 34, 35, 36, 37, 41, 42, 43,44, 45, 46, 50, 51, 52, 53, 54, 61, 62, 63, 64, 65, 71, 81, 82, 91};private final static Pattern PATTERN = Pattern.compile("[0-9]*");private final static ThreadLocal<SimpleDateFormat> THREADLOCAL = new ThreadLocal<SimpleDateFormat>() {@Overrideprotected SimpleDateFormat initialValue() {// 直接返回nullreturn null;}};/*public static void main(String[] args) {IdNumber idNumber = new IdNumber();//String evaluate = idNumber.evaluate("125197791116622");// 125197 791116622// 12519719791116622X// 330304198705234817String evaluate = idNumber.evaluate("330304201902284815");System.out.println(evaluate);}*/public String evaluate(String cardNumber) {// 1.去除NULLif (cardNumber == null) {return null;} Date dNow = new Date();SimpleDateFormat ft = new SimpleDateFormat("yyyy");int yearEnd = Integer.parseInt(ft.format(dNow));cardNumber = cardNumber.trim();// 2.去除空字符串if (cardNumber.length() == 0) {return null;}// 3.去除長(zhǎng)度不正確的,非15或18位if (NEW_CARD_NUMBER_LENGTH != cardNumber.length() & OLD_CARD_NUMBER_LENGTH != cardNumber.length()) {return null;}// 4.如果是18位if (NEW_CARD_NUMBER_LENGTH == cardNumber.length()) {// 4.1.前17位不為數(shù)值,返回nullif (isNumeric(cardNumber.substring(0, 17)) == false) {return null;}// 校驗(yàn)位修正,判斷最后一位是否正確if (IdNumber.calculateVerifyCode(cardNumber) != cardNumber.charAt(17)) {//如果最后一位校驗(yàn)碼不會(huì),則修正校驗(yàn)碼.cardNumber = contertToNewCardNumber(cardNumber, NEW_CARD_NUMBER_LENGTH);}// 身份證前2位是省份編碼, 如果編碼不在已知集合中, 返回null.if (isProvince(cardNumber.substring(0, 2)) == false) {return null;} // 非法日期轉(zhuǎn)換前后不一致, 如當(dāng)前年份不存在2月29日, 返回nullif (isDate(cardNumber.substring(6, 14)) == false) {return null;}// 1984年4月6日國(guó)務(wù)院發(fā)布《中華人民共和國(guó)居民身份證試行條例》，并且開(kāi)始頒發(fā)第一代居民身份證,按壽命120歲驗(yàn)證，年齡區(qū)間是1864年至今。小于1984的為非法.int birthdayYear = Integer.parseInt(cardNumber.substring(6, 10));if (birthdayYear < YEAR_BEGIN) {return null;}// 如果出生年月大于當(dāng)前日期, 返回nullif (birthdayYear > yearEnd) {return null;}}// 5.如果是15位：15位身份證號(hào)碼不轉(zhuǎn)換為18位.if (OLD_CARD_NUMBER_LENGTH == cardNumber.length()) {// 前15位中含非數(shù)字字符, 返回nullif (isNumeric(cardNumber) == false) {return null;}// 省份編碼不在在已知集合中, 返回nullif (isProvince(cardNumber.substring(0, 2)) == false) {return null;}// 非法日期轉(zhuǎn)換前后不一致, 返回nullif (isDate("19" + cardNumber.substring(6, 12)) == false) {return null;}//將15位身份證轉(zhuǎn)化為18位,考慮1900年前出生的人。//cardNumber = contertToNewCardNumber(cardNumber, OLD_CARD_NUMBER_LENGTH);}return cardNumber;}/*** 校驗(yàn)碼（第十八位數(shù)）：* * 十七位數(shù)字本體碼加權(quán)求和公式 S = Sum(Ai * Wi), i = 0...16 ，先對(duì)前17位數(shù)字的權(quán)求和； * Ai:表示第i位置上的身份證號(hào)碼數(shù)字值 * Wi:表示第i位置上的加權(quán)因子 * Wi: 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2; * 計(jì)算模 Y = mod(S, 11) 通過(guò)模得到對(duì)應(yīng)的校驗(yàn)碼* Y: 0 1 2 3 4 5 6 7 8 9 10 * 校驗(yàn)碼: 1 0 X 9 8 7 6 5 4 3 2* * @param cardNumber* @return*/private static char calculateVerifyCode(CharSequence cardNumber) {int sum = 0;for (int i = 0; i < NEW_CARD_NUMBER_LENGTH - 1; i++) {char ch = cardNumber.charAt(i);sum += ((int)(ch - '0')) * VERIFY_CODE_WEIGHT[i];}//VERIFY_CODE = {'1', '0', 'X', '9', '8', '7', '6', '5', '4', '3', '2'};return VERIFY_CODE[sum % 11];}/*** A-把15位身份證號(hào)碼轉(zhuǎn)換到18位身份證號(hào)碼 15位身份證號(hào)碼與18位身份證號(hào)碼的區(qū)別為： * 1. 15位身份證號(hào)碼中，"出生年份"字段是2位，轉(zhuǎn)換時(shí)需要補(bǔ)入"19"，表示20世紀(jì)* 2. 15位身份證無(wú)最后一位校驗(yàn)碼。18位身份證中，校驗(yàn)碼根據(jù)根據(jù)前17位生成 B-18位身份證號(hào)碼校驗(yàn)位修復(fù)* * @param cardNumber* @return*/private static String contertToNewCardNumber(String idCardNumber, int cardNumberLength) {StringBuilder buf = new StringBuilder(NEW_CARD_NUMBER_LENGTH);if (cardNumberLength == NEW_CARD_NUMBER_LENGTH) {buf.append(idCardNumber.substring(0, 17));buf.append(IdNumber.calculateVerifyCode(buf));} else if (cardNumberLength == OLD_CARD_NUMBER_LENGTH) {buf.append(idCardNumber.substring(0, 6));buf.append("19");buf.append(idCardNumber.substring(6));buf.append(IdNumber.calculateVerifyCode(buf));}return buf.toString();}/*** 功能：判斷字符串是否為數(shù)字* * @param str* @return*/private static boolean isNumeric(String str) {Matcher isNum = PATTERN.matcher(str);if (isNum.matches()) {return true;} else {return false;}}/*** 功能：判斷前兩位是在省份編碼集合內(nèi)* @param province* @return*/private static boolean isProvince(String province) {int prov = Integer.parseInt(province);for (int i = 0; i < PROVINCE_CODE.length; i++) {if (PROVINCE_CODE[i] == prov) {return true;}}return false;}public static SimpleDateFormat getDateFormat() {SimpleDateFormat df = (SimpleDateFormat)THREADLOCAL.get();if (df == null) {df = new SimpleDateFormat("yyyyMMdd");df.setLenient(false);THREADLOCAL.set(df);}return df;}/*** 功能：判斷出生日期字段是否為日期* * @param str* @return*/private static boolean isDate(String birthDate) {try {SimpleDateFormat sdf = getDateFormat();//如果不合法,會(huì)拋異常, Unparseable date: "20190229"Date cacheBirthDate = sdf.parse(birthDate);if (sdf.format(cacheBirthDate).equals(birthDate) == false) {// 非法日期轉(zhuǎn)換前后不一致return false;}} catch (Exception e) {//e.printStackTrace();return false;}return true;} }

6 Hive的體系結(jié)構(gòu)

下面是Hive的架構(gòu)圖：

圖 1 Hive體系結(jié)構(gòu)

6.1用戶接口

（1）、CLI:CLI啟動(dòng)的時(shí)候，會(huì)同時(shí)啟動(dòng)一個(gè)Hive副本。
（2）、JDBC客戶端：封裝了Thrift,java應(yīng)用程序，可以通過(guò)指定的主機(jī)和端口連接到在另外一個(gè)進(jìn)程中運(yùn)行的hive服務(wù)器。
（3）、ODBC客戶端：ODBC驅(qū)動(dòng)允許支持ODBC協(xié)議的應(yīng)用程序連接到Hive
（4）、WUI接口：通過(guò)瀏覽器訪問(wèn)Hive

6.2Thrift服務(wù)器

基于socket通訊，支持跨語(yǔ)言。Hive Thrift服務(wù)簡(jiǎn)化了在多編程語(yǔ)言中運(yùn)行hive的命令。綁定支持C++,Java,PHP,Python和Ruby語(yǔ)言。

6.3 Driver

核心組件，整個(gè)Hive的核心，該組件包括Complier、Optimizer和Executor; 解釋器、編譯器、優(yōu)化器完成HQL查詢語(yǔ)句從詞法分析、語(yǔ)法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。生成的查詢計(jì)劃存儲(chǔ)在HDFS中，并在隨后有MapReduce調(diào)用執(zhí)行。

6.4 元數(shù)據(jù)庫(kù)Metastore

Hive的數(shù)據(jù)由兩部分組成：數(shù)據(jù)文件和元數(shù)據(jù)。元數(shù)據(jù)用于存放Hive庫(kù)的基礎(chǔ)信息，它存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中，例如mysql、Oracle、derby。元數(shù)據(jù)包括：數(shù)據(jù)庫(kù)信息、表達(dá)的名字，表的列和分區(qū)及其屬性，表的屬性，表的數(shù)據(jù)所在目錄等。
Hadoop
Hive的數(shù)據(jù)文件存儲(chǔ)在HDFS中，大部分的查詢由MapReduce完成。（對(duì)于包含*的查詢，比如select * from tbl不會(huì)生成MapReduce作業(yè)）

6.5數(shù)據(jù)庫(kù)連接模式

6.5.1 單用戶模式

此模式連接到一個(gè)In-memory的數(shù)據(jù)庫(kù)Derby,Derby數(shù)據(jù)是Hive自帶的數(shù)據(jù)庫(kù)，默認(rèn)只能有一個(gè)連接，用戶連接到Hive后，會(huì)在當(dāng)前目錄生成一個(gè)metastore文件來(lái)存放元數(shù)據(jù)信息，不同的用戶連接到Hive看到的信息不一致。

6.5.2多用戶模式

通過(guò)網(wǎng)絡(luò)連接到一個(gè)關(guān)系型數(shù)據(jù)庫(kù)中，如MySQL,是最進(jìn)程使用到的模式。這樣多個(gè)用戶操作的元數(shù)據(jù)信息統(tǒng)一放到關(guān)系型數(shù)據(jù)庫(kù)，這樣不同用戶可以操作相同的對(duì)象。

6.5.3 遠(yuǎn)程服務(wù)模式

用于非Java客戶端訪問(wèn)元數(shù)據(jù)，在服務(wù)器啟動(dòng)MetaStoreServer,客戶端利用Thrift協(xié)議通過(guò)MetaStoreServer訪問(wèn)元數(shù)據(jù)。

7 Hive技術(shù)原理解析

7.1 Hive工作原理

如下圖所示：

流程大致步驟為：

用戶提交查詢等任務(wù)給Driver。

編譯器獲得該用戶的任務(wù)Plan。

編譯器Compiler根據(jù)用戶任務(wù)去MetaStore中獲取需要的Hive的元數(shù)據(jù)信息。

編譯器Compiler得到元數(shù)據(jù)信息，對(duì)任務(wù)進(jìn)行編譯，先將HiveQL轉(zhuǎn)換為抽象語(yǔ)法樹(shù)，然后將抽象語(yǔ)法樹(shù)轉(zhuǎn)換成查詢塊，將查詢塊轉(zhuǎn)化為邏輯的查詢計(jì)劃，重寫(xiě)邏輯查詢計(jì)劃，將邏輯計(jì)劃轉(zhuǎn)化為物理的計(jì)劃（MapReduce）, 最后選擇最佳的策略。

將最終的計(jì)劃提交給Driver。

Driver將計(jì)劃Plan轉(zhuǎn)交給ExecutionEngine去執(zhí)行，獲取元數(shù)據(jù)信息，提交給JobTracker或者SourceManager執(zhí)行該任務(wù)，任務(wù)會(huì)直接讀取HDFS中文件進(jìn)行相應(yīng)的操作。

獲取執(zhí)行的結(jié)果。

取得并返回執(zhí)行結(jié)果。

創(chuàng)建表時(shí)：
1、解析用戶提交的Hive語(yǔ)句對(duì)其進(jìn)行解析分解為表、字段、分區(qū)等Hive對(duì)象。根據(jù)解析到的信息構(gòu)建對(duì)應(yīng)的表、字段、分區(qū)等對(duì)象，從SEQUENCE_TABLE中獲取構(gòu)建對(duì)象的最新的ID,與構(gòu)建對(duì)象信息（名稱(chēng)、類(lèi)型等等）一同通過(guò)DAO方法寫(xiě)入元數(shù)據(jù)庫(kù)的表中，成功后將SEQUENCE_TABLE中對(duì)應(yīng)的最新ID+5.實(shí)際上常見(jiàn)的RDBMS都是通過(guò)這種方法進(jìn)行組織的，其系統(tǒng)表中和Hive元素一樣顯示了這些ID信息。通過(guò)這些元數(shù)據(jù)可以很容易的讀取到數(shù)據(jù)。

工作原理的另外一種說(shuō)法是：
接收到一個(gè)sql,后面做的事情包括：
1.詞法分析/語(yǔ)法分析
使用antlr將SQL語(yǔ)句解析成抽象語(yǔ)法樹(shù)-AST
2.語(yǔ)義分析
從Megastore獲取模式信息，驗(yàn)證SQL語(yǔ)句中隊(duì)表名,列名，以及數(shù)據(jù)類(lèi)型的檢查和隱式轉(zhuǎn)換，以及Hive提供的函數(shù)和用戶自定義的函數(shù)（UDF/UAF）
3.邏輯計(jì)劃生產(chǎn)
生成邏輯計(jì)劃-算子樹(shù)
4.邏輯計(jì)劃優(yōu)化
對(duì)算子樹(shù)進(jìn)行優(yōu)化，包括列剪枝，分區(qū)剪枝，謂詞下推等
5.物理計(jì)劃生成
將邏輯計(jì)劃生產(chǎn)包含由MapReduce任務(wù)組成的DAG的物理計(jì)劃
6.物理計(jì)劃執(zhí)行
將DAG發(fā)送到Hadoop集群進(jìn)行執(zhí)行
7.將查詢結(jié)果返回

流程如下圖：

7.2 Hive編譯過(guò)程

轉(zhuǎn)化過(guò)程：
基本流程為：將HiveQL轉(zhuǎn)化為”抽象語(yǔ)法樹(shù)”—>”查詢塊”—>”邏輯查詢計(jì)劃””物理查詢計(jì)劃”最終選擇最佳決策的過(guò)程。

優(yōu)化器的主要功能：

將多Multiple join 合并為一個(gè)Muti-way join

對(duì)join、group-by和自定義的MapReduce操作重新進(jìn)行劃分。

消減不必要的列。

在表的掃描操作中推行使用斷言。

對(duì)于已分區(qū)的表，消減不必要的分區(qū)。

在抽樣查詢中，消減不必要的桶。

優(yōu)化器還增加了局部聚合操作用于處理大分組聚合和增加再分區(qū)操作用于處理不對(duì)稱(chēng)的分組聚合。

7.2.1 Hive編譯器的組成

對(duì)于此的說(shuō)明，網(wǎng)絡(luò)上的另外一種說(shuō)明：

7.2.2 Query Compiler

網(wǎng)絡(luò)上描述上述過(guò)程的另外一張圖（同樣是Query Compiler過(guò)程的另外一種畫(huà)法）：

為了說(shuō)明上述執(zhí)行流程，需要輔助一個(gè)簡(jiǎn)單的Hive查詢例子：

案例1-1：Hive執(zhí)行以下語(yǔ)句：

INSERT OVERWRITE TABLE access_log_temp2 SELECT a.user, a.prono, a.maker, a.price FROM access_log_hbase a JOIN product_hbase p ON (a.prono = p.prono)

具體執(zhí)行流程：
(1)Parser生成AST

HQL生成的語(yǔ)法解析樹(shù)（AST）：
HIVE主要是利用UNDERLER處理得到上面的抽象語(yǔ)法樹(shù)(這棵抽象語(yǔ)法樹(shù)主要是根據(jù)underller的分詞規(guī)則來(lái)確定根結(jié)點(diǎn)和左右孩子的，Hive的這部分處理是利用underller進(jìn)行的)。
(2)Semantic Analyzer生成Query Block(QB)

Tip：
第二步會(huì)將抽象語(yǔ)法樹(shù)按照QB的方式轉(zhuǎn)換為由QB組成的樹(shù)。通常情況下，每一個(gè)From子句會(huì)生成一個(gè)QB（Query Block）。通過(guò)查看具體有多少個(gè)QB就可查看Hive sql語(yǔ)句最終優(yōu)化成多少個(gè)MapReduce的作業(yè)。

QB是由兩個(gè)子數(shù)據(jù)結(jié)構(gòu)組成即MetaData(元數(shù)據(jù)信息)和ParseInfo。語(yǔ)義分析的主要過(guò)程是向QB中填充元數(shù)據(jù)，另一個(gè)過(guò)程則是摘取AST的子節(jié)點(diǎn)，存儲(chǔ)在ParseInfo中。Semantic Analyzer過(guò)程主要是經(jīng)過(guò)以上兩個(gè)過(guò)程，然后把QB關(guān)聯(lián)起來(lái)形成一個(gè)由QB構(gòu)成的圖.

Logical Plan generator會(huì)將上一步生成的Query Block按照前文講的幾種的Operator，轉(zhuǎn)換為Operator Tree。

由于Hive查詢語(yǔ)句會(huì)將最后的查詢結(jié)果寫(xiě)入到表access_log_temp2中，所以QB的MetaData中的Name To Destination…會(huì)轉(zhuǎn)化為Operator Tree中的FileSinkOperator（文件下沉）。
最后會(huì)生成如下的OP Tree：

Logical Plan Generator (Result)

這里就得到了一個(gè)有向無(wú)環(huán)圖(DAG),當(dāng)在傳統(tǒng)數(shù)據(jù)庫(kù)中會(huì)對(duì)上圖進(jìn)行優(yōu)化然后執(zhí)行；而在Hadoop集群中這張圖是不行的，因?yàn)樵诩褐袌?zhí)行需要對(duì)這張圖進(jìn)行優(yōu)化、切片，分布式化轉(zhuǎn)化為MapReduce作業(yè)然后執(zhí)行。

7.2.3新版本Hive也支持Tez或Spark作為執(zhí)行引擎：

物理計(jì)劃可以通過(guò)hive的Explain命令輸出：
例如：

8 Hive優(yōu)化

1、join連接時(shí)的優(yōu)化：當(dāng)三個(gè)或多個(gè)以上的表進(jìn)行join操作時(shí)，如果每個(gè)on使用相同的字段連接時(shí)只會(huì)產(chǎn)生一個(gè)mapreduce。
2、join連接時(shí)的優(yōu)化：當(dāng)多個(gè)表進(jìn)行查詢時(shí)，從左到右表的大小順序應(yīng)該是從小到大。原因：hive在對(duì)每行記錄操作時(shí)會(huì)把其他表先緩存起來(lái)，直到掃描最后的表進(jìn)行計(jì)算
3、在where字句中增加分區(qū)過(guò)濾器。
4、當(dāng)可以使用left semi join 語(yǔ)法時(shí)不要使用inner join，前者效率更高。原因：對(duì)于左表中指定的一條記錄，一旦在右表中找到立即停止掃描。
5、如果所有表中有一張表足夠小，則可置于內(nèi)存中，這樣在和其他表進(jìn)行連接的時(shí)候就能完成匹配，省略掉reduce過(guò)程。設(shè)置屬性即可實(shí)現(xiàn)，set hive.auto.covert.join=true; 用戶可以配置希望被優(yōu)化的小表的大小 set hive.mapjoin.smalltable.size=2500000; 如果需要使用這兩個(gè)配置可置入$HOME/.hiverc文件中。
6、同一種數(shù)據(jù)的多種處理：從一個(gè)數(shù)據(jù)源產(chǎn)生的多個(gè)數(shù)據(jù)聚合，無(wú)需每次聚合都需要重新掃描一次。
例如：insert overwrite table student select *　from employee; insert overwrite table person select * from employee;
可以優(yōu)化成：from employee insert overwrite table student select * insert overwrite table person select *
7、limit調(diào)優(yōu)：limit語(yǔ)句通常是執(zhí)行整個(gè)語(yǔ)句后返回部分結(jié)果。set hive.limit.optimize.enable=true;
8、開(kāi)啟并發(fā)執(zhí)行。某個(gè)job任務(wù)中可能包含眾多的階段，其中某些階段沒(méi)有依賴關(guān)系可以并發(fā)執(zhí)行，開(kāi)啟并發(fā)執(zhí)行后job任務(wù)可以更快的完成。設(shè)置屬性：set hive.exec.parallel=true;
9、hive提供的嚴(yán)格模式，禁止3種情況下的查詢模式。
a：當(dāng)表為分區(qū)表時(shí)，where字句后沒(méi)有分區(qū)字段和限制時(shí)，不允許執(zhí)行。
b：當(dāng)使用order by語(yǔ)句時(shí)，必須使用limit字段，因?yàn)閛rder by 只會(huì)產(chǎn)生一個(gè)reduce任務(wù)。
c：限制笛卡爾積的查詢。
10、合理的設(shè)置map和reduce數(shù)量。
11、jvm重用。可在hadoop的mapred-site.xml中設(shè)置jvm被重用的次數(shù)。

打個(gè)賞唄，您的支持是我堅(jiān)持寫(xiě)好博文的動(dòng)力

總結(jié)

以上是生活随笔為你收集整理的6、HIVE JDBC开发、UDF、体系结构、Thrift服务器、Driver、元数据库Metastore、数据库连接模式、单/多用户模式、远程服务模式、Hive技术原理解析、优化等(整理的笔记)的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： 5、HIVE DML操作、load数据、
下一篇： Clickhouse安装及使用/clic