日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 运维知识 > 数据库 >内容正文

数据库

6、HIVE JDBC开发、UDF、体系结构、Thrift服务器、Driver、元数据库Metastore、数据库连接模式、单/多用户模式、远程服务模式、Hive技术原理解析、优化等(整理的笔记)

發(fā)布時(shí)間:2024/9/27 数据库 33 豆豆

目錄:
5 HIVE開(kāi)發(fā)
5.1 Hive JDBC開(kāi)發(fā)
5.2 Hive UDF
6 Hive的體系結(jié)構(gòu)
6.2 Thrift服務(wù)器
6.3 Driver
6.4 元數(shù)據(jù)庫(kù)Metastore
6.5 數(shù)據(jù)庫(kù)連接模式
6.5.1 單用戶模式
6.5.2 多用戶模式
6.5.3 遠(yuǎn)程服務(wù)模式
7 Hive技術(shù)原理解析
7.1 Hive工作原理
7.2.1 Hive編譯器的組成
7.2.2 Query Compiler
7.2.3新版本Hive也支持Tez或Spark作為執(zhí)行引擎
8 Hive優(yōu)化

5 HIVE開(kāi)發(fā)

5.1 Hive JDBC開(kāi)發(fā)

若想進(jìn)行Hive JDBC的開(kāi)發(fā),需要開(kāi)啟HiveServer2服務(wù),這里要參考第二章節(jié)的”連接方式”中的HiveServer2/beeline章節(jié)。

其中一個(gè)Hive JDBC的案例如下:

啟動(dòng)完HiveServer2服務(wù),就提供JDBC服務(wù)了,類似:

import java.sql.SQLException; import java.sql.Connection; import java.sql.ResultSet; import java.sql.Statement; import java.sql.DriverManager;public class HiveJdbcClient {private static String driverName = "org.apache.hive.jdbc.HiveDriver";/*** @param args* @throws SQLException*/public static void main(String[] args) throws SQLException {try {Class.forName(driverName);} catch (ClassNotFoundException e) {// TODO Auto-generated catch blocke.printStackTrace();System.exit(1);}//replace "hive" here with the name of the user the queries should run asConnection con = DriverManager.getConnection("jdbc:hive2://localhost:10000/default", "hive", "");Statement stmt = con.createStatement();String tableName = "testHiveDriverTable";stmt.execute("drop table if exists " + tableName);stmt.execute("create table " + tableName + " (key int, value string)");// show tablesString sql = "show tables '" + tableName + "'";System.out.println("Running: " + sql);ResultSet res = stmt.executeQuery(sql);if (res.next()) {System.out.println(res.getString(1));}// describe tablesql = "describe " + tableName;System.out.println("Running: " + sql);res = stmt.executeQuery(sql);while (res.next()) {System.out.println(res.getString(1) + "\t" + res.getString(2));}// load data into table// NOTE: filepath has to be local to the hive server// NOTE: /tmp/a.txt is a ctrl-A separated file with two fields per lineString filepath = "/tmp/a.txt";sql = "load data local inpath '" + filepath + "' into table " + tableName;System.out.println("Running: " + sql);stmt.execute(sql);// select * querysql = "select * from " + tableName;System.out.println("Running: " + sql);res = stmt.executeQuery(sql);while (res.next()) {System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));}// regular hive querysql = "select count(1) from " + tableName;System.out.println("Running: " + sql);res = stmt.executeQuery(sql);while (res.next()) {System.out.println(res.getString(1));}} }

5.2 Hive UDF

簡(jiǎn)單UDF示例
前期準(zhǔn)備,要把hive的lib包導(dǎo)入到工程中,其中UDF依賴的是hive-exec-2.3.4.jar(針對(duì)hive2.3.4版本)。也就是說(shuō)要把$HIVE_HOME\lib中的內(nèi)容引入到工程中。若用到hadoop中的一些api,也把hadoop的相關(guān)的jar包也引入進(jìn)去。
1、先開(kāi)發(fā)一個(gè)java類,繼承UDF,并重載evaluate方法。

package hiveudf;import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text;public class ToLowerCase extends UDF {public Text evaluate(final Text s) {if(s == null) {returnnull;}returnnew Text(s.toString().toLowerCase());} }

2、打成jar包上傳到服務(wù)器
3、將jar包添加到hive的classpath
4、hive> add jar /home/udf/hivedata/udf.jar;
5、hive>創(chuàng)建臨時(shí)函數(shù)與開(kāi)發(fā)好的java class關(guān)聯(lián)

hive> create temporary function toLowercase as 'hiveudf.ToLowerCase'; OK Time taken: 0.039 seconds hive>

6、即可在HiveQL中使用自定義的函數(shù)toLowercase

hive> select toLowercase("ZHANGSAN") from dual; OK zhangsan Time taken: 0.122 seconds, Fetched: 1 row(s) hive>

再如判斷身份證的一個(gè)UDF函數(shù):

package com.xxx.xxx.udf;import java.text.SimpleDateFormat; import java.util.Date; import java.util.regex.Matcher; import java.util.regex.Pattern;import org.apache.hadoop.hive.ql.exec.UDF;/*** 身份證校驗(yàn)UDF* * @author xxx* @date 2019年5月29日* * 1.身份證號(hào)碼構(gòu)成:6位地址編碼+8位生日+3位順序碼+1位校驗(yàn)碼 * 2.驗(yàn)證15位,18位證件號(hào)碼是否有效; * 3.15位號(hào)碼將直接轉(zhuǎn)為18位;【這一步不做轉(zhuǎn)化】* 4.校驗(yàn)身份證號(hào)碼除了校驗(yàn)位是否為數(shù)值,校驗(yàn)省份、出生日期* 省份編碼[11, 12, 13, 14, 15, 21, 22, 23, 31, 32, 33, 34, 35, 36, 37, 41, 42, 43,44, 45, 46, 50, 51, 52, 53, 54, 61, 62, 63, 64, 65, 71, 81, 82, 91]* 5.校驗(yàn)位不正確的會(huì)被正確的替代.【最后1位是根據(jù)前面17位生成的,如果不正確,會(huì)生成正確的檢驗(yàn)碼進(jìn)行修正.】* 6.出生日期邏輯有效性,即是否1864年前出生,是否當(dāng)前日期后出生已校驗(yàn)。* 7.1984年4月6日國(guó)務(wù)院發(fā)布《中華人民共和國(guó)居民身份證試行條例》,并且開(kāi)始頒發(fā)第一代居民身份證,按壽命120歲驗(yàn)證,年齡區(qū)間是1864年至今。 * 8.15位證件號(hào)碼轉(zhuǎn)換未考慮1900年前出生的人【這一步不做轉(zhuǎn)化】* 9.去除null,去除空串,去除非15位和18位* 10.判斷前17位是否含非數(shù)字字符.* 11.判斷非法日期,如生日所在日期(2019年2月29日)不存在.* * add jar hdfs://tqHadoopCluster/xxx/udf/idCardUdf.jar;* create temporary function cheakIdCardNumber as 'com.xxx.xxx.udf.IdNumber';* 這這就可以使用cheakIdCardNumber(String idCardNumber)進(jìn)行校驗(yàn)身份證了*/ public class IdNumber extends UDF {private final static int NEW_CARD_NUMBER_LENGTH = 18;private final static int OLD_CARD_NUMBER_LENGTH = 15;/** 開(kāi)始年份 */private final static int YEAR_BEGIN = 1864;/** 18位身份證中最后一位校驗(yàn)碼 */private final static char[] VERIFY_CODE = {'1', '0', 'X', '9', '8', '7', '6', '5', '4', '3', '2'};/** 18位身份證中,各個(gè)數(shù)字的生成校驗(yàn)碼時(shí)的權(quán)值 */private final static int[] VERIFY_CODE_WEIGHT = {7, 9, 10, 5, 8, 4, 2, 1, 6, 3, 7, 9, 10, 5, 8, 4, 2};/** 省份編碼集合 */private final static int[] PROVINCE_CODE = {11, 12, 13, 14, 15, 21, 22, 23, 31, 32, 33, 34, 35, 36, 37, 41, 42, 43,44, 45, 46, 50, 51, 52, 53, 54, 61, 62, 63, 64, 65, 71, 81, 82, 91};private final static Pattern PATTERN = Pattern.compile("[0-9]*");private final static ThreadLocal<SimpleDateFormat> THREADLOCAL = new ThreadLocal<SimpleDateFormat>() {@Overrideprotected SimpleDateFormat initialValue() {// 直接返回nullreturn null;}};/*public static void main(String[] args) {IdNumber idNumber = new IdNumber();//String evaluate = idNumber.evaluate("125197791116622");// 125197 791116622// 12519719791116622X// 330304198705234817String evaluate = idNumber.evaluate("330304201902284815");System.out.println(evaluate);}*/public String evaluate(String cardNumber) {// 1.去除NULLif (cardNumber == null) {return null;} Date dNow = new Date();SimpleDateFormat ft = new SimpleDateFormat("yyyy");int yearEnd = Integer.parseInt(ft.format(dNow));cardNumber = cardNumber.trim();// 2.去除空字符串if (cardNumber.length() == 0) {return null;}// 3.去除長(zhǎng)度不正確的,非15或18位if (NEW_CARD_NUMBER_LENGTH != cardNumber.length() & OLD_CARD_NUMBER_LENGTH != cardNumber.length()) {return null;}// 4.如果是18位if (NEW_CARD_NUMBER_LENGTH == cardNumber.length()) {// 4.1.前17位不為數(shù)值,返回nullif (isNumeric(cardNumber.substring(0, 17)) == false) {return null;}// 校驗(yàn)位修正,判斷最后一位是否正確if (IdNumber.calculateVerifyCode(cardNumber) != cardNumber.charAt(17)) {//如果最后一位校驗(yàn)碼不會(huì),則修正校驗(yàn)碼.cardNumber = contertToNewCardNumber(cardNumber, NEW_CARD_NUMBER_LENGTH);}// 身份證前2位是省份編碼, 如果編碼不在已知集合中, 返回null.if (isProvince(cardNumber.substring(0, 2)) == false) {return null;} // 非法日期轉(zhuǎn)換前后不一致, 如當(dāng)前年份不存在2月29日, 返回nullif (isDate(cardNumber.substring(6, 14)) == false) {return null;}// 1984年4月6日國(guó)務(wù)院發(fā)布《中華人民共和國(guó)居民身份證試行條例》,并且開(kāi)始頒發(fā)第一代居民身份證,按壽命120歲驗(yàn)證,年齡區(qū)間是1864年至今。 小于1984的為非法.int birthdayYear = Integer.parseInt(cardNumber.substring(6, 10));if (birthdayYear < YEAR_BEGIN) {return null;}// 如果出生年月大于當(dāng)前日期, 返回nullif (birthdayYear > yearEnd) {return null;}}// 5.如果是15位:15位身份證號(hào)碼不轉(zhuǎn)換為18位.if (OLD_CARD_NUMBER_LENGTH == cardNumber.length()) {// 前15位中含非數(shù)字字符, 返回nullif (isNumeric(cardNumber) == false) {return null;}// 省份編碼不在在已知集合中, 返回nullif (isProvince(cardNumber.substring(0, 2)) == false) {return null;}// 非法日期轉(zhuǎn)換前后不一致, 返回nullif (isDate("19" + cardNumber.substring(6, 12)) == false) {return null;}//將15位身份證轉(zhuǎn)化為18位,考慮1900年前出生的人。//cardNumber = contertToNewCardNumber(cardNumber, OLD_CARD_NUMBER_LENGTH);}return cardNumber;}/*** 校驗(yàn)碼(第十八位數(shù)):* * 十七位數(shù)字本體碼加權(quán)求和公式 S = Sum(Ai * Wi), i = 0...16 ,先對(duì)前17位數(shù)字的權(quán)求和; * Ai:表示第i位置上的身份證號(hào)碼數(shù)字值 * Wi:表示第i位置上的加權(quán)因子 * Wi: 7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2; * 計(jì)算模 Y = mod(S, 11) 通過(guò)模得到對(duì)應(yīng)的校驗(yàn)碼* Y: 0 1 2 3 4 5 6 7 8 9 10 * 校驗(yàn)碼: 1 0 X 9 8 7 6 5 4 3 2* * @param cardNumber* @return*/private static char calculateVerifyCode(CharSequence cardNumber) {int sum = 0;for (int i = 0; i < NEW_CARD_NUMBER_LENGTH - 1; i++) {char ch = cardNumber.charAt(i);sum += ((int)(ch - '0')) * VERIFY_CODE_WEIGHT[i];}//VERIFY_CODE = {'1', '0', 'X', '9', '8', '7', '6', '5', '4', '3', '2'};return VERIFY_CODE[sum % 11];}/*** A-把15位身份證號(hào)碼轉(zhuǎn)換到18位身份證號(hào)碼 15位身份證號(hào)碼與18位身份證號(hào)碼的區(qū)別為: * 1. 15位身份證號(hào)碼中,"出生年份"字段是2位,轉(zhuǎn)換時(shí)需要補(bǔ)入"19",表示20世紀(jì)* 2. 15位身份證無(wú)最后一位校驗(yàn)碼。18位身份證中,校驗(yàn)碼根據(jù)根據(jù)前17位生成 B-18位身份證號(hào)碼校驗(yàn)位修復(fù)* * @param cardNumber* @return*/private static String contertToNewCardNumber(String idCardNumber, int cardNumberLength) {StringBuilder buf = new StringBuilder(NEW_CARD_NUMBER_LENGTH);if (cardNumberLength == NEW_CARD_NUMBER_LENGTH) {buf.append(idCardNumber.substring(0, 17));buf.append(IdNumber.calculateVerifyCode(buf));} else if (cardNumberLength == OLD_CARD_NUMBER_LENGTH) {buf.append(idCardNumber.substring(0, 6));buf.append("19");buf.append(idCardNumber.substring(6));buf.append(IdNumber.calculateVerifyCode(buf));}return buf.toString();}/*** 功能:判斷字符串是否為數(shù)字* * @param str* @return*/private static boolean isNumeric(String str) {Matcher isNum = PATTERN.matcher(str);if (isNum.matches()) {return true;} else {return false;}}/*** 功能:判斷前兩位是在省份編碼集合內(nèi)* @param province* @return*/private static boolean isProvince(String province) {int prov = Integer.parseInt(province);for (int i = 0; i < PROVINCE_CODE.length; i++) {if (PROVINCE_CODE[i] == prov) {return true;}}return false;}public static SimpleDateFormat getDateFormat() {SimpleDateFormat df = (SimpleDateFormat)THREADLOCAL.get();if (df == null) {df = new SimpleDateFormat("yyyyMMdd");df.setLenient(false);THREADLOCAL.set(df);}return df;}/*** 功能:判斷出生日期字段是否為日期* * @param str* @return*/private static boolean isDate(String birthDate) {try {SimpleDateFormat sdf = getDateFormat();//如果不合法,會(huì)拋異常, Unparseable date: "20190229"Date cacheBirthDate = sdf.parse(birthDate);if (sdf.format(cacheBirthDate).equals(birthDate) == false) {// 非法日期轉(zhuǎn)換前后不一致return false;}} catch (Exception e) {//e.printStackTrace();return false;}return true;} }

6 Hive的體系結(jié)構(gòu)

下面是Hive的架構(gòu)圖:

圖 1 Hive體系結(jié)構(gòu)

6.1用戶接口

(1)、CLI:CLI啟動(dòng)的時(shí)候,會(huì)同時(shí)啟動(dòng)一個(gè)Hive副本。
(2)、JDBC客戶端:封裝了Thrift,java應(yīng)用程序,可以通過(guò)指定的主機(jī)和端口連接到在另外一個(gè)進(jìn)程中運(yùn)行的hive服務(wù)器。
(3)、ODBC客戶端:ODBC驅(qū)動(dòng)允許支持ODBC協(xié)議的應(yīng)用程序連接到Hive
(4)、WUI接口:通過(guò)瀏覽器訪問(wèn)Hive

6.2Thrift服務(wù)器

基于socket通訊,支持跨語(yǔ)言。Hive Thrift服務(wù)簡(jiǎn)化了在多編程語(yǔ)言中運(yùn)行hive的命令。綁定支持C++,Java,PHP,Python和Ruby語(yǔ)言。

6.3 Driver

核心組件,整個(gè)Hive的核心,該組件包括Complier、Optimizer和Executor; 解釋器、編譯器、優(yōu)化器完成HQL查詢語(yǔ)句從詞法分析、語(yǔ)法分析、編譯、優(yōu)化以及查詢計(jì)劃的生成。生成的查詢計(jì)劃存儲(chǔ)在HDFS中,并在隨后有MapReduce調(diào)用執(zhí)行。

6.4 元數(shù)據(jù)庫(kù)Metastore

Hive的數(shù)據(jù)由兩部分組成:數(shù)據(jù)文件和元數(shù)據(jù)。元數(shù)據(jù)用于存放Hive庫(kù)的基礎(chǔ)信息,它存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,例如mysql、Oracle、derby。元數(shù)據(jù)包括:數(shù)據(jù)庫(kù)信息、表達(dá)的名字,表的列和分區(qū)及其屬性,表的屬性,表的數(shù)據(jù)所在目錄等。
Hadoop
Hive的數(shù)據(jù)文件存儲(chǔ)在HDFS中,大部分的查詢由MapReduce完成。(對(duì)于包含*的查詢,比如select * from tbl不會(huì)生成MapReduce作業(yè))

6.5數(shù)據(jù)庫(kù)連接模式

6.5.1 單用戶模式

此模式連接到一個(gè)In-memory的數(shù)據(jù)庫(kù)Derby,Derby數(shù)據(jù)是Hive自帶的數(shù)據(jù)庫(kù),默認(rèn)只能有一個(gè)連接,用戶連接到Hive后,會(huì)在當(dāng)前目錄生成一個(gè)metastore文件來(lái)存放元數(shù)據(jù)信息,不同的用戶連接到Hive看到的信息不一致。

6.5.2多用戶模式

通過(guò)網(wǎng)絡(luò)連接到一個(gè)關(guān)系型數(shù)據(jù)庫(kù)中,如MySQL,是最進(jìn)程使用到的模式。這樣多個(gè)用戶操作的元數(shù)據(jù)信息統(tǒng)一放到關(guān)系型數(shù)據(jù)庫(kù),這樣不同用戶可以操作相同的對(duì)象。

6.5.3 遠(yuǎn)程服務(wù)模式

用于非Java客戶端訪問(wèn)元數(shù)據(jù),在服務(wù)器啟動(dòng)MetaStoreServer,客戶端利用Thrift協(xié)議通過(guò)MetaStoreServer訪問(wèn)元數(shù)據(jù)。

7 Hive技術(shù)原理解析

7.1 Hive工作原理

如下圖所示:

流程大致步驟為:

  • 用戶提交查詢等任務(wù)給Driver。
  • 編譯器獲得該用戶的任務(wù)Plan。
  • 編譯器Compiler根據(jù)用戶任務(wù)去MetaStore中獲取需要的Hive的元數(shù)據(jù)信息。
  • 編譯器Compiler得到元數(shù)據(jù)信息,對(duì)任務(wù)進(jìn)行編譯,先將HiveQL轉(zhuǎn)換為抽象語(yǔ)法樹,然后將抽象語(yǔ)法樹轉(zhuǎn)換成查詢塊,將查詢塊轉(zhuǎn)化為邏輯的查詢計(jì)劃,重寫邏輯查詢計(jì)劃,將邏輯計(jì)劃轉(zhuǎn)化為物理的計(jì)劃(MapReduce), 最后選擇最佳的策略。
  • 將最終的計(jì)劃提交給Driver。
  • Driver將計(jì)劃Plan轉(zhuǎn)交給ExecutionEngine去執(zhí)行,獲取元數(shù)據(jù)信息,提交給JobTracker或者SourceManager執(zhí)行該任務(wù),任務(wù)會(huì)直接讀取HDFS中文件進(jìn)行相應(yīng)的操作。
  • 獲取執(zhí)行的結(jié)果。
  • 取得并返回執(zhí)行結(jié)果。
  • 創(chuàng)建表時(shí):
    1、解析用戶提交的Hive語(yǔ)句對(duì)其進(jìn)行解析分解為表、字段、分區(qū)等Hive對(duì)象。根據(jù)解析到的信息構(gòu)建對(duì)應(yīng)的表、字段、分區(qū)等對(duì)象,從SEQUENCE_TABLE中獲取構(gòu)建對(duì)象的最新的ID,與構(gòu)建對(duì)象信息(名稱、類型等等)一同通過(guò)DAO方法寫入元數(shù)據(jù)庫(kù)的表中,成功后將SEQUENCE_TABLE中對(duì)應(yīng)的最新ID+5.實(shí)際上常見(jiàn)的RDBMS都是通過(guò)這種方法進(jìn)行組織的,其系統(tǒng)表中和Hive元素一樣顯示了這些ID信息。通過(guò)這些元數(shù)據(jù)可以很容易的讀取到數(shù)據(jù)。

    工作原理的另外一種說(shuō)法是:
    接收到一個(gè)sql,后面做的事情包括:
    1.詞法分析/語(yǔ)法分析
    使用antlr將SQL語(yǔ)句解析成抽象語(yǔ)法樹-AST
    2.語(yǔ)義分析
    從Megastore獲取模式信息,驗(yàn)證SQL語(yǔ)句中隊(duì)表名,列名,以及數(shù)據(jù)類型的檢查和隱式轉(zhuǎn)換,以及Hive提供的函數(shù)和用戶自定義的函數(shù)(UDF/UAF)
    3.邏輯計(jì)劃生產(chǎn)
    生成邏輯計(jì)劃-算子樹
    4.邏輯計(jì)劃優(yōu)化
    對(duì)算子樹進(jìn)行優(yōu)化,包括列剪枝,分區(qū)剪枝,謂詞下推等
    5.物理計(jì)劃生成
    將邏輯計(jì)劃生產(chǎn)包含由MapReduce任務(wù)組成的DAG的物理計(jì)劃
    6.物理計(jì)劃執(zhí)行
    將DAG發(fā)送到Hadoop集群進(jìn)行執(zhí)行
    7.將查詢結(jié)果返回

    流程如下圖:

    7.2 Hive編譯過(guò)程

    轉(zhuǎn)化過(guò)程:
    基本流程為:將HiveQL轉(zhuǎn)化為”抽象語(yǔ)法樹”—>”查詢塊”—>”邏輯查詢計(jì)劃””物理查詢計(jì)劃”最終選擇最佳決策的過(guò)程。

    優(yōu)化器的主要功能:

  • 將多Multiple join 合并為一個(gè)Muti-way join
  • 對(duì)join、group-by和自定義的MapReduce操作重新進(jìn)行劃分。
  • 消減不必要的列。
  • 在表的掃描操作中推行使用斷言。
  • 對(duì)于已分區(qū)的表,消減不必要的分區(qū)。
  • 在抽樣查詢中,消減不必要的桶。
  • 優(yōu)化器還增加了局部聚合操作用于處理大分組聚合和增加再分區(qū)操作用于處理不對(duì)稱的分組聚合。
  • 7.2.1 Hive編譯器的組成


    對(duì)于此的說(shuō)明,網(wǎng)絡(luò)上的另外一種說(shuō)明:

    7.2.2 Query Compiler


    網(wǎng)絡(luò)上描述上述過(guò)程的另外一張圖(同樣是Query Compiler過(guò)程的另外一種畫法):

    為了說(shuō)明上述執(zhí)行流程,需要輔助一個(gè)簡(jiǎn)單的Hive查詢例子:

    案例1-1:Hive執(zhí)行以下語(yǔ)句:

    INSERT OVERWRITE TABLE access_log_temp2 SELECT a.user, a.prono, a.maker, a.price FROM access_log_hbase a JOIN product_hbase p ON (a.prono = p.prono)

    具體執(zhí)行流程:
    (1)Parser生成AST

    HQL生成的語(yǔ)法解析樹(AST):
    HIVE主要是利用UNDERLER處理得到上面的抽象語(yǔ)法樹(這棵抽象語(yǔ)法樹主要是根據(jù)underller的分詞規(guī)則來(lái)確定根結(jié)點(diǎn)和左右孩子的,Hive的這部分處理是利用underller進(jìn)行的)。
    (2)Semantic Analyzer生成Query Block(QB)

    Tip:
    第二步會(huì)將抽象語(yǔ)法樹按照QB的方式轉(zhuǎn)換為由QB組成的樹。通常情況下,每一個(gè)From子句會(huì)生成一個(gè)QB(Query Block)。通過(guò)查看具體有多少個(gè)QB就可查看Hive sql語(yǔ)句最終優(yōu)化成多少個(gè)MapReduce的作業(yè)。

    QB是由兩個(gè)子數(shù)據(jù)結(jié)構(gòu)組成即MetaData(元數(shù)據(jù)信息)和ParseInfo。語(yǔ)義分析的主要過(guò)程是向QB中填充元數(shù)據(jù),另一個(gè)過(guò)程則是摘取AST的子節(jié)點(diǎn),存儲(chǔ)在ParseInfo中。Semantic Analyzer過(guò)程主要是經(jīng)過(guò)以上兩個(gè)過(guò)程,然后把QB關(guān)聯(lián)起來(lái)形成一個(gè)由QB構(gòu)成的圖.

    Logical Plan generator會(huì)將上一步生成的Query Block按照前文講的幾種的Operator,轉(zhuǎn)換為Operator Tree。




    由于Hive查詢語(yǔ)句會(huì)將最后的查詢結(jié)果寫入到表access_log_temp2中,所以QB的MetaData中的Name To Destination…會(huì)轉(zhuǎn)化為Operator Tree中的FileSinkOperator(文件下沉)。
    最后會(huì)生成如下的OP Tree:

    Logical Plan Generator (Result)

    這里就得到了一個(gè)有向無(wú)環(huán)圖(DAG),當(dāng)在傳統(tǒng)數(shù)據(jù)庫(kù)中會(huì)對(duì)上圖進(jìn)行優(yōu)化然后執(zhí)行;而在Hadoop集群中這張圖是不行的,因?yàn)樵诩褐袌?zhí)行需要對(duì)這張圖進(jìn)行優(yōu)化、切片,分布式化轉(zhuǎn)化為MapReduce作業(yè)然后執(zhí)行。

    7.2.3新版本Hive也支持Tez或Spark作為執(zhí)行引擎:



    物理計(jì)劃可以通過(guò)hive的Explain命令輸出:
    例如:

    0: jdbc:hive2://master:10000/dbmfz> explain select count(*) from record_dimension; +------------------------------------------------------------------------------------------------------+--+ | Explain | +------------------------------------------------------------------------------------------------------+--+ | STAGE DEPENDENCIES: | | Stage-1 is a root stage | | Stage-0 depends on stages: Stage-1 | | | | STAGE PLANS: | | Stage: Stage-1 | | Map Reduce | | Map Operator Tree: | | TableScan | | alias: record_dimension | | Statistics: Num rows: 1 Data size: 543 Basic stats: COMPLETE Column stats: COMPLETE | | Select Operator | | Statistics: Num rows: 1 Data size: 543 Basic stats: COMPLETE Column stats: COMPLETE | | Group By Operator | | aggregations: count() | | mode: hash | | outputColumnNames: _col0 | | Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE | | Reduce Output Operator | | sort order: | | Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE | | value expressions: _col0 (type: bigint) | | Reduce Operator Tree: | | Group By Operator | | aggregations: count(VALUE._col0) | | mode: mergepartial | | outputColumnNames: _col0 | | Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE | | File Output Operator | | compressed: false | | Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE | | table: | | input format: org.apache.hadoop.mapred.SequenceFileInputFormat | | output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat | | serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe | | | | Stage: Stage-0 | | Fetch Operator | | limit: -1 | | Processor Tree: | | ListSink | | | +------------------------------------------------------------------------------------------------------+--+ rows selected (0.844 seconds)

    8 Hive優(yōu)化

    1、join連接時(shí)的優(yōu)化:當(dāng)三個(gè)或多個(gè)以上的表進(jìn)行join操作時(shí),如果每個(gè)on使用相同的字段連接時(shí)只會(huì)產(chǎn)生一個(gè)mapreduce。
    2、join連接時(shí)的優(yōu)化:當(dāng)多個(gè)表進(jìn)行查詢時(shí),從左到右表的大小順序應(yīng)該是從小到大。原因:hive在對(duì)每行記錄操作時(shí)會(huì)把其他表先緩存起來(lái),直到掃描最后的表進(jìn)行計(jì)算
    3、在where字句中增加分區(qū)過(guò)濾器。
    4、當(dāng)可以使用left semi join 語(yǔ)法時(shí)不要使用inner join,前者效率更高。原因:對(duì)于左表中指定的一條記錄,一旦在右表中找到立即停止掃描。
    5、如果所有表中有一張表足夠小,則可置于內(nèi)存中,這樣在和其他表進(jìn)行連接的時(shí)候就能完成匹配,省略掉reduce過(guò)程。設(shè)置屬性即可實(shí)現(xiàn),set hive.auto.covert.join=true; 用戶可以配置希望被優(yōu)化的小表的大小 set hive.mapjoin.smalltable.size=2500000; 如果需要使用這兩個(gè)配置可置入$HOME/.hiverc文件中。
    6、同一種數(shù)據(jù)的多種處理:從一個(gè)數(shù)據(jù)源產(chǎn)生的多個(gè)數(shù)據(jù)聚合,無(wú)需每次聚合都需要重新掃描一次。
    例如:insert overwrite table student select * from employee; insert overwrite table person select * from employee;
    可以優(yōu)化成:from employee insert overwrite table student select * insert overwrite table person select *
    7、limit調(diào)優(yōu):limit語(yǔ)句通常是執(zhí)行整個(gè)語(yǔ)句后返回部分結(jié)果。set hive.limit.optimize.enable=true;
    8、開(kāi)啟并發(fā)執(zhí)行。某個(gè)job任務(wù)中可能包含眾多的階段,其中某些階段沒(méi)有依賴關(guān)系可以并發(fā)執(zhí)行,開(kāi)啟并發(fā)執(zhí)行后job任務(wù)可以更快的完成。設(shè)置屬性:set hive.exec.parallel=true;
    9、hive提供的嚴(yán)格模式,禁止3種情況下的查詢模式。
    a:當(dāng)表為分區(qū)表時(shí),where字句后沒(méi)有分區(qū)字段和限制時(shí),不允許執(zhí)行。
    b:當(dāng)使用order by語(yǔ)句時(shí),必須使用limit字段,因?yàn)閛rder by 只會(huì)產(chǎn)生一個(gè)reduce任務(wù)。
    c:限制笛卡爾積的查詢。
    10、合理的設(shè)置map和reduce數(shù)量。
    11、jvm重用。可在hadoop的mapred-site.xml中設(shè)置jvm被重用的次數(shù)。

    打個(gè)賞唄,您的支持是我堅(jiān)持寫好博文的動(dòng)力

    總結(jié)

    以上是生活随笔為你收集整理的6、HIVE JDBC开发、UDF、体系结构、Thrift服务器、Driver、元数据库Metastore、数据库连接模式、单/多用户模式、远程服务模式、Hive技术原理解析、优化等(整理的笔记)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。