日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hive的基本应用

發布時間:2023/11/27 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hive的基本应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

實驗

目的

要求

?

目的:

  1. 了解Hive架構,掌握Hive環境部署;
  2. 了解Hive與Hadoop及傳統關系型數據庫的對比;
  3. 掌握Hive中DDL和DML的使用;
  4. 了解Hive高級應用;
  5. Hive內置函數使用及Hive自定義函數;
  6. 了解Hive常用優化策略;

?

?

?

?

?

?

?

?

?

?

?

?

  1. Java jdk 1.7;
  2. apache-maven-3.6.0;
  3. Myeclipse C10;
  4. CDH Hadoop集群;
  5. 已配置Hive;
  6. 具體規劃:

主機名

IP地址

服務描述

Cmaster

192.168.159.170

主控節點

Cslaver1

192.168.159.171

數據節點

Cslaver2

192.168.159.172

數據服務

?

?

?

?

?

練習內容

任務一:Hive DDL的使用;

1、使用命令“hive”啟動hive,進入Hive控制臺;

2、創建內部表;

3、創建外部表;

4、創建分區表

5、使用hive DDL命令進行一些簡單的操作;

任務二:Hive DML的使用;

1、創建文本并寫入數據;

2、進行DML操作;

3、創建hdfs用于存放文件的位置,并查看是否創建成功;

4、上傳數據文件至hdfs;

5、查看上傳的文件內容;

6、對上傳的數據文件進行基本操作;

7、將查詢結果插入hive表中;

8、導出hive的表數據;

9、查看導出的數據;

?

任務三:Hive內置函數的基本操作;

1、獲取所有函數;

2、查看指定函數的使用方法;

3、進行表操作;

4、查看concat的使用方法;

5、連接ename,job字段;

任務四:Hive UDF開發;

1、創建maven工程項目Hive;

1.1、創建項目;

?

1.2、修改pom.xml文件,添加指定依賴;

2、Hive UDF開發;

2.1、編寫HelloUDF.Java文件;

2.2、導出項目為jar包;

2.3、上傳jar包至集群中;

3、編輯jar包上傳至服務器,并將自定義函數UDF添加到Hive中;

4、查看自定義函數中是否有以上傳的;

5、使用自定義函數進行查詢操作;

?

任務五:調優策略;

1、并行執行及JVM重用;

2、推測執行,合并小文件;

?

出現的問題與解決方案

排錯一

錯誤:裝載hdfs至hive失敗

排錯思路:

  1. 查看指定目錄是否正確;
  2. 查看指定文件是否正確;
  3. 查看命令應用是否正確;

原因分析:之前在上傳數據文件至hdfs時,系統默認刪除了源文件

解決方案:重新編寫數據文件再次上傳;

排錯二:

錯誤:運行自定義函數失敗;

排錯思路:

  1. 檢查jar包是否合適;
  2. 檢查環境是否合適;
  3. 檢自定義函數是否正確

原因分析:開發環境開發自定義函數時在jdk1.8環境,而Hadoop集群環境中使用的是jdk1.7環境,jar包jdk版本過高;

解決方案:更改maven項開發環境為jdk1.7版本,重新打包項目為jar包上傳至hdfs中使用;

?

知識拓展

1. Hive介紹

Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供類SQL查詢功能。

Hive是SQL解析引擎,它將SQL語句轉譯成M/R Job然后在Hadoop執行。

?

2. Hive架構

??? 用戶接口,包括 CLI,JDBC/ODBC,WebUI

??? 元數據存儲,通常是存儲在關系數據庫如 mysql, derby 中

??? 解釋器、編譯器、優化器、執行器

??? Hadoop:用 HDFS 進行存儲,利用 MapReduce 進行計算

Ps:hive的元數據并不存放在hdfs上,而是存儲在數據庫中(metastore),目前只支持 mysql、derby。Hive 中的元數據包括表的名字,表的列和分區及其屬性,表的屬性(是否為外部表等),表的數據所在目錄等。

元數據就是描述數據的數據,而Hive的數據存儲在Hadoop HDFS

數據還是原來的文本數據,但是現在有了個目錄規劃。

?

3. Hive與Hadoop的關系

Hive利用HDFS存儲數據,利用MapReduce查詢數據。

?

4. Hive安裝部署

Hive只是一個工具,不需要集群配置。

export HIVE_HOME=/usr/local/hive-2.0.1

export PATH=PATH:

HIVE_HOME/bin

配置MySql,如果不進行配置,默認使用derby數據庫,但是不好用,在哪個地方執行./hive命令,哪兒就會創建一個metastore_db

MySQL安裝到其中某一個節點上即可。

?

5. Hive的thrift服務

可以安裝在某一個節點,并發布成標準服務,在其他節點使用beeline方法。

啟動方式,(假如是在master上):

啟動為前臺服務:bin/hiveserver2

啟動為后臺:nohup bin/hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err &

?

連接方法:

hive/bin/beeline 回車,進入beeline的命令界面

輸入命令連接hiveserver2

beeline> !connect jdbc:hive2://master:10000

beeline> !connect jdbc:hive2://localhost:10000

(master是hiveserver2所啟動的那臺主機名,端口默認是10000)

總結

以上是生活随笔為你收集整理的Hive的基本应用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

歡迎分享!

轉載請說明來源于"生活随笔",并保留原作者的名字。

本文地址:Hive的基本应用