當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hive(一)

發(fā)布時間：2025/3/21 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hive(一) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Hive（一）

一、什么是Hive

hive是基于hadoop的?一個數(shù)據(jù)倉庫?工具，可以將結構化的數(shù)據(jù)?文件映射為?一張數(shù)據(jù)庫表，并提供類sql查詢功能

為社么要使用Hive

一、直接使用hadoop面臨的問題： 1）、學習成本高 2）、項目周期要求短 3）、MapReduce實現(xiàn)復雜查詢邏輯開發(fā)難度大二、為什么用hive 1）、接口采用類sql語法，提供快速開發(fā)能力 2）、避免寫MapReduce，減少學習承辦 3）、擴展功能方便

二、Hive特點

1）、可擴展性 hive可自由擴展集群規(guī)模，一般情況不需要重啟 2）、延展性 hive支持用戶自定義函數(shù)，用戶可根據(jù)自己的需求來實現(xiàn)函數(shù) 3）、容錯良好的容錯性，節(jié)點出現(xiàn)問題sql仍可完成執(zhí)行

三、Hive架構圖

四、Hive與Hadoop的關系

Hive利用HDFS存儲數(shù)據(jù)，利用MapReduce查詢數(shù)據(jù)

五、關于Hive的理解

查詢語言。由于 SQL 被廣泛的應用在數(shù)據(jù)倉庫中，因此，專門針對 Hive 的特性設計了類 SQL 的查詢語言 HQL。熟悉 SQL 開發(fā)的開發(fā)者可以很方便的使用 Hive 進行開發(fā)。

數(shù)據(jù)存儲位置。Hive 是建立在 Hadoop 之上的，所有 Hive 的數(shù)據(jù)都是存儲在 HDFS 中的。而數(shù)據(jù)庫則可以將數(shù)據(jù)保存在塊設備或者本地文件系統(tǒng)中。

數(shù)據(jù)格式。Hive 中沒有定義專門的數(shù)據(jù)格式，數(shù)據(jù)格式可以由用戶指定，用戶定義數(shù)據(jù)格式需要指定三個屬性：列分隔符（通常為空格、"\t"、"\x001″）、行分隔符（"\n"）以及讀取文件數(shù)據(jù)的方法（Hive 中默認有三個文件格式 TextFile，SequenceFile 以及 RCFile）。由于在加載數(shù)據(jù)的過程中，不需要從用戶數(shù)據(jù)格式到 Hive 定義的數(shù)據(jù)格式的轉換，因此，Hive 在加載的過程中不會對數(shù)據(jù)本身進行任何修改，而只是將數(shù)據(jù)內容復制或者移動到相應的 HDFS 目錄中。而在數(shù)據(jù)庫中，不同的數(shù)據(jù)庫有不同的存儲引擎，定義了自己的數(shù)據(jù)格式。所有數(shù)據(jù)都會按照一定的組織存儲，因此，數(shù)據(jù)庫加載數(shù)據(jù)的過程會比較耗時。

數(shù)據(jù)更新。由于 Hive 是針對數(shù)據(jù)倉庫應用設計的，而數(shù)據(jù)倉庫的內容是讀多寫少的。因此，Hive 中不支持對數(shù)據(jù)的改寫和添加，所有的數(shù)據(jù)都是在加載的時候中確定好的。而數(shù)據(jù)庫中的數(shù)據(jù)通常是需要經(jīng)常進行修改的，因此可以使用 INSERT INTO ... VALUES 添加數(shù)據(jù)，使用 UPDATE ... SET 修改數(shù)據(jù)。

索引。之前已經(jīng)說過，Hive 在加載數(shù)據(jù)的過程中不會對數(shù)據(jù)進行任何處理，甚至不會對數(shù)據(jù)進行掃描，因此也沒有對數(shù)據(jù)中的某些 Key 建立索引。Hive 要訪問數(shù)據(jù)中滿足條件的特定值時，需要暴力掃描整個數(shù)據(jù)，因此訪問延遲較高。由于 MapReduce 的引入， Hive 可以并行訪問數(shù)據(jù)，因此即使沒有索引，對于大數(shù)據(jù)量的訪問，Hive 仍然可以體現(xiàn)出優(yōu)勢。數(shù)據(jù)庫中，通常會針對一個或者幾個列建立索引，因此對于少量的特定條件的數(shù)據(jù)的訪問，數(shù)據(jù)庫可以有很高的效率，較低的延遲。由于數(shù)據(jù)的訪問延遲較高，決定了 Hive 不適合在線數(shù)據(jù)查詢。

執(zhí)行。Hive 中大多數(shù)查詢的執(zhí)行是通過 Hadoop 提供的 MapReduce 來實現(xiàn)的，而數(shù)據(jù)庫通常有自己的執(zhí)行引擎。

執(zhí)行延遲。之前提到，Hive 在查詢數(shù)據(jù)的時候，由于沒有索引，需要掃描整個表，因此延遲較高。另外一個導致 Hive 執(zhí)行延遲高的因素是 MapReduce 框架。由于 MapReduce 本身具有較高的延遲，因此在利用 MapReduce 執(zhí)行 Hive 查詢時，也會有較高的延遲。相對的，數(shù)據(jù)庫的執(zhí)行延遲較低。當然，這個低是有條件的，即數(shù)據(jù)規(guī)模較小，當數(shù)據(jù)規(guī)模大到超過數(shù)據(jù)庫的處理能力的時候，Hive 的并行計算顯然能體現(xiàn)出優(yōu)勢。

可擴展性。由于 Hive 是建立在 Hadoop 之上的，因此 Hive 的可擴展性是和 Hadoop 的可擴展性是一致的（世界上最大的 Hadoop 集群在 Yahoo!，2009年的規(guī)模在 4000 臺節(jié)點左右）。而數(shù)據(jù)庫由于 ACID 語義的嚴格限制，擴展行非常有限。目前最先進的并行數(shù)據(jù)庫 Oracle 在理論上的擴展能力也只有 100 臺左右。

數(shù)據(jù)規(guī)模。由于 Hive 建立在集群上并可以利用 MapReduce 進行并行計算，因此可以支持很大規(guī)模的數(shù)據(jù)；對應的，數(shù)據(jù)庫可以支持的數(shù)據(jù)規(guī)模較小。

六、Hive的數(shù)據(jù)存儲

1、Hive中所以的數(shù)據(jù)都存儲在HDFS中，沒有專門的數(shù)據(jù)存儲格式 2、只需要在創(chuàng)建表的時候，告訴hive數(shù)據(jù)中列分隔符和行分隔符，Hive就可以解析數(shù)據(jù) 3、Hive中包含以下數(shù)據(jù)模型（DB，Table，ExternalTable，Partition，Bucker） db：在hdfs中表現(xiàn)為${hive.metastore.warehouse.dir}目錄下一個文件夾 table：在hdfs中表現(xiàn)所屬db目錄下一個文件夾 external table：外部表, 與table類似，不過其數(shù)據(jù)存放位置可以在任意指定路徑普通表: 刪除表后, hdfs上的文件都刪了 External外部表刪除后, hdfs上的文件沒有刪除, 只是把文件刪除了 partition：在hdfs中表現(xiàn)為table目錄下的子目錄 bucket：桶, 在hdfs中表現(xiàn)為同一個表目錄下根據(jù)hash散列之后的多個文件, 會根據(jù)不同的文件把數(shù)據(jù)放到不同的文件中

七、Hive的安裝與部署

需要準備，Hadoop集群，Mysql數(shù)據(jù)庫一、下載Hive安裝包 http://hive.apache.org/downloads.html

2、將hive文件上傳到HADOOP集群，并解壓

# 目錄需要自己修改 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /export/servers/ cd /export/servers/ ln -s apache-hive-1.2.1-bin hive 復制代碼

3、配置環(huán)境變量，編輯/etc/profile

#set hive env export HIVE_HOME=/export/servers/hive export PATH=${HIVE_HOME}/bin:$PATH #讓環(huán)境變量生效 source /etc/profile 復制代碼

4、增加hive-site.xml

<configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value> <description>JDBC connect string for a JDBC metastore</description> </property><property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> <description>Driver class name for a JDBC metastore</description> </property><property> <name>javax.jdo.option.ConnectionUserName</name> <value>你的mysql用戶名</value> <description>username to use against metastore database</description> </property><property> <name>javax.jdo.option.ConnectionPassword</name> <value>你的mysql密碼</value> <description>password to use against metastore database</description> </property> </configuration> 復制代碼

5、啟動Hive 進入到bin文件中，找到hive

./hive 復制代碼

需要注意，下載mysql-connector-java-5.1.27.jar mysql的驅動包 6. Jline包版本不一致的問題，需要拷貝hive的lib目錄中jline.2.12.jar的jar包替換掉hadoop中的

/home/hadoop/app/hadoop-2.6.4/share/hadoop/yarn/lib/jline-0.9.94.jar 復制代碼

7、mysql修改權限

mysql -uroot -p#(執(zhí)行下面的語句 *.*:所有庫下的所有表 %：任何IP地址或主機都可以連接)GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;FLUSH PRIVILEGES; 復制代碼

下面的是我的公眾號二維碼圖片，歡迎關注我。

總結

以上是生活随笔為你收集整理的Hive(一)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。

Hive

上一篇：分布式系统理论基础1：一致性、2PC和
下一篇： CVPR！你凭什么收录我3篇论文！？