什么是Hive
Hive 是建立在 Hadoop ?上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。
它提供了一系列的工具,可以用來進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL ),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。
Hive 定義了簡單的類 SQL ?查詢語言,稱為 QL ,它允許熟悉 SQL ?的用戶查詢數(shù)據(jù)。
同時(shí),這個(gè)語言也允許熟悉 MapReduce ?開發(fā)者的開發(fā)自定義的 mapper ?和 reducer ?來處理內(nèi)建的 mapper 和 reducer 無法完成的復(fù)雜的分析工作。
Hive是SQL解析引擎,它將SQL語句轉(zhuǎn)譯成M/R Job然后在Hadoop執(zhí)行。
Hive的表其實(shí)就是HDFS的目錄,按表名把文件夾分開。如果是分區(qū)表,則分區(qū)值是子文件夾,
可以直接在M/R Job里使用這些數(shù)據(jù)。
Hive 相當(dāng)于hadoop的可視化工具,如Mysql的可視化工具Navicat for MySQL,
oracle的可視化工具PLSQLDeveloper,它可以起很多個(gè),而且起不同版本的。
只要環(huán)境參數(shù)配置好了。就像Navicat for MySQL和sqldeveloper可以開多個(gè)。
Hive的數(shù)據(jù)存儲(chǔ)基于Hadoop HDFS。
Hive沒有專門的數(shù)據(jù)存儲(chǔ)格式存儲(chǔ)結(jié)構(gòu)主要包括:數(shù)據(jù)庫、文件、表、視圖、索引。
Hive默認(rèn)可以直接加載文本文件(TextFile),還支持SequenceFile、RCFile。
總結(jié)
- 上一篇: php pcre回溯攻击,php pre
- 下一篇: 联想拯救者y7000加内存条_关于202