當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hive简介（大数据技术）

發布時間：2023/12/10 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 hive简介（大数据技术）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

背景和概念
Hive是一個依賴于分布式存儲的查詢和管理大型數據集的數據倉庫。傳統的非大數據行業一般都是基于表進行數據存儲和管理的，如果由于業務擴張或者其他原因遷移到HDFS平臺上，那么需要將傳統的SQL查詢語句全部翻譯成Map-reduce的程序實現，這個工作量是相當龐大的。好在SQL具有嚴謹和良好的模板式語法結構，因此Hive就應運而生了，它負責將SQL語句模板化成Map-reduce任務。對上層屏蔽了將SQL任務轉化為Map-reduce任務的繁雜性。上層開發者僅僅需要像往常使用SQL語句操作傳統關系型數據庫一樣操作HDFS就可以了。所以Hive更準確講是一個幾月HDFS的數據處理框架，隱藏了底層的復雜性。具體的過程如下：
1-接收來自上層的請求：create table tab_order(id int,name string ,money double) path hdfs://order_log
2-Hive拿到砂鍋面的請求之后創建一個元數據表，并且聲稱相應的Map-reduce程序—編譯—打成jar包—運行

原理圖

架構圖

Hive和HDFS的關系
Hive本身也需要存儲元數據，這部分數據存放在Hive自帶的數據庫中（）或者我們可以給Hive配置一個數據庫。
Hive只是一個工具而已，不用想Hadoop其他組件那樣分布式部署，只需要部署在一個節點上面就可以了。即便部署多個，他們之間也是相互獨立的，沒有任何關系。
HDFS不支持隨機修改和插入某一行數據，所以Hive也不支持隨機插入和修改，只支持數據的查詢，也就是說數據必須已經存在HDFS上面，Hive只是提供了HDFS的SQL訪問方式。那么如何將HDFS中的數據和Hive中的元數據信息映射起來，有下面兩種方式：
1-建表的時候就和HDFS上面的文件數據綁定；
　　2-數據導入；

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的hive简介（大数据技术）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： WindowsXP自带小工具(转)
下一篇： java内存溢出怎样查找代码_JVM -