日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hive 删除分区_数据仓库工具hive面试题集锦(纯干货)

發布時間:2025/3/15 编程问答 11 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hive 删除分区_数据仓库工具hive面试题集锦(纯干货) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

進入DATE時代,大數據技術成為互聯網發展的核心要素之一。與此同時大數據開發工程師的薪資也成為行業內高薪的代表。想從事大數據開發需要掌握多種核心技術:Hadoop、Hive、Storm、Spark、Scala等等。

而且這些技術知識點已經成為大數據工程師進入職場時面試中必備的考點。這里黑馬程序員主要和大家分享一下數據倉庫工具hive相關的面試題!

1、 Hive 的 join 有幾種方式,怎么實現 join 的?

答:有3 種 join 方式:
1)在 reduce 端進行 join,最常用的 join 方式。Map端的主要工作:為來自不同表(文件)的 key/value 對打標簽以區別不同來源的記錄。然后用連接字段作為 key,其余部分和新加的標志作為 value,最后進行輸出。reduce 端的主要工作:在 reduce 端以連接字段作為 key 的分組已經完成,我們只需要在每一個分組當中將那些來源于不同文件的記錄 (在 map 階段已經打標志)分開,最后進行笛卡爾。

2)在 map 端進行 join,使用場景:一張表十分小、一張表很大。在提交作業的時候先將小表文件放到該作業的 DistributedCache 中,然后從 DistributeCache 中取出該小表進行 join key / value 解釋分割放到內存中(可以放大 Hash Map 等等容器中)。然后掃描大表,看大表中的每條記錄的 join key /value 值是否能夠在內存中找到相同 join key 的記錄,如果有則直接輸出結果。

3)SemiJoin,semijoin 就是左邊連接是 reducejoin 的一種變種,在 map 端過濾掉一些數據,在網絡傳輸過程中,只傳輸參與連接的數據,減少了 shuffle的網絡傳輸量,其他和 reduce的思想是一樣的。實現:將小表中參與 join 的 key 單獨抽取出來通過 DistributeCache 分發到相關節點,在 map 階段掃描連接表,將 join key 不在內存 hashset 的紀錄過濾掉,讓參與 join 的紀錄通過 shuffle 傳輸到 reduce 端進行 join,其他和 reduce join 一樣。

2、hive 內部表和外部表的區別?內部表:建表時會在 hdfs 創建一個表的存儲目錄,增加分區的時候,會將數據復制到此location下,刪除數據的時候,將表的數據和元數據一起刪除。外部表:一般會建立分區,增加分區的時候不會將數據移到此表的 location下,刪除數據的時候,只刪除了表的元數據信息,表的數據不會刪除。

3、 hive 是如何實現分區的?建表語句:create table tablename (id) partitioned by (dt string)增加分區:alter table tablenname add partition (dt = ‘2016-03-06’)刪除分區:alter table tablename drop partition (dt = ‘2016-03-06’)

4、 Hive 有哪些方式保存元數據,各有哪些優缺點。
1)存儲于 derby 數據庫,此方法只能開啟一個hive客戶端,不推薦使用
2)存儲于mysql數據庫中,可以多客戶端連接,推薦使用。

5、 hive 如何優化?
1)join 優化,盡量將小表放在 join 的左邊,如果一個表很小可以采用 mapjoin。
2)排序優化,order by 一個 reduce 效率低,distirbute by +sort by 也可以實現全局排序。

3)使用分區,查詢時可減少數據的檢索,從而節省時間。

6、 hive 中的壓縮格式 RCFile、 TextFile、 SequenceFile 各有什么區別?
TextFile:默認格式,數據不做壓縮,磁盤開銷大,數據解析開銷大
SequenceFile:Hadoop API提供的一種二進制文件支持,使用方便,可分割,可壓縮,支持三種壓縮,NONE,RECORD,BLOCK。RCFILE 是一種行列存儲相結合的方式。首先,將數據按行分塊,保證同一個 record 在同一個塊上,避免讀一個記錄讀取多個block。其次,塊數據列式存儲,有利于數據壓縮和快速的列存取。數據加載的時候性能消耗大,但具有較好的壓縮比和查詢響應。7、 hive 相對于Oracle來說有那些優點?
1)存儲,hive 存儲在 hdfs 上,oracle 存儲在本地文件系統。
2)擴展性,hive 可以擴展到數千節點,oracle 理論上只可擴展到 100 臺左右。3)單表存儲,數據量大 hive 可以分區分桶,oracle 數據量大只能分表。8、 Hive 的 sort by 和 order by 的區別?
order by 會對輸入數據做全局排序,只有一個 reduce,數據量較大時,很慢。
sort by 不是全局排序,只能保證每個 reduce 有序,不能保證全局有序,需設置mapred.reduce.tasks>1。

覺得有用的小伙伴可以分享出去給更多需要的人看到哦~

總結

以上是生活随笔為你收集整理的hive 删除分区_数据仓库工具hive面试题集锦(纯干货)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 6080亚洲精品一区二区 | 国模人体一区二区 | 五月天婷婷丁香花 | 黄色一级片一级片 | 中文字幕日韩一区二区三区 | 日干夜操 | 欧美生活一级片 | 欧美精品在线视频 | 男女操操视频 | 黑人玩弄人妻一区二区三区免费看 | 国产人妻777人伦精品hd | 伊人看片 | 97视频在线观看免费 | 青青草原免费观看 | 九九九九热 | 在线不卡av| wwwav视频 | jizz黑人 | 伊人久久爱 | 日本少妇做爰全过程毛片 | 日韩欧美黄色 | 麻豆黄色片 | 国产影视一区 | 黑人玩弄人妻一区二区三区四 | 黄色片视频免费 | 日日日干 | 久久久久久久久久福利 | 欧美日韩成人网 | 美女色诱男人激情视频 | 亚洲一区二区免费在线观看 | 免费欧美大片 | 久久影视一区二区 | 国产成人精品一区二三区四区五区 | 国产精品成人一区二区 | 国产宾馆实践打屁股91 | 久久国产精品久久 | 免费的黄色大片 | 美女乱淫 | av手机观看 | 91日韩中文字幕 | 亚洲精品理论 | 青娱乐福利视频 | 亚洲精品在线播放视频 | 插我舔内射18免费视频 | 黄瓜视频污在线观看 | 久久精品女人毛片国产 | 亚洲人午夜射精精品日韩 | 精品一区二区三区人妻 | 欧美又粗又长又爽做受 | 亚洲国产精品系列 | 痴汉电车在线观看 | 日韩少妇内射免费播放 | 久久精品视频播放 | 天天躁日日摸久久久精品 | 亚洲区小说区图片区 | 日韩精品中文字幕一区二区 | 综合色爱 | 色屁屁一区二区 | 波多野结衣一区二区三区高清av | 91视频色版| 波多野结衣a级片 | 欧美激情图片 | 天天想你在线观看完整版电影免费 | 国产视频一区二区在线播放 | 久久影视av| 人妖和人妖互交性xxxx视频 | wwwxxx色| 三级艳丽杨钰莹三级 | 伊人网在线播放 | 蜜桃一区二区 | 翔田千里一区二区三区av | 不卡在线 | 中文字幕国产日韩 | 爱搞逼综合 | 一级在线视频 | 欧美视频在线观看一区二区 | 狠狠ri| 九九视频免费在线观看 | 五月婷婷丁香激情 | 在线观看中文字幕亚洲 | 久草资源网 | 亚洲第一视频网站 | 91老师国产黑色丝袜在线 | www.av色| 欧美成人激情视频 | 国产精品嫩草影院av蜜臀 | 日韩不卡视频一区二区 | 亚洲熟妇无码另类久久久 | 黄色草逼网站 | 爱如潮水3免费观看日本高清 | 777av| av黄色在线免费观看 | 在线观看日韩视频 | 亚洲av区无码字幕中文色 | 黄色片视频网站 | 免费的性爱视频 | 亚洲码无人客一区二区三区 | 日韩一区二区三区在线免费观看 | 国产精品一亚洲av日韩av欧 |