日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

Hive学习路线图

發(fā)布時(shí)間:2025/3/21 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hive学习路线图 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Hadoop家族系列文章,主要介紹Hadoop家族產(chǎn)品,常用的項(xiàng)目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的項(xiàng)目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

從2011年開始,中國進(jìn)入大數(shù)據(jù)風(fēng)起云涌的時(shí)代,以Hadoop為代表的家族軟件,占據(jù)了大數(shù)據(jù)處理的廣闊地盤。開源界及廠商,所有數(shù)據(jù)軟件,無一不向Hadoop靠攏。Hadoop也從小眾的高富帥領(lǐng)域,變成了大數(shù)據(jù)開發(fā)的標(biāo)準(zhǔn)。在Hadoop原有技術(shù)基礎(chǔ)之上,出現(xiàn)了Hadoop家族產(chǎn)品,通過“大數(shù)據(jù)”概念不斷創(chuàng)新,推出科技進(jìn)步。

作為IT界的開發(fā)人員,我們也要跟上節(jié)奏,抓住機(jī)遇,跟著Hadoop一起雄起!

關(guān)于作者:

  • 張丹(Conan), 程序員Java,R,PHP,Javascript
  • weibo:@Conan_Z
  • blog:?http://blog.fens.me
  • email: bsspirit@gmail.com

轉(zhuǎn)載請(qǐng)注明出處:
http://blog.fens.me/hadoop-hive-roadmap/

前言

Hive是Hadoop家族中一款數(shù)據(jù)倉庫產(chǎn)品,Hive最大的特點(diǎn)就是提供了類SQL的語法,封裝了底層的MapReduce過程,讓有SQL基礎(chǔ)的業(yè)務(wù)人員,也可以直接利用Hadoop進(jìn)行大數(shù)據(jù)的操作。就是這一個(gè)點(diǎn),解決了原數(shù)據(jù)分析人員對(duì)于大數(shù)據(jù)分析的瓶頸。

讓我們把Hive的環(huán)境構(gòu)建起來,幫助非開發(fā)人員也能更好地了解大數(shù)據(jù)。

目錄

  • Hive介紹
  • Hive學(xué)習(xí)路線圖
  • 我的使用經(jīng)歷
  • Hive的使用案例
  • 1. Hive介紹

    Hive起源于Facebook,它使得針對(duì)Hadoop進(jìn)行SQL查詢成為可能,從而非程序員也可以方便地使用。Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行。

    Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時(shí),這個(gè)語言也允許熟悉 MapReduce 開發(fā)者的開發(fā)自定義的 mapper 和 reducer 來處理內(nèi)建的 mapper 和 reducer 無法完成的復(fù)雜的分析工作。

    詳細(xì)地Hive的安裝和使用介紹,請(qǐng)參考文章:Hive安裝及使用攻略

    2. Hive學(xué)習(xí)路線圖

    Hive的知識(shí)點(diǎn),我已經(jīng)列在圖中,希望幫助其他人更好的了解Hive。

    接下來,是我的使用經(jīng)歷,誰都沒有捷徑。把心踏實(shí)下來,就不那么難了。

    3. 我的使用經(jīng)歷

    我使用Hive有兩個(gè)考慮:

    • 1. 幫助無開發(fā)經(jīng)驗(yàn)的數(shù)據(jù)分析人員,有能力處理大數(shù)據(jù)
    • 2. 構(gòu)建標(biāo)準(zhǔn)化的MapReduce開發(fā)過程

    1). 幫助無開發(fā)經(jīng)驗(yàn)的數(shù)據(jù)分析人員,有能力處理大數(shù)據(jù)

    完全符合與Hive的設(shè)計(jì)理念,一直在強(qiáng)調(diào),無需多言。

    2). 構(gòu)建標(biāo)準(zhǔn)化的MapReduce開發(fā)過程

    這個(gè)方面是我們需要努力的方向。

    首先,Hive已經(jīng)用類SQL的語法封裝了MapReduce過程,這個(gè)封裝過程就是MapReduce的標(biāo)準(zhǔn)化的過程。

    我們?cè)谧鰳I(yè)務(wù)或者工具時(shí),會(huì)針對(duì)場(chǎng)景用邏輯封裝,這是第二層封裝是在Hive之上的封裝。在第二層封裝時(shí),我們要盡可能多的屏蔽Hive的細(xì)節(jié),讓接口單一化,低少靈活性,再次精簡HQL的語法結(jié)構(gòu)。只滿足我們的系統(tǒng)要求,專用的接口。

    在使用二次封裝的接口時(shí),我們已經(jīng)可以不用知道Hive是什么, 更不用知道Hadoop是什么。我們只需要知道,SQL查詢(SQL92標(biāo)準(zhǔn)),怎么寫效率高,怎么寫可以完成業(yè)務(wù)需要就可以了。

    當(dāng)我們完成了Hive的二次封裝后,我們可以構(gòu)建標(biāo)準(zhǔn)化的MapReduce開發(fā)過程。

    通過上圖的思路,我們可以統(tǒng)一企業(yè)內(nèi)部各種應(yīng)用對(duì)于Hive的依賴,并且當(dāng)人員素質(zhì)升高后,有可以剝離Hive,用更優(yōu)秀的底層解決方案來替換,如果封裝的接口的不變,甚至替換Hive時(shí)業(yè)務(wù)使用都不知道,我們已經(jīng)替換了Hive。

    這個(gè)過程是需要經(jīng)歷的,也是有意義的。當(dāng)我在考慮構(gòu)建Hadoop分析工具時(shí),以Hive作為Hadoop訪問接口是最有效的。

    3). 有關(guān)Hive的運(yùn)維:
    因?yàn)镠ive是基于Hadoop構(gòu)建的,簡單地說就是一套Hadoop的訪問接口,Hive本身并沒有太多的東西,所以運(yùn)維上面我們注意下面幾個(gè)問題就行了。

    • 1. 使用單獨(dú)的數(shù)據(jù)庫存儲(chǔ)元數(shù)據(jù)
    • 2. 定義合理的表分區(qū)和鍵
    • 3. 設(shè)置合理的bucket數(shù)據(jù)量
    • 4. 進(jìn)行表壓縮
    • 5. 定義外部表使用規(guī)范
    • 6. 合理的控制Mapper, Reducer數(shù)量

    4. Hive的使用案例

    已經(jīng)整理成文章的案例

    • Hive安裝及使用攻略
    • Hive導(dǎo)入10G數(shù)據(jù)的測(cè)試
    • R利劍NoSQL系列文章 之 Hive
    • 用RHive從歷史數(shù)據(jù)中提取逆回購信息

    相關(guān)文章:
    Hadoop家族產(chǎn)品學(xué)習(xí)路線圖

    轉(zhuǎn)載請(qǐng)注明出處:
    http://blog.fens.me/hadoop-hive-roadmap/

    總結(jié)

    以上是生活随笔為你收集整理的Hive学习路线图的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。