Hive的基本介绍(一)
01 Hive的基本介紹
1、hive產(chǎn)生的原因
· a) 方便對(duì)文件及數(shù)據(jù)的元數(shù)據(jù)進(jìn)行管理,提供統(tǒng)一的元數(shù)據(jù)管理方式
? b) 提供更加簡(jiǎn)單的方式來訪問大規(guī)模的數(shù)據(jù)集,使用SQL語言進(jìn)行數(shù)據(jù)分析
2、hive是什么?
The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.
? Hive經(jīng)常被大數(shù)據(jù)企業(yè)用作企業(yè)級(jí)數(shù)據(jù)倉庫。
? Hive在使用過程中是使用SQL語句來進(jìn)行數(shù)據(jù)分析,由SQL語句到具體的任務(wù)執(zhí)行還需要經(jīng)過解釋器,編譯器,優(yōu)化器,執(zhí)行器四部分才能完成。
? (1)解釋器:調(diào)用語法解釋器和語義分析器將SQL語句轉(zhuǎn)換成對(duì)應(yīng)的可執(zhí)行的java代碼或者業(yè)務(wù)代碼
? (2)編譯器:將對(duì)應(yīng)的java代碼轉(zhuǎn)換成字節(jié)碼文件或者jar包
? (3)優(yōu)化器:從SQL語句到j(luò)ava代碼的解析轉(zhuǎn)化過程中需要調(diào)用優(yōu)化器,進(jìn)行相關(guān)策略的優(yōu)化,實(shí)現(xiàn)最優(yōu)的 查詢性能
? (4)執(zhí)行器:當(dāng)業(yè)務(wù)代碼轉(zhuǎn)換完成之后,需要上傳到MapReduce的集群中執(zhí)行
3、數(shù)據(jù)倉庫--Hive(簡(jiǎn)單了解即可)
1、數(shù)據(jù)倉庫基本概念
? 數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡(jiǎn)寫為DW或DWH。數(shù)據(jù)倉庫,是為企業(yè)所有級(jí)別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個(gè)數(shù)據(jù)存儲(chǔ),出于分析性報(bào)告和決策支持目的而創(chuàng)建。 為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。
2、數(shù)據(jù)處理分類:OLAP與OLTP
? 數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機(jī)事務(wù)處理OLTP(on-line transaction processing)、聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
3、OLTP
? OLTP,也叫聯(lián)機(jī)事務(wù)處理(Online Transaction Processing),表示事務(wù)性非常高的系統(tǒng),一般都是高可用的在線系統(tǒng),以小的事務(wù)以及小的查詢?yōu)橹鳎u(píng)估其系統(tǒng)的時(shí)候,一般看其每秒執(zhí)行的Transaction以及Execute SQL的數(shù)量。在這樣的系統(tǒng)中,單個(gè)數(shù)據(jù)庫每秒處理的Transaction往往超過幾百個(gè),或者是幾千個(gè),Select 語句的執(zhí)行量每秒幾千甚至幾萬個(gè)。典型的OLTP系統(tǒng)有電子商務(wù)系統(tǒng)、銀行、證券等,如美國eBay的業(yè)務(wù)數(shù)據(jù)庫,就是很典型的OLTP數(shù)據(jù)庫。
4、OLAP
? OLAP(On-Line Analysis Processing)在線分析處理是一種共享多維信息的快速分析技術(shù);OLAP利用多維數(shù)據(jù)庫技術(shù)使用戶從不同角度觀察數(shù)據(jù);OLAP用于支持復(fù)雜的分析操作,側(cè)重于對(duì)管理人員的決策支持,可以滿足分析人員快速、靈活地進(jìn)行大數(shù)據(jù)復(fù)量的復(fù)雜查詢的要求,并且以一種直觀、易懂的形式呈現(xiàn)查詢結(jié)果,輔助決策。
基本概念:
? 度量:數(shù)據(jù)度量的指標(biāo),數(shù)據(jù)的實(shí)際含義
? 維度:描述與業(yè)務(wù)主題相關(guān)的一組屬性
? 事實(shí):不同維度在某一取值下的度量
特點(diǎn):
? (1)快速性:用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對(duì)用戶的大部分分析要求做出反 應(yīng)。
? (2)可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。
? (3)多維性:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對(duì)數(shù)據(jù)的多維視圖和分析,包括對(duì)層次維和多重層次 維的完全支持。
? (4)信息性:不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信 息。
分類:
? 按照存儲(chǔ)方式分類:
? ROLAP:關(guān)系型在線分析處理
? MOLAP:多維在線分析處理
? HOLAP:混合型在線分析處理
? 按照處理方式分類:
? Server OLAP和Client OLAP
操作:
? 鉆取:在維的不同層次間的變化,從上層降到下一層,或者說將匯總數(shù)據(jù)拆分到更細(xì)節(jié)的數(shù)據(jù),比如通過 對(duì)2019年第二季度的總銷售數(shù)據(jù)進(jìn)行鉆取來查看2019年4,5,6,每個(gè)月的消費(fèi)數(shù)據(jù),再例如可以鉆取 浙江省來查看杭州市、溫州市、寧波市......這些城市的銷售數(shù)據(jù)
? 上卷:鉆取的逆操作,即從細(xì)粒度數(shù)據(jù)向更高匯總層的聚合,如將江蘇省、上海市、浙江省的銷售數(shù)據(jù)進(jìn) 行匯總來查看江浙滬地區(qū)的銷售數(shù)據(jù)
? 切片:選擇維中特定的值進(jìn)行分析,比如只選擇電子產(chǎn)品的銷售數(shù)據(jù)或者2019年第二季度的數(shù)據(jù)
? 切塊:選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進(jìn)行分析,比如選擇2019年第一季度到第二季度的銷售數(shù) 據(jù)或者是電子產(chǎn)品和日用品的銷售數(shù)據(jù)
? 旋轉(zhuǎn):維的位置互換,就像是二維表的行列轉(zhuǎn)換,比如通過旋轉(zhuǎn)來實(shí)現(xiàn)產(chǎn)品維和地域維的互換
4、數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別
? 注意:前三條重點(diǎn)掌握理解,后面的了解即可
? 1、數(shù)據(jù)庫是對(duì)業(yè)務(wù)系統(tǒng)的支撐,性能要求高,相應(yīng)的時(shí)間短,而數(shù)據(jù)倉庫則對(duì)響應(yīng)時(shí)間沒有太多的要求,當(dāng)然也是越快越好
? 2、數(shù)據(jù)庫存儲(chǔ)的是某一個(gè)產(chǎn)品線或者某個(gè)業(yè)務(wù)線的數(shù)據(jù),數(shù)據(jù)倉庫可以將多個(gè)數(shù)據(jù)源的數(shù)據(jù)經(jīng)過統(tǒng)一的規(guī)則清洗之后進(jìn)行集中統(tǒng)一管理
? 3、數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)可以修改,無法保存各個(gè)歷史時(shí)刻的數(shù)據(jù),數(shù)據(jù)倉庫可以保存各個(gè)時(shí)間點(diǎn)的數(shù)據(jù),形成時(shí)間拉鏈表,可以對(duì)各個(gè)歷史時(shí)刻的數(shù)據(jù)做分析
? 4、數(shù)據(jù)庫一次操作的數(shù)據(jù)量小,數(shù)據(jù)倉庫操作的數(shù)據(jù)量大
? 5、數(shù)據(jù)庫使用的是實(shí)體-關(guān)系(E-R)模型,數(shù)據(jù)倉庫使用的是星型模型或者雪花模型
? 6、數(shù)據(jù)庫是面向事務(wù)級(jí)別的操作,數(shù)據(jù)倉庫是面向分析的操作
總結(jié)
以上是生活随笔為你收集整理的Hive的基本介绍(一)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第一次办信用卡办哪个等级的卡比较好?都有
- 下一篇: [容易]中位数