日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

什么是HADOOP、产生背景、在大数据、云计算中的位置和关系、国内外HADOOP应用案例介绍、就业方向、生态圈以及各组成部分的简介(学习资料中的文档材料)

發布時間:2024/9/27 编程问答 44 豆豆

1. HADOOP背景介紹

1. 1.1 什么是HADOOP

1.????????HADOOP是apache旗下的一套開源軟件平臺

2.????????HADOOP提供的功能:利用服務器集群,根據用戶的自定義業務邏輯,對海量數據進行分布式處理

3.????????HADOOP的核心組件有

A.???????HDFS(分布式文件系統)

B.???????YARN(運算資源調度系統)

C.???????MAPREDUCE(分布式運算編程框架)

4.????????廣義上來說,HADOOP通常是指一個更廣泛的概念——HADOOP生態圈

2. 1.2 HADOOP產生背景

1.????????HADOOP最早起源于Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。

2.????????2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案

——分布式文件系統(GFS),可用于處理海量網頁的存儲

——分布式計算框架MAPREDUCE,可用于處理海量網頁的索引計算問題。

3.????????Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE,并從Nutch中剝離成為獨立項目HADOOP,到2008年1月,HADOOP成為Apache頂級項目,迎來了它的快速發展期。

3. 1.3 HADOOP在大數據、云計算中的位置和關系

1.????????云計算是分布式計算、并行計算、網格計算、多核計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和互聯網技術融合發展的產物。借助IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)等業務模式,把強大的計算能力提供給終端用戶。

2.????????現階段,云計算的兩大底層支撐技術為“虛擬化”和“大數據技術

3.????????而HADOOP則是云計算的PaaS層的解決方案之一,并不等同于PaaS,更不等同于云計算本身。

?

4. 1.4 國內外HADOOP應用案例介紹

1、HADOOP應用于數據服務基礎平臺建設

?

2/HADOOP用于用戶畫像

?

3、HADOOP用于網站點擊流日志數據挖掘

金融行業:個人征信分析

證券行業:投資模型分析

交通行業:車輛、路況監控分析

電信行業:用戶上網行為分析

......

?

?

總之:hadoop并不會跟某種具體的行業或者某個具體的業務掛鉤,它只是一種用來做海量數據分析處理的工具

5. 1.5 國內HADOOP的就業情況分析

1、? HADOOP就業整體情況

A.???????大數據產業已納入國家十三五規劃

B.???????各大城市都在進行智慧城市項目建設,而智慧城市的根基就是大數據綜合平臺

C.???????互聯網時代數據的種類,增長都呈現爆發式增長,各行業對數據的價值日益重視

D.???????相對于傳統JAVAEE技術領域來說,大數據領域的人才相對稀缺

E.????????隨著現代社會的發展,數據處理和數據挖掘的重要性只會增不會減,因此,大數據技術是一個尚在蓬勃發展且具有長遠前景的領域

?

?

2、? HADOOP就業職位要求

大數據是個復合專業,包括應用開發、軟件平臺、算法、數據挖掘等,因此,大數據技術領域的就業選擇是多樣的,但就HADOOP而言,通常都需要具備以下技能或知識:

A.???????HADOOP分布式集群的平臺搭建

B.???????HADOOP分布式文件系統HDFS的原理理解及使用

C.???????HADOOP分布式運算框架MAPREDUCE的原理理解及編程

D.???????Hive數據倉庫工具的熟練應用

E.????????Flume、sqoop、oozie等輔助工具的熟練使用

F.????????Shell/python等腳本語言的開發能力


6. 1.6 HADOOP生態圈以及各組成部分的簡介

各組件簡介[M1]?

?

?

重點組件:

HDFS:分布式文件系統

MAPREDUCE:分布式運算程序開發框架

HIVE:基于大數據技術(文件系統+運算框架)的SQL數據倉庫工具

HBASE:基于HADOOP的分布式海量數據庫

ZOOKEEPER:分布式協調服務基礎組件

Mahout:基于mapreduce/spark/flink等分布式運算框架的機器學習算法庫

Oozie:工作流調度框架

Sqoop:數據導入導出工具

Flume:日志數據采集框架

?

?

?


HADOOP(hdfs、MAPREDUCE、yarn)? 元老級大數據處理技術框架,擅長離線數據分析

Zookeeper??分布式協調服務基礎組件

Hbase?分布式海量數據庫,離線分析和在線業務通吃

Hive sql 數據倉庫工具,使用方便,功能豐富,基于MR延遲大

Sqoop數據導入導出工具

Flume數據采集框架

總結

以上是生活随笔為你收集整理的什么是HADOOP、产生背景、在大数据、云计算中的位置和关系、国内外HADOOP应用案例介绍、就业方向、生态圈以及各组成部分的简介(学习资料中的文档材料)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。