日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据技术hadoop入门级生态圈介绍

發(fā)布時(shí)間:2024/9/20 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据技术hadoop入门级生态圈介绍 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

hadoop 生態(tài)概況
Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。

用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。

具有可靠、高效、可伸縮的特點(diǎn)。

Hadoop的核心是YARN,HDFS和Mapreduce

?下圖為hadoop的生態(tài)系統(tǒng):

HDFS(Hadoop分布式文件系統(tǒng))
源自于Google的GFS論文,發(fā)表于2003年10月,HDFS是GFS克隆版。

HDFS是Hadoop體系中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。它是一個(gè)高度容錯(cuò)的系統(tǒng),能檢測(cè)和應(yīng)對(duì)硬件故障,用于在低成本的通用硬件上運(yùn)行。

HDFS簡化了文件的一致性模型,通過流式數(shù)據(jù)訪問,提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問功能,適合帶有大型數(shù)據(jù)集的應(yīng)用程序。

它提供了一次寫入多次讀取的機(jī)制,數(shù)據(jù)以塊的形式,同時(shí)分布在集群不同物理機(jī)器上。


Mapreduce(分布式計(jì)算框架)
源自于google的MapReduce論文,發(fā)表于2004年12月,Hadoop MapReduce是google MapReduce 克隆版。

MapReduce是一種分布式計(jì)算模型,用以進(jìn)行大數(shù)據(jù)量的計(jì)算。它屏蔽了分布式計(jì)算框架細(xì)節(jié),將計(jì)算抽象成map和reduce兩部分,

其中Map對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作,生成鍵-值對(duì)形式中間結(jié)果。Reduce則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約,以得到最終結(jié)果。

MapReduce非常適合在大量計(jì)算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。


JobTracker:Master節(jié)點(diǎn),只有一個(gè),管理所有作業(yè),作業(yè)/任務(wù)的監(jiān)控、錯(cuò)誤處理等;將任務(wù)分解成一系列任務(wù),并分派給TaskTracker。
TaskTracker:Slave節(jié)點(diǎn),運(yùn)行Map Task和Reduce Task;并與JobTracker交互,匯報(bào)任務(wù)狀態(tài)。
Map Task:解析每條數(shù)據(jù)記錄,傳遞給用戶編寫的map(),并執(zhí)行,將輸出結(jié)果寫入本地磁盤(如果為map-only作業(yè),直接寫入HDFS)。
Reducer Task:從Map Task的執(zhí)行結(jié)果中,遠(yuǎn)程讀取輸入數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行排序,將數(shù)據(jù)按照分組傳遞給用戶編寫的reduce函數(shù)執(zhí)行。

Mapreduce處理流程,以wordCount為例:

Yarn(分布式資源管理器)
YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基礎(chǔ)上演變而來的,主要是為了解決原始Hadoop擴(kuò)展性較差,不支持多計(jì)算框架而提出的。
Yarn是下一代 Hadoop 計(jì)算平臺(tái),yarn是一個(gè)通用的運(yùn)行時(shí)框架,用戶可以編寫自己的計(jì)算框架,在該運(yùn)行環(huán)境中運(yùn)行。
用于自己編寫的框架作為客戶端的一個(gè)lib,在運(yùn)用提交作業(yè)時(shí)打包即可。該框架為提供了以下幾個(gè)組件:

資源管理:包括應(yīng)用程序管理和機(jī)器資源管理

資源雙層調(diào)度

容錯(cuò)性:各個(gè)組件均有考慮容錯(cuò)性

擴(kuò)展性:可擴(kuò)展到上萬個(gè)節(jié)點(diǎn)

Zookeeper(分布式協(xié)作服務(wù))
源自Google的Chubby論文,發(fā)表于2006年11月,Zookeeper是Chubby克隆版

解決分布式環(huán)境下的數(shù)據(jù)管理問題:統(tǒng)一命名,狀態(tài)同步,集群管理,配置同步等。

Hadoop的許多組件依賴于Zookeeper,它運(yùn)行在計(jì)算機(jī)集群上面,用于管理Hadoop操作。

HBASE(分布式列存數(shù)據(jù)庫)
源自Google的Bigtable論文,發(fā)表于2006年11月,HBase是Google Bigtable克隆版

HBase是一個(gè)建立在HDFS之上,面向列的針對(duì)結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動(dòng)態(tài)模式數(shù)據(jù)庫。

HBase采用了BigTable的數(shù)據(jù)模型:增強(qiáng)的稀疏排序映射表(Key/Value),其中,鍵由行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳構(gòu)成。

HBase提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問,同時(shí),HBase中保存的數(shù)據(jù)可以使用MapReduce來處理,它將數(shù)據(jù)存儲(chǔ)和并行計(jì)算完美地結(jié)合在一起。

HIVE(數(shù)據(jù)倉庫)
由facebook開源,最初用于解決海量結(jié)構(gòu)化的日志數(shù)據(jù)統(tǒng)計(jì)問題。

Hive定義了一種類似SQL的查詢語言(HQL),將SQL轉(zhuǎn)化為MapReduce任務(wù)在Hadoop上執(zhí)行。通常用于離線分析。

HQL用于運(yùn)行存儲(chǔ)在Hadoop上的查詢語句,Hive讓不熟悉MapReduce開發(fā)人員也能編寫數(shù)據(jù)查詢語句,然后這些語句被翻譯為Hadoop上面的MapReduce任務(wù)。

Pig(ad-hoc腳本)
由yahoo!開源,設(shè)計(jì)動(dòng)機(jī)是提供一種基于MapReduce的ad-hoc(計(jì)算在query時(shí)發(fā)生)數(shù)據(jù)分析工具

Pig定義了一種數(shù)據(jù)流語言—Pig Latin,它是MapReduce編程的復(fù)雜性的抽象,Pig平臺(tái)包括運(yùn)行環(huán)境和用于分析Hadoop數(shù)據(jù)集的腳本語言(Pig Latin)。

其編譯器將Pig Latin翻譯成MapReduce程序序列將腳本轉(zhuǎn)換為MapReduce任務(wù)在Hadoop上執(zhí)行。通常用于進(jìn)行離線分析。

Mahout(數(shù)據(jù)挖掘算法庫)
Mahout起源于2008年,最初是Apache Lucent的子項(xiàng)目,它在極短的時(shí)間內(nèi)取得了長足的發(fā)展,現(xiàn)在是Apache的頂級(jí)項(xiàng)目。

Mahout的主要目標(biāo)是創(chuàng)建一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。

Mahout現(xiàn)在已經(jīng)包含了聚類、分類、推薦引擎(協(xié)同過濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。

除了算法,Mahout還包含數(shù)據(jù)的輸入/輸出工具、與其他存儲(chǔ)系統(tǒng)(如數(shù)據(jù)庫、MongoDB 或Cassandra)集成等數(shù)據(jù)挖掘支持架構(gòu)。
---------------------?
作者:Smile-GQ?
來源:CSDN?
原文:https://blog.csdn.net/weixin_43273168/article/details/90411277?
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)附上博文鏈接!

總結(jié)

以上是生活随笔為你收集整理的大数据技术hadoop入门级生态圈介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。