Hadoop生态系统学习路线
從2011年開(kāi)始。中國(guó)進(jìn)入大數(shù)據(jù)風(fēng)起云涌的時(shí)代。以Hadoop為代表的家族軟件。占領(lǐng)了大數(shù)據(jù)處理的廣闊地盤。開(kāi)源界及廠商。全部數(shù)據(jù)軟件。無(wú) 一不向Hadoop靠攏。
Hadoop也從小眾的高富帥領(lǐng)域,變成了大數(shù)據(jù)開(kāi)發(fā)的標(biāo)準(zhǔn)。
在Hadoop原有技術(shù)基礎(chǔ)之上,出現(xiàn)了Hadoop家族產(chǎn)品。通 過(guò)“大數(shù)據(jù)”概念不斷創(chuàng)新。推出科技進(jìn)步。
作為IT界的開(kāi)發(fā)者,我們也要跟上節(jié)奏。抓住機(jī)遇,跟著Hadoop一起雄起。
?
前言
使用Hadoop已經(jīng)有一段時(shí)間了。從開(kāi)始的迷茫,到各種的嘗試。到如今組合應(yīng)用….慢慢地涉及到數(shù)據(jù)處理的事情。已經(jīng)離不開(kāi)hadoop了。
Hadoop在大數(shù)據(jù)領(lǐng)域的成功。更引發(fā)了它本身的加速發(fā)展。如今Hadoop家族產(chǎn)品,已經(jīng)達(dá)到20個(gè)了之多。
有必要對(duì)自己的知識(shí)做一個(gè)整理了。把產(chǎn)品和技術(shù)都串起來(lái)。不僅能加深印象。更能夠?qū)σ院蟮募夹g(shù)方向。技術(shù)選型做好基礎(chǔ)準(zhǔn)備。
本文為“Hadoop家族”開(kāi)篇,Hadoop家族學(xué)習(xí)路線圖
文件夾
1. Hadoop家族產(chǎn)品
截止到2013年,依據(jù)cloudera的統(tǒng)計(jì),Hadoop家族產(chǎn)品已經(jīng)達(dá)到20個(gè)!
http://blog.cloudera.com/blog/2013/01/apache-hadoop-in-2013-the-state-of-the-platform/
接下來(lái),我把這20個(gè)產(chǎn)品。分成了2類。
- 第一類,是我已經(jīng)掌握的
- 第二類,是TODO準(zhǔn)備繼續(xù)學(xué)習(xí)的
一句話產(chǎn)品介紹:
- Apache?Hadoop: 是Apache開(kāi)源組織的一個(gè)分布式計(jì)算開(kāi)源框架。提供了一個(gè)分布式文件系統(tǒng)子項(xiàng)目(HDFS)和支持MapReduce分布式計(jì)算的軟件架構(gòu)。
- Apache?Hive: 是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具。能夠?qū)⒔Y(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,通過(guò)類SQL語(yǔ)句高速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì)。不必開(kāi)發(fā)專門的MapReduce應(yīng)用。十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。
- Apache?Pig: 是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析工具。它提供的SQL-LIKE語(yǔ)言叫Pig Latin,該語(yǔ)言的編譯器會(huì)把類SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過(guò)優(yōu)化處理的MapReduce運(yùn)算。
- Apache HBase: 是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在便宜PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。
- Apache Sqoop: 是一個(gè)用來(lái)將Hadoop和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具,能夠?qū)⒁粋€(gè)關(guān)系型數(shù)據(jù)庫(kù)(MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中。也能夠?qū)DFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。
- Apache Zookeeper: 是一個(gè)為分布式應(yīng)用所設(shè)計(jì)的分布的、開(kāi)源的協(xié)調(diào)服務(wù),它主要是用來(lái)解決分布式應(yīng)用中常常遇到的一些數(shù)據(jù)管理問(wèn)題。簡(jiǎn)化分布式應(yīng)用協(xié)調(diào)及其管理的難度,提供高性能的分布式服務(wù)
- Apache?Mahout:是基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個(gè)分布式框架。Mahout用MapReduce實(shí)現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法。攻克了并行挖掘的問(wèn)題。
- Apache?Cassandra:是一套開(kāi)源分布式NoSQL數(shù)據(jù)庫(kù)系統(tǒng)。它最初由Facebook開(kāi)發(fā)。用于儲(chǔ)存簡(jiǎn)單格式數(shù)據(jù),集Google BigTable的數(shù)據(jù)模型與Amazon Dynamo的全然分布式的架構(gòu)于一身
- Apache?Avro: 是一個(gè)數(shù)據(jù)序列化系統(tǒng),設(shè)計(jì)用于支持?jǐn)?shù)據(jù)密集型,大批量數(shù)據(jù)交換的應(yīng)用。
Avro是新的數(shù)據(jù)序列化格式與傳輸工具,將逐步代替Hadoop原有的IPC機(jī)制
- Apache?Ambari: 是一種基于Web的工具,支持Hadoop集群的供應(yīng)、管理和監(jiān)控。
- Apache?Chukwa: 是一個(gè)開(kāi)源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。它能夠?qū)⒏鞣N各樣類型的數(shù)據(jù)收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進(jìn)行各種 MapReduce 操作。
- Apache?Hama: 是一個(gè)基于HDFS的BSP(Bulk Synchronous Parallel)并行計(jì)算框架, Hama可用于包含圖、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模、大數(shù)據(jù)計(jì)算。
- Apache Flume: 是一個(gè)分布的、可靠的、高可用的海量日志聚合的系統(tǒng),可用于日志數(shù)據(jù)收集。日志數(shù)據(jù)處理,日志傳輸數(shù)據(jù)。
- Apache?Giraph: 是一個(gè)可伸縮的分布式迭代圖處理系統(tǒng), 基于Hadoop平臺(tái),靈感來(lái)自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
- Apache?Oozie: 是一個(gè)工作流引擎server, 用于管理和協(xié)調(diào)執(zhí)行在Hadoop平臺(tái)上(HDFS、Pig和MapReduce)的任務(wù)。
- Apache?Crunch: 是基于Google的FlumeJava庫(kù)編寫(xiě)的Java庫(kù),用于創(chuàng)建MapReduce程序。
與Hive,Pig類似。Crunch提供了用于實(shí)現(xiàn)如連接數(shù)據(jù)、執(zhí)行聚合和排序記錄等常見(jiàn)任務(wù)的模式庫(kù)
- Apache?Whirr: 是一套執(zhí)行于云服務(wù)的類庫(kù)(包含Hadoop),可提供高度的互補(bǔ)性。
Whirr學(xué)支持Amazon EC2和Rackspace的服務(wù)。
- Apache?Bigtop: 是一個(gè)對(duì)Hadoop及其周邊生態(tài)進(jìn)行打包,分發(fā)和測(cè)試的工具。
- Apache?HCatalog: 是基于Hadoop的數(shù)據(jù)表和存儲(chǔ)管理。實(shí)現(xiàn)中央的元數(shù)據(jù)和模式管理,跨越Hadoop和RDBMS。利用Pig和Hive提供關(guān)系視圖。
- Cloudera?Hue: 是一個(gè)基于WEB的監(jiān)控和管理系統(tǒng),實(shí)現(xiàn)對(duì)HDFS。MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。
2. Hadoop家族學(xué)習(xí)路線圖
以下我將分別介紹各個(gè)產(chǎn)品的安裝和使用。以我經(jīng)驗(yàn)總結(jié)我的學(xué)習(xí)路線。
Hadoop
- Hadoop學(xué)習(xí)路線圖
- Yarn學(xué)習(xí)路線圖
- 用Maven構(gòu)建Hadoop項(xiàng)目
- Hadoop歷史版本號(hào)安裝
- Hadoop編程調(diào)用HDFS
- 海量Web日志分析 用Hadoop提取KPI統(tǒng)計(jì)指標(biāo)
- 用Hadoop構(gòu)建電影推薦系統(tǒng)
- 創(chuàng)建Hadoop母體虛擬機(jī)
- 克隆虛擬機(jī)添加Hadoop節(jié)點(diǎn)
- R語(yǔ)言為Hadoop注入統(tǒng)計(jì)血脈
- RHadoop實(shí)踐系列之中的一個(gè) Hadoop環(huán)境搭建
Hive
- Hive學(xué)習(xí)路線圖
- Hive安裝及使用攻略
- Hive導(dǎo)入10G數(shù)據(jù)的測(cè)試
- R利劍NoSQL系列文章 之 Hive
- 用RHive從歷史數(shù)據(jù)中提取逆回購(gòu)信息
Pig
- Pig學(xué)習(xí)路線圖
Zookeeper
- Zookeeper學(xué)習(xí)路線圖
- ZooKeeper偽分步式集群安裝及使用
- ZooKeeper實(shí)現(xiàn)分布式隊(duì)列Queue
- ZooKeeper實(shí)現(xiàn)分布式FIFO隊(duì)列
HBase
- HBase學(xué)習(xí)路線圖
- RHadoop實(shí)踐系列之四 ?rhbase安裝與使用
Mahout
- Mahout學(xué)習(xí)路線圖
- 用R解析Mahout用戶推薦協(xié)同過(guò)濾算法(UserCF)
- RHadoop實(shí)踐系列之三 R實(shí)現(xiàn)MapReduce的協(xié)同過(guò)濾算法
- 用Maven構(gòu)建Mahout項(xiàng)目
- Mahout推薦算法API具體解釋
- 從源碼剖析Mahout推薦引擎
- Mahout分步式程序開(kāi)發(fā) 基于物品的協(xié)同過(guò)濾ItemCF
- Mahout分步式程序開(kāi)發(fā) 聚類Kmeans
- 用Mahout構(gòu)建職位推薦引擎
Sqoop
- Sqoop學(xué)習(xí)路線圖
Cassandra
- Cassandra學(xué)習(xí)路線圖
- Cassandra單集群實(shí)驗(yàn)2個(gè)節(jié)點(diǎn)
- R利劍NoSQL系列文章 之 Cassandra
轉(zhuǎn)載于:https://www.cnblogs.com/llguanli/p/6927243.html
總結(jié)
以上是生活随笔為你收集整理的Hadoop生态系统学习路线的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 2019年春季学期《软件工程》教学总结
- 下一篇: 个性化推荐系统原理介绍(基于内容推荐/协