Hadoop的介绍
今日內容
? Hadoop的介紹
? 集群環(huán)境搭建準備工作
? Linux命令和Shell腳本增強
? 集群環(huán)境搭建
大數(shù)據(jù)概述
? 大數(shù)據(jù): 就是對海量數(shù)據(jù)進行分析處理,得到一些有價值的信息,然后幫助企業(yè)做出判斷和決策.
? 處理流程:
? 1:獲取數(shù)據(jù)
? 2:處理數(shù)據(jù)
? 3:展示結果
1:Hadoop介紹
Hadoop是一個分布式系基礎框架,它允許使用簡單的編程模型跨大型計算機的大型數(shù)據(jù)集進行分布式處理.
它主要解決兩個問題
? 大數(shù)據(jù)存儲問題: HDFS
? 大數(shù)據(jù)計算問題:MapReduce
問題一: 大文件怎么存儲?
假設一個文件非常非常大,大小為1PB/a.txt, 大到世界上所有的高級計算機都存儲不下, 怎么辦?
?
-
為了保存大文件, 需要把文件放在多個機器上
-
文件要分塊 block(128M)
-
不同的塊放在不同的 HDFS 節(jié)點
-
-
同時為了對外提供統(tǒng)一的訪問, 讓外部可以像是訪問本機一樣訪問分布式文件系統(tǒng)
-
有一個統(tǒng)一的 HDFS Master
-
它保存整個系統(tǒng)的文件信息
-
所有的文件元數(shù)據(jù)的修改都從 Master 開始
-
問題二: 大數(shù)據(jù)怎么計算?
從一個網(wǎng)絡日志文件中計算獨立 IP, 以及其出現(xiàn)的次數(shù)如果數(shù)據(jù)量特別大,我們可以將,整個任務拆開, 劃分為比較小的任務, 從而進行計算呢。
?
問題三: 如何將這些計算任務跑在集群中?
如果能夠在不同的節(jié)點上并行執(zhí)行, 更有更大的提升, 如何把這些任務跑在集群中?
?
-
可以設置一個集群的管理者, 這個地方叫做 Yarn
-
這個集群管理者有一個 Master, 用于接收和分配任務
-
這個集群管理者有多個 Slave, 用于運行任務
-
-
-
?
-
Hadoop 的組成
-
Hadoop分布式文件系統(tǒng)(HDFS) 提供對應用程序數(shù)據(jù)的高吞吐量訪問的分布式文件系統(tǒng)
-
Hadoop Common 其他Hadoop模塊所需的Java庫和實用程序。這些庫提供文件系統(tǒng)和操作系統(tǒng)級抽象,并包含啟動Hadoop所需的必要Java文件和腳本
-
Hadoop MapReduce 基于YARN的大型數(shù)據(jù)集并行處理系統(tǒng)
-
Hadoop YARN 作業(yè)調度和集群資源管理的框架
總結
- 上一篇: spring5新特性的介绍
- 下一篇: Zookeeper的概述