當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop的介绍

發(fā)布時間：2024/4/13 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop的介绍小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

今日內容

? Hadoop的介紹

? 集群環(huán)境搭建準備工作

? Linux命令和Shell腳本增強

? 集群環(huán)境搭建

? 大數(shù)據(jù): 就是對海量數(shù)據(jù)進行分析處理，得到一些有價值的信息，然后幫助企業(yè)做出判斷和決策.

? 處理流程:

? 1:獲取數(shù)據(jù)

? 2:處理數(shù)據(jù)

? 3:展示結果

Hadoop是一個分布式系基礎框架,它允許使用簡單的編程模型跨大型計算機的大型數(shù)據(jù)集進行分布式處理.

它主要解決兩個問題

? 大數(shù)據(jù)存儲問題： HDFS

? 大數(shù)據(jù)計算問題：MapReduce

問題一: 大文件怎么存儲?

假設一個文件非常非常大，大小為1PB/a.txt, 大到世界上所有的高級計算機都存儲不下, 怎么辦?

為了保存大文件, 需要把文件放在多個機器上
- 文件要分塊 block(128M)
- 不同的塊放在不同的 HDFS 節(jié)點
同時為了對外提供統(tǒng)一的訪問, 讓外部可以像是訪問本機一樣訪問分布式文件系統(tǒng)
- 有一個統(tǒng)一的 HDFS Master
- 它保存整個系統(tǒng)的文件信息
- 所有的文件元數(shù)據(jù)的修改都從 Master 開始

問題二: 大數(shù)據(jù)怎么計算?

從一個網(wǎng)絡日志文件中計算獨立 IP, 以及其出現(xiàn)的次數(shù)如果數(shù)據(jù)量特別大，我們可以將,整個任務拆開, 劃分為比較小的任務, 從而進行計算呢。

問題三: 如何將這些計算任務跑在集群中?

如果能夠在不同的節(jié)點上并行執(zhí)行, 更有更大的提升, 如何把這些任務跑在集群中?

可以設置一個集群的管理者, 這個地方叫做 Yarn
- 這個集群管理者有一個 Master, 用于接收和分配任務
- 這個集群管理者有多個 Slave, 用于運行任務
- ?

Hadoop 的組成

Hadoop Common 其他Hadoop模塊所需的Java庫和實用程序。這些庫提供文件系統(tǒng)和操作系統(tǒng)級抽象，并包含啟動Hadoop所需的必要Java文件和腳本
Hadoop MapReduce 基于YARN的大型數(shù)據(jù)集并行處理系統(tǒng)
Hadoop YARN 作業(yè)調度和集群資源管理的框架

以上是生活随笔為你收集整理的Hadoop的介绍的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯，歡迎將生活随笔推薦給好友。