日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop的介绍

發(fā)布時間:2024/4/13 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop的介绍 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

今日內容

? Hadoop的介紹

? 集群環(huán)境搭建準備工作

? Linux命令和Shell腳本增強

? 集群環(huán)境搭建

大數(shù)據(jù)概述

? 大數(shù)據(jù): 就是對海量數(shù)據(jù)進行分析處理,得到一些有價值的信息,然后幫助企業(yè)做出判斷和決策.

? 處理流程:

? 1:獲取數(shù)據(jù)

? 2:處理數(shù)據(jù)

? 3:展示結果

1:Hadoop介紹

Hadoop是一個分布式系基礎框架,它允許使用簡單的編程模型跨大型計算機的大型數(shù)據(jù)集進行分布式處理.

它主要解決兩個問題

? 大數(shù)據(jù)存儲問題: HDFS

? 大數(shù)據(jù)計算問題:MapReduce

問題一: 大文件怎么存儲?

假設一個文件非常非常大,大小為1PB/a.txt, 大到世界上所有的高級計算機都存儲不下, 怎么辦?

?

  • 為了保存大文件, 需要把文件放在多個機器上

    • 文件要分塊 block(128M)

    • 不同的塊放在不同的 HDFS 節(jié)點

  • 同時為了對外提供統(tǒng)一的訪問, 讓外部可以像是訪問本機一樣訪問分布式文件系統(tǒng)

    • 有一個統(tǒng)一的 HDFS Master

    • 它保存整個系統(tǒng)的文件信息

    • 所有的文件元數(shù)據(jù)的修改都從 Master 開始

問題二: 大數(shù)據(jù)怎么計算?

從一個網(wǎng)絡日志文件中計算獨立 IP, 以及其出現(xiàn)的次數(shù)如果數(shù)據(jù)量特別大,我們可以將,整個任務拆開, 劃分為比較小的任務, 從而進行計算呢。

?

問題三: 如何將這些計算任務跑在集群中?

如果能夠在不同的節(jié)點上并行執(zhí)行, 更有更大的提升, 如何把這些任務跑在集群中?

?

  • 可以設置一個集群的管理者, 這個地方叫做 Yarn

    • 這個集群管理者有一個 Master, 用于接收和分配任務

    • 這個集群管理者有多個 Slave, 用于運行任務

    • ?

Hadoop 的組成

  • Hadoop分布式文件系統(tǒng)(HDFS) 提供對應用程序數(shù)據(jù)的高吞吐量訪問的分布式文件系統(tǒng)

  • Hadoop Common 其他Hadoop模塊所需的Java庫和實用程序。這些庫提供文件系統(tǒng)和操作系統(tǒng)級抽象,并包含啟動Hadoop所需的必要Java文件和腳本

  • Hadoop MapReduce 基于YARN的大型數(shù)據(jù)集并行處理系統(tǒng)

  • Hadoop YARN 作業(yè)調度和集群資源管理的框架

總結

以上是生活随笔為你收集整理的Hadoop的介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。