日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop入门(Hadoop2.7.2源码编译与伪分布安装)

發布時間:2023/12/15 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop入门(Hadoop2.7.2源码编译与伪分布安装) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?Hadoop概述— Hadoop簡介 ?什么是Hadoop 一個開源、高可靠、可擴展 的分布式計算框架? 解決的問題 海量數據的存儲(HDFS) 海量數據的分析(MapReduce) 分布式資源調度(Yarn)? 產生背景 受Google三篇論文的啟發(GFS、MapReduce、BigTable)? 擴容能力 能可靠地存儲和處理千兆字節(PB)數據。? 成本低 可以通過普通機器組成的服務器群來分發以及處理數據。這些服務器群總計可達數千個節點。? 高效率 通過分發數據,Hadoop可以在數據所在的節點上并行地處理它們,這使得處理非常的快速。? 可靠性 Hadoop能自動維護數據的多份副本,并且在任務失敗后能自動重新部署。


Hadoop概述— Hadoop生態圈


? ? ? ?

? ? ? ?


Hadoop概述— Hadoop核心

? Hadoop項目主要包括以下四個模塊? Hadoop Common: 為其他Hadoop模塊提供基礎設施。? Hadoop HDFS: 一個高可靠、高吞吐量的分布式文件系統? Hadoop MapReduce: 一個分布式的離線并行計算框架?Hadoop YARN: 一個新的MapReduce框架,任務調度與資源管理

分布式離線計算框架?—- MapReduce

??Map任務處理

? ? ? ? ①?讀取輸入文件內容,解析成key、value對

? ? ? ? ②?重寫map方法,編寫業務邏輯輸出新的key、value對

? ? ? ? ③?對輸出的key、value進行分區。(Partitioner類)

? ? ? ??④對數據按照key進行排序、分組。相同key的value放到一個集合中。

??Reduce任務處理

? ? ? ? ①對多個map任務的輸出,按照不同的分區,通過網絡copy到不同的reduce節點。

? ? ? ? ②對多個map任務的輸出進行合并、排序。寫reduce函數自己的邏輯,對輸入的key、value處理,轉換成新的key、value輸出。

? ? ? ? ③把reduce的輸出保存到文件中。

Hadoop前置環境安裝?— Linux環境準備

?關閉防火墻(chkconfig iptables off)?禁用SELinux (cd /etc/sysconfig/selinux 設置SELINUX=disable)?修改ip?修改hostname ( vi /etc/sysconfig/network 設置hostname=m1)?ip和主機名的對應(vi /etc/hosts 插入一行:192.168.0.102 m1)?設置ssh自動登錄 ssh配置: 1.生成秘鑰:ssh-keygen -t rsa 2.ssh-copy-id 192.168.0.102 3.測試:ssh 192.168.0.102

Haoop前置環境安裝 — 安裝JDK?

?下載解壓http://download.oracle.com/otn-pub/java/jdk/7u80-b15/jdk-7u80-linux-x64.tar.gz?將java添加到環境變量中 vim /etc/profile #在文件最后添加 export JAVA_HOME /usr/local/program/jdk1.7.0_55 export PATH=$PATH:$JAVA_HOME/bin?刷新配置source /etc/profile


Hadoop前置環境安裝– lrzsz命令

? 安裝linux上傳下載命令:yum install –y lrzsz? 注:如果出現錯誤Error: Cannot find a valid baseurl for repo: base執行如下操作:vi /etc/resolv.conf在此文件最后加入:nameserver 8.8.8.8安裝成功后:執行 rz 命令即可

Hadoop偽分布式安裝?— Hadoop運行模式

? 本地模式 所有Hadoop的守護進程運行在一個JVM中? 偽分布式 所有Hadoop的守護進程各自運行在自己的JVM中(一臺機器)? 集群模式 多臺機器來搭建分布式集群,每個進程運行在獨立的JVM中,并對 Namenode和ResourceManager做Ha配置

編譯hadoop2.7.2源碼

1.上傳所需文件 *Maven 3.0 or later* Findbugs 1.3.9 (if running findbugs)* ProtocolBuffer 2.5.02.解壓maven和findbugs,并配置環境變量3.編譯protocolbuffer?安裝make命令以及一些其他的依賴? 輸入命令: yum -y install autoconf automake libtool cmake ncurses-devel openssl-devel lzo-devel zlib-devel gcc gcc-c++ 4.輸入命令configure5.Make install6.cd hadoop-2.7.2-src 執行命令:mvn package -Pdist,native,docs -DskipTests –Dtar7.編譯需要30min左右

Hadoop偽分布式配置安裝文檔

根據官網文檔安裝:

http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/SingleCluster.html

注意點:

1.core-site.xml中添加配置,修改臨時目錄:

hadoop.tmp.dir = /usr/local/program/hadoop-2.7.2/data/tmp

總結

以上是生活随笔為你收集整理的Hadoop入门(Hadoop2.7.2源码编译与伪分布安装)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。