Hadoop入门(Hadoop2.7.2源码编译与伪分布安装)
生活随笔
收集整理的這篇文章主要介紹了
Hadoop入门(Hadoop2.7.2源码编译与伪分布安装)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
?Hadoop概述— Hadoop簡介 ?什么是Hadoop 一個開源、高可靠、可擴展 的分布式計算框架? 解決的問題 海量數據的存儲(HDFS) 海量數據的分析(MapReduce) 分布式資源調度(Yarn)? 產生背景 受Google三篇論文的啟發(GFS、MapReduce、BigTable)? 擴容能力 能可靠地存儲和處理千兆字節(PB)數據。? 成本低 可以通過普通機器組成的服務器群來分發以及處理數據。這些服務器群總計可達數千個節點。? 高效率 通過分發數據,Hadoop可以在數據所在的節點上并行地處理它們,這使得處理非常的快速。? 可靠性 Hadoop能自動維護數據的多份副本,并且在任務失敗后能自動重新部署。
Hadoop概述— Hadoop生態圈
? ? ? ?
? ? ? ?
Hadoop概述— Hadoop核心
? Hadoop項目主要包括以下四個模塊? Hadoop Common: 為其他Hadoop模塊提供基礎設施。? Hadoop HDFS: 一個高可靠、高吞吐量的分布式文件系統? Hadoop MapReduce: 一個分布式的離線并行計算框架?Hadoop YARN: 一個新的MapReduce框架,任務調度與資源管理
分布式離線計算框架?—- MapReduce
??Map任務處理
? ? ? ? ①?讀取輸入文件內容,解析成key、value對
? ? ? ? ②?重寫map方法,編寫業務邏輯輸出新的key、value對
? ? ? ? ③?對輸出的key、value進行分區。(Partitioner類)
? ? ? ??④對數據按照key進行排序、分組。相同key的value放到一個集合中。
??Reduce任務處理
? ? ? ? ①對多個map任務的輸出,按照不同的分區,通過網絡copy到不同的reduce節點。
? ? ? ? ②對多個map任務的輸出進行合并、排序。寫reduce函數自己的邏輯,對輸入的key、value處理,轉換成新的key、value輸出。
? ? ? ? ③把reduce的輸出保存到文件中。
Hadoop前置環境安裝?— Linux環境準備
?關閉防火墻(chkconfig iptables off)?禁用SELinux (cd /etc/sysconfig/selinux 設置SELINUX=disable)?修改ip?修改hostname ( vi /etc/sysconfig/network 設置hostname=m1)?ip和主機名的對應(vi /etc/hosts 插入一行:192.168.0.102 m1)?設置ssh自動登錄 ssh配置: 1.生成秘鑰:ssh-keygen -t rsa 2.ssh-copy-id 192.168.0.102 3.測試:ssh 192.168.0.102
Haoop前置環境安裝 — 安裝JDK?
?下載解壓http://download.oracle.com/otn-pub/java/jdk/7u80-b15/jdk-7u80-linux-x64.tar.gz?將java添加到環境變量中 vim /etc/profile #在文件最后添加 export JAVA_HOME /usr/local/program/jdk1.7.0_55 export PATH=$PATH:$JAVA_HOME/bin?刷新配置source /etc/profile
Hadoop前置環境安裝– lrzsz命令
? 安裝linux上傳下載命令:yum install –y lrzsz? 注:如果出現錯誤Error: Cannot find a valid baseurl for repo: base執行如下操作:vi /etc/resolv.conf在此文件最后加入:nameserver 8.8.8.8安裝成功后:執行 rz 命令即可
Hadoop偽分布式安裝?— Hadoop運行模式
? 本地模式 所有Hadoop的守護進程運行在一個JVM中? 偽分布式 所有Hadoop的守護進程各自運行在自己的JVM中(一臺機器)? 集群模式 多臺機器來搭建分布式集群,每個進程運行在獨立的JVM中,并對 Namenode和ResourceManager做Ha配置
編譯hadoop2.7.2源碼
1.上傳所需文件 *Maven 3.0 or later* Findbugs 1.3.9 (if running findbugs)* ProtocolBuffer 2.5.02.解壓maven和findbugs,并配置環境變量3.編譯protocolbuffer?安裝make命令以及一些其他的依賴? 輸入命令: yum -y install autoconf automake libtool cmake ncurses-devel openssl-devel lzo-devel zlib-devel gcc gcc-c++ 4.輸入命令configure5.Make install6.cd hadoop-2.7.2-src 執行命令:mvn package -Pdist,native,docs -DskipTests –Dtar7.編譯需要30min左右
Hadoop偽分布式配置安裝文檔
根據官網文檔安裝:
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/SingleCluster.html
注意點:
1.core-site.xml中添加配置,修改臨時目錄:
hadoop.tmp.dir = /usr/local/program/hadoop-2.7.2/data/tmp
總結
以上是生活随笔為你收集整理的Hadoop入门(Hadoop2.7.2源码编译与伪分布安装)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VDI相关的Windows PowerS
- 下一篇: Kafka消息处理与集群维护