日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据分析之Hadoop

發布時間:2025/4/5 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据分析之Hadoop 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一、目標:

1.完成Hadoop的部署和配置
2.正常啟動/關閉Hadoop集群,并完成基準測試
3.理解分布式文件系統的設計思想
4.熟練操作Hadoop集群

二、Hadoop的安裝與部署

一、切換到root用戶:su - root
二、關閉selinux:
vim /etc/selinux/config
SELINUX=disabled

1.將軟件包上傳到node100(Windows使用xftp上傳,Mac使用scp命令上傳)

2.配置免密登錄
cd 進入hadoop用戶的家目錄
ssh-keygen -t rsa [輸入完后連按4個回車]
ssh node100 [yes,輸入hadoop用戶的密碼]
ssh-copy-id node100 [輸入hadoop用戶的密碼]

3.解壓軟件包到/opt/module
cd
tar -zxvf ./jdk-8u181-linux-x64.tar.gz -C /opt/module/
tar -zxvf ./hadoop-2.7.3.tar.gz -C /opt/module/
tar -zxvf ./apache-hive-3.1.1-bin.tar.gz -C /opt/module/

4.編輯環境變量:vim ~/.bash_profile
在文件末尾添加
JAVA_HOME=/opt/module/jdk1.8.0_181
HADOOP_HOME=/opt/module/hadoop-2.7.3
HIVE_HOME=/opt/module/apache-hive-3.1.1-bin
PATH=PATH:PATH:PATH:HOME/bin:JAVAHOME/bin:JAVA_HOME/bin:JAVAH?OME/bin:HADOOP_HOME/bin:HADOOPHOME/sbin:HADOOP_HOME/sbin:HADOOPH?OME/sbin:HIVE_HOME/bin

export JAVA_HOME
export HADOOP_HOME
export HIVE_HOME
export PATH

5.重新加載環境變量
source ~/.bash_profile
java -version
hadoop version

6.修改Hadoop的配置文件:cd /opt/module/hadoop-2.7.3/etc/hadoop

1.vim ./hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_181
2.vim ./mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_181
3.vim ./yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_181
4.vim ./core-site.xml

<!-- 指定HDFS中NameNode的地址 --><property><name>fs.defaultFS</name><value>hdfs://node100:9000</value></property><!-- 指定Hadoop運行時產生文件的存儲目錄 --><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoopdata</value></property>

5.vim ./hdfs-site.xml

<!-- 指定HDFS副本的數量 --><property><name>dfs.replication</name><value>1</value></property><!-- 指定Hadoop輔助名稱節點主機配置 --><property><name>dfs.namenode.secondary.http-address</name><value>node100:50090</value></property>

6.cp ./mapred-site.xml.template ./mapred-site.xml
vim ./mapred-site.xml

<!-- 指定MR運行在yarn上 --> <property><name>mapreduce.framework.name</name><value>yarn</value> </property>

7.vim ./yarn-site.xml

<!-- Reducer獲取數據的方式 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定YARN的ResourceManager的地址 --><property><name>yarn.resourcemanager.hostname</name><value>node100</value></property><!-- 關閉虛擬內存檢查 --><property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value></property>

8.vim ./slaves
node100

三、Hadoop基本測試

1.格式化Hadoop集群
在node100這臺機器上執行:hdfs namenode -format

2.啟動/關閉Hadoop集群
在node100這臺機器上執行:start-all.sh
在node100這臺機器上執行:stop-all.sh

3.驗證啟動頁面
192.168.5.100:50070
192.168.5.100:8088

4.Hadoop的Wordcount
1.vim word.txt
hello python
hello java
hello scala
hello world
welcome to beijing

2.wordcount測試
hadoop fs -mkdir /test
hadoop fs -put ./word.txt /test
hadoop jar /opt/module/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /test/word.txt /output
hadoop fs -cat /output/part-r-00000

5.hive的安裝和基本操作
hive --version
在hdfs上創建hive數據存放目錄
hadoop fs -mkdir /tmp
hadoop fs -mkdir -p /user/hive/warehouse
hadoop fs -chmod g+w /tmp
hadoop fs -chmod g+w /user/hive/warehouse
在hive的軟件目錄下執行初始化命令
bin/schematool -dbType derby -initSchema
初始化成功后就會在hive的安裝目錄下生成derby.log日志文件和metastore_db元數據庫
注意:離開hadoop安全模式 hadoop dfsadmin -safemode leave

MapReduce是一種傳統的面向批量任務的處理框架。像Tez這樣的新處理引擎越來越傾向于近實時的查詢訪問。隨著Yarn的出現,HDFS正日益成為一個多租戶環境,允許很多數據訪問模式,例如批量訪問、實時訪問和交互訪問。

四、Hadoop概述

1.Hadoop生態圈
2.Hadoop的組成
Hadoop由三個模塊組成:分布式存儲HDFS、分布式計算MapReduce、資源調度引擎Yarn

3.HDFS:塊級別的分布式文件存儲系統
1)NameNode(nn):存儲文件的元數據,如文件名,文件目錄結構,文件屬性(生成時間、副本數、文件權限),以及每個文件的塊列表和塊所在的DataNode等;
2)DataNode(dn):在本地文件系統存儲文件塊數據,以及塊數據的校驗和
3)Secondary NameNode(2nn):用來監控HDFS狀態的輔助后臺程序,每隔一段時間獲取HDFS元數據的塊照。

4.MapReduce:分布式計算框架
1)MapReduce是采用一種分而治之的思想設計出來的分布式計算框架;
2)如一復雜的計算任務,單臺服務器無法勝任時,可將此大任務切分成一個個小的任務,小任務分別在不同的服務器上并行的執行;最終在匯總每個小任務的結果;
3)MapReduce由兩個階段組成:Map階段(切分成一個個小的任務)、Reduce階段(匯總小任務的結果)

5.Yarn:分布式資源管理器

五、Hadoop的shell操作

1.啟動/關閉Hadoop集群
在主節點上:start-all.sh/stop-all.sh
2.查看HDFS的文件和目錄
Hadoop fs -ls -R /
3.在HDFS上創建文件夾
Hadoop fs -mkdir -p /test/wuyilaodongjie
4.上傳文件
Hadoop fs -put source(本地文件路徑) dest(HDFS路徑)
5.下載文件
Hadoop fs -get source(HDFS路徑)dest(本地文件路徑)
6.刪除文件
Hadoop fs -rm HDFS文件路徑 Hadoop fs -rm -r HDFS目錄路徑
7.查看文件內容
hadoop fs -cat HDFS文件路徑
8.查看集群的工作狀態
hdfs dfsadmin -report

六、虛擬機的基本配置

首先,切換到root用戶
su - root

1.關閉防火墻和禁止防火墻自啟動
systemctl stop firewalld.service
systemctl disable firewalld.service

2.配置時間自動同步:crontab -e
*/5 * * * * /usr/sbin/ntpdate ntp1.aliyun.com

3.修改/etc/hosts文件:vim /etc/hosts
192.168.5.100 node100
192.168.5.101 node101
192.168.5.102 node102

4.在/opt下創建module目錄,并修改它的所有者和所屬組為hadoop
cd /opt
mkdir module
chgrp hadoop module
chown hadoop module

5.配置ip地址:vim /etc/sysconfig/network-scripts/ifcfg-ens33
第四行修改為BOOTPROTO=“static”

6.重啟網卡:systemctl restart network

總結

以上是生活随笔為你收集整理的大数据分析之Hadoop的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。