當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境

發(fā)布時(shí)間：2025/3/11 python 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一，安裝jdk1.8.0.144

下載地址：www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html

Ubuntu配置jdk運(yùn)行環(huán)境

export HADOOP_HOME=/usr/local/hadoop export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin $ mkdir /usr/lib/jvm #創(chuàng)建jvm文件夾 $ sudo tar zxvf jdk-7u80-linux-x64.tar.gz -C /usr/lib #/ 解壓到/usr/lib/jvm目錄下 $ cd /usr/lib/jvm #進(jìn)入該目錄 $ mv jdk1.7.0_80 java #重命名為java $ sudo apt-get install vim $ vim ~/.bashrc #給JDK配置環(huán)境變量

~/.bashrc文件末尾添加以下內(nèi)容

export JAVA_HOME=/usr/lib/jvm/java export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH $ source ~/.bashrc #使新配置的環(huán)境變量生效 $ java -version #檢測是否安裝成功，查看java版本

二，配置ssh免密登錄

$ sudo apt-get install openssh-server #安裝SSH server $ ssh localhost #登陸SSH，第一次登陸輸入yes $ exit #退出登錄的ssh localhost $ sudo su $ cd ~/.ssh/ #如果沒法進(jìn)入該目錄，執(zhí)行一次ssh localhost $ ssh-keygen -t rsa　　

輸入完 ?$ ssh-keygen -t rsa　語句以后，需要連續(xù)敲擊三次回車

$ cat ./id_rsa.pub >> ./authorized_keys #加入授權(quán) $ ssh localhost #此時(shí)已不需密碼即可登錄localhost，并可見下圖。如果失敗則可以搜索SSH免密碼登錄來尋求答案

三，安裝hadoop-2.6.5

下載地址：http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz

$ sudo tar -zxvf hadoop-2.6.5.tar.gz -C /usr/local #解壓到/usr/local目錄下 $ cd /usr/local $ sudo mv hadoop-2.6.5 hadoop #重命名為hadoop $ sudo chown -R hadoop ./hadoop #修改文件權(quán)限

~/.bashrc文件末尾添加以下內(nèi)容

同樣，執(zhí)行source ~./bashrc使設(shè)置生效，并輸入“hadoop version”查看hadoop是否安裝成功

往/usr/local/hadoop/etc/hadoop/中的hadoop-env.sh文件加入

export JAVA_HOME=/usr/lib/jvm/java

往/usr/local/hadoop/etc/hadoop/中的core-site.xml文件加入

<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property> </configuration>

往/usr/local/hadoop/etc/hadoop/中的hdfs-site.xml文件加入

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property> </configuration>

在Hadoop的目錄下執(zhí)行

$ ./bin/hdfs namenode -format $ ./sbin/start-dfs.sh $ jps

此時(shí)也有可能出現(xiàn)要求輸入localhost密碼的情況，如果此時(shí)明明輸入的是正確的密碼卻仍無法登入，其原因是由于如果不輸入用戶名的時(shí)候默認(rèn)的是root用戶，但是安全期間ssh服務(wù)默認(rèn)沒有開root用戶的ssh權(quán)限

輸入代碼：

$vim /etc/ssh/sshd_config

檢查PermitRootLogin 后面是否為yes，如果不是，則將該行代碼中PermitRootLogin 后面的內(nèi)容刪除，改為yes，保存。之后輸入下列代碼重啟SSH服務(wù)：

$ /etc/init.d/sshd restart

成功啟動(dòng)后，可以訪問 Web 界面?http://localhost:50070?查看 NameNode 和 Datanode 信息，還可以在線查看 HDFS 中的文件

后續(xù)每次重新啟動(dòng)Hadoop只需以下命令即可

sudo su ssh localhost #連接免密的root cd /usr/local/hadoop #打開Hadoop目錄 ./sbin/start-dfs.sh #啟動(dòng)namenode和datanode進(jìn)程

四，安裝Scala

sudo apt-get install scala

~/.bashrc文件末尾添加以下內(nèi)容，執(zhí)行source ~./bashrc使設(shè)置生效

export SCALA_HOME=/usr/share/scala-2.11

五，安裝Spark

下載地址：https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.6.tgz

tar zxvf spark-2.3.1-bin-hadoop2.7.tgzsudo mkdir /usr/local/sparkmv spark-2.3.1-bin-hadoop2.7/* /usr/local/sparkcd /usr/local/spark/bin./pyspark

在>>>后輸入

lines = sc.textFile("/usr/local/spark/README.md")lines.count() #字?jǐn)?shù)統(tǒng)計(jì)lines.first()

如出現(xiàn)輸出則說明Spark+Python+Hadoop大數(shù)據(jù)開發(fā)環(huán)境已經(jīng)安裝成功

總結(jié)

以上是生活随笔為你收集整理的Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。