日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境

發布時間:2025/3/11 56 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?

一,安裝jdk1.8.0.144

下載地址:www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html

Ubuntu配置jdk運行環境

export HADOOP_HOME=/usr/local/hadoop export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin $ mkdir /usr/lib/jvm #創建jvm文件夾 $ sudo tar zxvf jdk-7u80-linux-x64.tar.gz -C /usr/lib #/ 解壓到/usr/lib/jvm目錄下 $ cd /usr/lib/jvm #進入該目錄 $ mv jdk1.7.0_80 java #重命名為java $ sudo apt-get install vim $ vim ~/.bashrc #給JDK配置環境變量

~/.bashrc文件末尾添加以下內容

export JAVA_HOME=/usr/lib/jvm/java export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH $ source ~/.bashrc #使新配置的環境變量生效 $ java -version #檢測是否安裝成功,查看java版本

二,配置ssh免密登錄

$ sudo apt-get install openssh-server #安裝SSH server $ ssh localhost #登陸SSH,第一次登陸輸入yes $ exit #退出登錄的ssh localhost $ sudo su $ cd ~/.ssh/ #如果沒法進入該目錄,執行一次ssh localhost $ ssh-keygen -t rsa  

輸入完 ?$ ssh-keygen -t rsa 語句以后,需要連續敲擊三次回車

$ cat ./id_rsa.pub >> ./authorized_keys #加入授權 $ ssh localhost #此時已不需密碼即可登錄localhost,并可見下圖。如果失敗則可以搜索SSH免密碼登錄來尋求答案

三,安裝hadoop-2.6.5

下載地址:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz

$ sudo tar -zxvf hadoop-2.6.5.tar.gz -C /usr/local #解壓到/usr/local目錄下 $ cd /usr/local $ sudo mv hadoop-2.6.5 hadoop #重命名為hadoop $ sudo chown -R hadoop ./hadoop #修改文件權限

~/.bashrc文件末尾添加以下內容

export HADOOP_HOME=/usr/local/hadoop export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

同樣,執行source ~./bashrc使設置生效,并輸入“hadoop version”查看hadoop是否安裝成功

往/usr/local/hadoop/etc/hadoop/中的hadoop-env.sh文件加入

export JAVA_HOME=/usr/lib/jvm/java

往/usr/local/hadoop/etc/hadoop/中的core-site.xml文件加入

<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property> </configuration>

往/usr/local/hadoop/etc/hadoop/中的hdfs-site.xml文件加入

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property> </configuration>

在Hadoop的目錄下執行

$ ./bin/hdfs namenode -format $ ./sbin/start-dfs.sh $ jps

此時也有可能出現要求輸入localhost密碼的情況 ,如果此時明明輸入的是正確的密碼卻仍無法登入,其原因是由于如果不輸入用戶名的時候默認的是root用戶,但是安全期間ssh服務默認沒有開root用戶的ssh權限

輸入代碼:

$vim /etc/ssh/sshd_config

檢查PermitRootLogin 后面是否為yes,如果不是,則將該行代碼 中PermitRootLogin 后面的內容刪除,改為yes,保存。之后輸入下列代碼重啟SSH服務:

$ /etc/init.d/sshd restart

成功啟動后,可以訪問 Web 界面?http://localhost:50070?查看 NameNode 和 Datanode 信息,還可以在線查看 HDFS 中的文件

后續每次重新啟動Hadoop只需以下命令即可

sudo su ssh localhost #連接免密的root cd /usr/local/hadoop #打開Hadoop目錄 ./sbin/start-dfs.sh #啟動namenode和datanode進程

四,安裝Scala

sudo apt-get install scala

~/.bashrc文件末尾添加以下內容,執行source ~./bashrc使設置生效

export SCALA_HOME=/usr/share/scala-2.11

五,安裝Spark

下載地址:https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.6.tgz

tar zxvf spark-2.3.1-bin-hadoop2.7.tgzsudo mkdir /usr/local/sparkmv spark-2.3.1-bin-hadoop2.7/* /usr/local/sparkcd /usr/local/spark/bin./pyspark

在>>>后輸入

lines = sc.textFile("/usr/local/spark/README.md")lines.count() #字數統計lines.first()

如出現輸出則說明Spark+Python+Hadoop大數據開發環境已經安裝成功

?

總結

以上是生活随笔為你收集整理的Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。