日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境

發(fā)布時間:2023/11/27 生活经验 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
(running Spark in local mode on single computer)

1.參見本博客前面的文章完成以下準(zhǔn)備工作:
(1)安裝JVM
(2)安裝Scala
(3)安裝Python或者IPython

2.官網(wǎng)下載Spark最新版并解壓
登陸官網(wǎng)
http://spark.apache.org/downloads.html

選擇包類型為"Pre-built for Hadoop 2.4 and later"并下載對應(yīng)的tarball文件spark-1.3.0-bin-hadoop2.4.tgz


解壓下載的文件spark-1.3.0-bin-hadoop2.4.tgz 到指定目錄
cp -f spark-1.3.0-bin-hadoop2.4.tgz? ~/program
tar -xf spark-1.3.0-bin-hadoop2.4.tgz -C ~/program
cd spark-1.3.0-bin-hadoop2.4

ls


由上易見, Spark版本是1.3.0, Hadoop版本是2.4

3.利用Spark自帶的Python shell
使用PySpark shell, 在Spark解壓的源碼路徑下,運(yùn)行
bin/pyspark
在提示符下,依次輸入下面的命令
>>> lines = sc.textFile("README.md")
>>> lines.count()
>>> lines.first()


按Ctrl-D退出shell環(huán)境

4.修改打印日志的級別
經(jīng)過上面的運(yùn)行,發(fā)現(xiàn)shell環(huán)境中打印的日志過多, 為此我需要調(diào)整以下日志的級別.為此,我在
conf目錄下面新建一個文件log4j.properties,它是log4j.properties.template的副本,將其中
下面的行
log4j.rootCategory=INFO, console
改為
log4j.rootCategory=WARN, console


然后重新打開shell,發(fā)現(xiàn)調(diào)試信息少了很多


5.使用IPython或者IPython Notebook
在命令行, 我們可以使用下面的命令來開啟IPython
IPYTHON=1 ./bin/pyspark


使用下面的命令來開啟IPython Notebook

IPYTHON_OPTS="notebook" ./bin/pyspark

這會在默認(rèn)瀏覽器中打開如下頁面

點(diǎn)擊上面的"New Notebook"打開一個新的頁面標(biāo)簽, 在其中輸入如下命令行,并按播放按鈕來執(zhí)行結(jié)果


按Ctrl-D退出shell環(huán)境


6.使用Scala shell測試line count小程序
打開Scala版本的shell,運(yùn)行
bin/spark-shell
scala> val lines = sc.textFile("README.md")
scala> lines.cout()
scala> lines.first()


按Ctrl-D退出shell環(huán)境


7.測試Spark性能
進(jìn)入到Spark的conf目錄下面, 根據(jù)當(dāng)前配置環(huán)境, 復(fù)制并修改spark_env.sh文件
cp -f spark-env.sh.template spark-env.sh
vim spark-env.sh
添加如下內(nèi)容



啟動主服務(wù)器節(jié)點(diǎn)
sbin/start-master.sh

啟動從服務(wù)器節(jié)點(diǎn)

sbin/start-slaves.sh spark://127.0.0.1:7077

關(guān)閉分別使用

sbin/stop-master.sh

sbin/stop-slaves.sh


瀏覽master UI

http://127.0.0.1:8080/


http://127.0.0.1:8081/


運(yùn)行樣例
run-example org.apache.spark.examples.SparkPi local
run-example org.apache.spark.examples.SparkPi spark://127.0.0.1:7077
run-example org.apache.spark.examples.SparkLR spark://127.0.0.1:7077

未解決的問題:

在運(yùn)行樣例時,發(fā)現(xiàn)配置spark ip為127.0.0.1有錯誤, 最好是運(yùn)行在公網(wǎng)上的ip


參考文獻(xiàn)

[1].http://www.linuxidc.com/Linux/2014-06/103210.htm

[2].http://www.it165.net/os/html/201405/8430.html

[3].Learning Spark Lightning Fast Big Data Analysis.pdf

總結(jié)

以上是生活随笔為你收集整理的在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。