学习Spark——那些让你精疲力尽的坑
這一個月我都干了些什么……
工作上,還是一如既往的寫bug并不亦樂乎的修bug。學習上,最近看了一些非專業(yè)書籍,時常在公眾號(JackieZheng)上寫點小感悟,我剛稍稍瞄了下,最近五篇居然都跟技術無關,看來我與本行業(yè)已經(jīng)是漸行漸遠了。
所以,趁著這篇博客,重拾自己,認清自己,要時刻謹記我是一名碼農(nóng)。不過,摸著良心說,最近的技術方面也是有所感悟和積累的,比如如何寫好設計文檔,如何使用延時隊列,如何使用防刷技術等等。當然了,今天我們還是沿著“學習Spark”這條路繼續(xù)走下去。
上篇主要介紹了在Mac下如何下載安裝Hadoop、Scala和Spark并成功啟動環(huán)境。文章結尾慶幸沒有遇到大坑,事實證明不是沒有遇到,只是時間還沒到,這篇就介紹下自己遇到的各種坑。我不知道各位是否遇到過并能輕松解決,反正我是被這些小問題搞得精疲力盡,故在此總結以備忘。
1.1 Scala與Intellij集成報錯
在Scala安裝成功后,準備到Intellij上寫Scala代碼,發(fā)現(xiàn)Scala都配好了(關于如何配置,網(wǎng)上資料很多),結果運行Scala程序時報錯。
錯誤:Error:scalac: Multiple 'scala-library*.jar' files (scala-library.jar, scala-library.jar, scala-library.jar) in Scala compiler classpath in Scala SDK scala-sdk-2.12.2
解決方法:在OverStackflow上找到了思路。在Intellij中打開project structure,刪除已有的Scala的路徑(我的Scala是安裝在/usr/local/Cellar/scala/2.12.2路徑下的),重新添加/usr/local/Cellar/scala/2.12.2/idea/lib目錄即可。
改動前
改動后
1.2 Scala語法Intellij不認
在Intellij中寫了一個Scala的HelloWorld,代碼如下
/*** Created by jackie on 17/5/7.*/ package com.jackie.scala.s510object HelloWorld {def main(args: Array[String]): Unit = {println("hello world")println(increaseAnother(5));println(Array(1,2,3,4).map{(x:Int)=>x+1}.mkString(","));println(Array(1,2,3,4) map{(x:Int)=>x+1} mkString(","));println(Array(1,2,3,4) map{(x:Int)=>x+1} mkString(","));// test objectvar person = new Person()person.name_=("john") // name_=()對應java中的setter方法println("Person name:" + person.name)person.name = "Jackie"println("Person name:" + person.name)var mp = new MyPerson()mp.name_("alihaha")println("MyPerson name:" + person.name)var pwp = new PersonWithParam("Jackie", 18)println("PersonWithParam:" + pwp.toString())}def increaseAnother(x: Int): Int = x + 1}運行的時候,報錯mkString無法識別。
錯誤:mkString can't be resolved
解決方法:需要交代下我各個環(huán)境的版本參數(shù),Intellij-14.0, jdk-8, scala-2.12.2。但是在Intellij中能選擇的Scala最高版本只有2.11,所有后來將Intellij升級到2017.1版本,這時候還報錯Error:scalac: Error: org.jetbrains.jps.incremental.scala.remote.ServerException,然后在Intellij中打開project structure,將scala由2.12.2換成2.11.7,問題解決。
1.3 Spark與Intellij集成的問題
Spark環(huán)境都安裝好了,所以想在Intellij中運行Spark程序,但是在添加了Spark的相關依賴后,發(fā)現(xiàn)無法編譯通過。
錯誤:Exception NoSuchMethodError: com.google.common.collect.MapMaker.keyEquivalence
解決方法:實現(xiàn)聲明,之前在maven中一直引用的都是spark-core2.10,這時候報錯,我定位問題出在Guava上,然后找到所有間接依賴了Guava的jar,都exclude,問題還是沒有解決。期間添加了Spark的很多依賴,試了都不行,最后試了下Spark-core2.11,問題解決(有的時候版本的兼容性真的很坑)。
1.4 hadoop上傳本地文件到HDFS
如果想將本地文件上傳到HDFS,使用hadoop fs -put localDir hdfsDir,前提是保證hadoop啟動。
錯誤:
解決方法:進入hadoop安裝目錄(我的是/usr/local/Cellar/hadoop)進入sbin下執(zhí)行./start-all.sh啟動hadoop服務。
1.5 Spark啟動
上篇在配置Spark時沒有配置spark-defaults.conf文件,所以在Spark安裝目錄下(我的是/usr/local/Spark)啟動./start-all.sh出錯。
錯誤:
解決方法:將Spark安裝目錄下的conf中的spark-defaults.conf.template拷貝一份出來,重命名為spark-defaults.conf,按照https://sanwen8.cn/p/3bac5Bj.html配置好,再啟動Spark,發(fā)現(xiàn)還是報錯
https://sanwen8.cn/p/3bac5Bj.html Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). 17/05/13 14:19:12 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 17/05/13 14:19:15 ERROR SparkContext: Error initializing SparkContext. java.net.ConnectException: Call From jackies-MacBook-Pro.local/192.168.73.56 to 192.168.73.56:8021 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefusedat sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)于是按照StackOverflow,將spark-defaults.conf中的spark.eventLog.enabled由true改為false,之后再啟動成功。
注意:這里我反復配置了localhost和自己的ip,來回切換,最終證明只要在/etc/hosts中配置好ip對應映射的名稱,可以直接用名稱即可,不用寫ip,而且要保持hadoop中的配置文件和spark中的配置文件要一致,否則針對會精疲力盡。
1.6 將運算任務交給Spark運行的報錯
運行下面的一個Demo程序
package com.jackie.scala.s513;import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFunction; import scala.Tuple2;import java.util.Arrays; import java.util.Iterator; import java.util.List; import java.util.regex.Pattern;/*** Created by jackie on 17/5/13.*/ public class Simple {private static final Pattern SPACE = Pattern.compile(" ");public static void main(String[] args) throws Exception {//創(chuàng)建一個RDD對象SparkConf conf=new SparkConf().setAppName("Simple").setMaster("local");//創(chuàng)建spark上下文對象,是數(shù)據(jù)的入口JavaSparkContext spark=new JavaSparkContext(conf);//獲取數(shù)據(jù)源JavaRDD<String> lines = spark.textFile("hdfs://jackie:8020/");/*** 對于從數(shù)據(jù)源得到的DStream,用戶可以在其基礎上進行各種操作,* 對于當前時間窗口內(nèi)從數(shù)據(jù)源得到的數(shù)據(jù)首先進行分割,* 然后利用Map和ReduceByKey方法進行計算,當然最后還有使用print()方法輸出結果;*/JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {@Overridepublic Iterator<String> call(String s) {return Arrays.asList(SPACE.split(s)).iterator();}});//使用RDD的map和reduce方法進行計算JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {@Overridepublic Tuple2<String, Integer> call(String s) {return new Tuple2<String, Integer>(s, 1);}});JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {@Overridepublic Integer call(Integer i1, Integer i2) {return i1 + i2;}});List<Tuple2<String, Integer>> output = counts.collect();for (Tuple2<?,?> tuple : output) {//輸出計算結果System.out.println(tuple._1() + ": " + tuple._2());}spark.stop();} }這個程序需要讀取HDFS上根目錄下的README.md文件,但是在此之前我執(zhí)行了"hadoop namenode -format"(注意,這個操作引起了后面的一系列問題)。所以就準備重新使用hadoop fs -put localDir hdfsDir上傳README.md,結果這時候報錯
錯誤:
后來發(fā)現(xiàn)是datanode沒有啟動,然后開始找datanode沒有啟動的原因,在這里http://www.aboutyun.com/thread-7931-1-1.html
文中解釋:當我們執(zhí)行文件系統(tǒng)格式化時,會在namenode數(shù)據(jù)文件夾(即配置文件中dfs.name.dir在本地系統(tǒng)的路徑)中保存一個current/VERSION文件,記錄namespaceID,標識了所格式化的 namenode的版本。如果我們頻繁的格式化namenode,那么datanode中保存(即配置文件中dfs.data.dir在本地系統(tǒng)的路徑)的current/VERSION文件只是你第一次格式化時保存的namenode的ID,因此就會造成datanode與namenode之間的id不一致。
解決方法:采取的做法是根據(jù)執(zhí)行hadoop namenode –format得到成功的提示。
這時候再執(zhí)行jps命令,我們就可以看到datanode了
類似的,同樣是在執(zhí)行hadoop fs -put /Users/jackie/Documents/doc/README.md /是報錯如下
hadoop fs -put /Users/jackie/Documents/doc/README.md / 17/05/15 09:51:04 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 17/05/15 09:51:05 WARN ipc.Client: Failed to connect to server: jackie/192.168.73.56:8020: try once and fail. java.net.ConnectException: Connection refusedat sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206)at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531)at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:495)at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:681)at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:777)at org.apache.hadoop.ipc.Client$Connection.access$3500(Client.java:409)一開始以為是ip的配置問題,但是反復修改無果,后來發(fā)現(xiàn)使用jps時,沒有啟動namenode,于是在網(wǎng)上找http://blog.csdn.net/bychjzh/article/details/7830508
于是在/usr/local/Cellar/hadoop/hdfs下刪除原來在core-site.xml中配置的tmp目錄,然后新建了hadoop_tmp目錄,并在core-site.xml中修改成
并執(zhí)行hadoop namenode –format,最后在使用start-all.sh啟動所有的服務,執(zhí)行上傳文件成功
如果您覺得閱讀本文對您有幫助,請點一下“推薦”按鈕,您的“推薦”將是我最大的寫作動力!如果您想持續(xù)關注我的文章,請掃描二維碼,關注JackieZheng的微信公眾號,我會將我的文章推送給您,并和您一起分享我日常閱讀過的優(yōu)質(zhì)文章。
轉(zhuǎn)載于:https://www.cnblogs.com/bigdataZJ/p/hellospark2.html
總結
以上是生活随笔為你收集整理的学习Spark——那些让你精疲力尽的坑的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Selenium Web 自动化 - 项
- 下一篇: elk系列5之syslog的模块使用