好程序员大数据教程:SparkShell和IDEA中编写Spark程序
好程序員大數(shù)據(jù)教程:SparkShell和IDEA中編寫Spark程序,spark-shell是Spark自帶的交互式Shell程序,方便用戶進(jìn)行交互式編程,用戶可以在該命令行下用Scala編寫Spark程序。spark-shell程序一般用作Spark程序測(cè)試練習(xí)來用。spark-shell屬于Spark的特殊應(yīng)用程序,我們可以在這個(gè)特殊的應(yīng)用程序中提交應(yīng)用程序
spark-shell啟動(dòng)有兩種模式,local模式和cluster模式,分別為
local模式:
spark-shell
local模式僅在本機(jī)啟動(dòng)一個(gè)SparkSubmit進(jìn)程,沒有與集群建立聯(lián)系,雖然進(jìn)程中有SparkSubmit但是不會(huì)被提交到集群紅
?
Cluster模式(集群模式):
spark-shell \
--master spark://hadoop01:7077 \
--executor-memory 512m \
--total-executor-cores 1
后兩個(gè)命令不是必須的 --master這條命令是必須的(除非在jar包中已經(jīng)指可以不指定,不然就必須指定)
退出shell
千萬不要ctrl+c spark-shell 正確退出 :quit 千萬不要ctrl+c退出 這樣是錯(cuò)誤的 若使用了ctrl+c退出 使用命令查看監(jiān)聽端口 netstat - apn | grep 4040 在使用kill -9 端口號(hào) 殺死即可
3.25.11 spark2.2shell和spark1.6shell對(duì)比
?
ps:啟動(dòng)spark-shell若是集群模式,在webUI會(huì)有一個(gè)一直執(zhí)行的任務(wù)
通過IDEA創(chuàng)建Spark工程
ps:工程創(chuàng)建之前步驟省略,在scala中已經(jīng)講解,直接默認(rèn)是創(chuàng)建好工程的
對(duì)工程中的pom.xml文件配置
<!-- 聲明公有的屬性 -->
<properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<encoding>UTF-8</encoding>
<scala.version>2.11.8</scala.version>
<spark.version>2.2.0</spark.version>
<hadoop.version>2.7.1</hadoop.version>
<scala.compat.version>2.11</scala.compat.version>
</properties>
<dependencies>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>${scala.version}</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>${hadoop.version}</version>
</dependency>
</dependencies>
Spark實(shí)現(xiàn)WordCount程序
Scala版本
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object SparkWordCount {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("dri/wordcount").setMaster("local[*]")
val sc = new SparkContext(conf)
val lines: RDD[String] = sc.textFile(“dir/wordcount”)
val words: RDD[String] = lines.flatMap(_.split(" "))
val tuples: RDD[(String, Int)] = words.map((_,1))
val sumed: RDD[(String, Int)] = tuples.reduceByKey(_+_)
val sorted: RDD[(String, Int)] = sumed.sortBy(_._2,false)
sorted.foreach(println)
sc.stop()
}
}
Java版本
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;
import java.util.Arrays;
import java.util.Iterator;
import java.util.List;
public class JavaWordCount {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setAppName("JavaWordCount").setMaster("local");
JavaSparkContext jsc = new JavaSparkContext(conf);
JavaRDD<String> lines = jsc.textFile("dir/file");
JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
@Override
public Iterator<String> call(String s) throws Exception {
List<String> splited = Arrays.asList(s.split(" "));
return splited.iterator();
}
});
@Override
總結(jié)
以上是生活随笔為你收集整理的好程序员大数据教程:SparkShell和IDEA中编写Spark程序的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java版spring cloud+sp
- 下一篇: 基于静态URL的微信分享自定义缩略图及标