日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

spark RDD创建方式:parallelize,makeRDD,textFile

發(fā)布時(shí)間:2024/1/17 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 spark RDD创建方式:parallelize,makeRDD,textFile 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

parallelize

調(diào)用SparkContext 的 parallelize(),將一個(gè)存在的集合,變成一個(gè)RDD,這種方式試用于學(xué)習(xí)spark和做一些spark的測試

scala版本

?

1

def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T]

- 第一個(gè)參數(shù)一是一個(gè) Seq集合

- 第二個(gè)參數(shù)是分區(qū)數(shù)

- 返回的是RDD[T]

?

1

2

3

scala> sc.parallelize(List("shenzhen", "is a beautiful city"))

?

res1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[1] at parallelize at :22

java版本

?

1

def parallelize[T](list : java.util.List[T], numSlices : scala.Int) : org.apache.spark.api.java.JavaRDD[T] = { /* compiled code */ }

- 第一個(gè)參數(shù)是一個(gè)List集合

- 第二個(gè)參數(shù)是一個(gè)分區(qū),可以默認(rèn)

- 返回的是一個(gè)JavaRDD[T]

java版本只能接收List的集合

?

1

JavaRDD javaStringRDD = sc.parallelize(Arrays.asList("shenzhen", "is a beautiful city"));

makeRDD

只有scala版本的才有makeRDD

?

1

def makeRDD[T](seq : scala.Seq[T], numSlices : scala.Int = { /* compiled code */ })

跟parallelize類似

?

1

sc.makeRDD(List("shenzhen", "is a beautiful city"))

textFile

調(diào)用SparkContext.textFile()方法,從外部存儲中讀取數(shù)據(jù)來創(chuàng)建 RDD

例如在我本地F:\dataexample\wordcount\input下有個(gè)sample.txt文件,文件隨便寫了點(diǎn)內(nèi)容,我需要將里面的內(nèi)容讀取出來創(chuàng)建RDD

scala版本

?

1

var lines = sc.textFile("F:\\dataexample\\wordcount\\input")

java版本

?

1

JavaRDD lines = sc.textFile("F:\\dataexample\\wordcount\\input");

?

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的spark RDD创建方式:parallelize,makeRDD,textFile的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。