spark常用RDD算子 汇总(java和scala版本)
github:?https://github.com/zhaikaishun/spark_tutorial?
spark RDD的算子挺多,有時候如何靈活的使用,該如何用一下子想不起來,這一段時間將spark的算子如何使用的例子給記錄了下來,下面是spark RDD 的一些常用算子的使用?
這些算子包括有java的,也有scala的語言,由于精力有限,暫時沒有python的,以后有空再加上吧?
spark RDD算子(一) parallelize,makeRDD,textFile
spark RDD算子(二) filter,map ,flatMap
spark RDD算子(三) distinct,union,intersection,subtract,cartesian
spark RDD算子(四)之創建鍵值對RDD mapToPair flatMapToPair
spark RDD算子(五)之鍵值對聚合操作 combineByKey
spark RDD算子(六)之鍵值對聚合操作reduceByKey,foldByKey,排序操作sortByKey
spark RDD算子(七)之鍵值對分組操作 groupByKey,cogroup
spark RDD算子(八)之鍵值對關聯操作 subtractByKey, join, rightOuterJoin, leftOuterJoin
spark RDD算子(九)之基本的Action操作 first, take, collect, count, countByValue, reduce, aggregate, fold,top
spark RDD算子(十)之PairRDD的Action操作countByKey, collectAsMap
spark RDD算子(十一)之RDD Action 保存操作saveAsTextFile,saveAsSequenceFile,saveAsObjectFile,saveAsHadoopFile 等
spark RDD算子(十二)之RDD 分區操作上mapPartitions, mapPartitionsWithIndex
spark RDD算子(十三)之RDD 分區 HashPartitioner,RangePartitioner,自定義分區
總結
以上是生活随笔為你收集整理的spark常用RDD算子 汇总(java和scala版本)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spark和HSQL的连接join方式
- 下一篇: Spark笔记:RDD基本操作(下)