【收藏】spark中map与mapPartitions区别
生活随笔
收集整理的這篇文章主要介紹了
【收藏】spark中map与mapPartitions区别
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
兩個函數(shù)最終處理得到的結(jié)果是一樣的
mapPartitions比較適合需要分批處理數(shù)據(jù)的情況,比如將數(shù)據(jù)插入某個表,每批數(shù)據(jù)只需要開啟一次數(shù)據(jù)庫連接,大大減少了連接開支,偽代碼如下:
arrayRDD.mapPartitions(datas=>{dbConnect = getDbConnect() //獲取數(shù)據(jù)庫連接datas.foreach(data=>{dbConnect.insert(data) //循環(huán)插入數(shù)據(jù)})dbConnect.commit() //提交數(shù)據(jù)庫事務(wù)dbConnect.close() //關(guān)閉數(shù)據(jù)庫連接})https://www.cnblogs.com/wbh1000/p/9846527.html
總結(jié)
以上是生活随笔為你收集整理的【收藏】spark中map与mapPartitions区别的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【收藏】Spark之RDD的mapPar
- 下一篇: Scala模拟Spark分布式计算流程示