【收藏】spark中map与mapPartitions区别
生活随笔
收集整理的這篇文章主要介紹了
【收藏】spark中map与mapPartitions区别
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
兩個函數最終處理得到的結果是一樣的
mapPartitions比較適合需要分批處理數據的情況,比如將數據插入某個表,每批數據只需要開啟一次數據庫連接,大大減少了連接開支,偽代碼如下:
arrayRDD.mapPartitions(datas=>{dbConnect = getDbConnect() //獲取數據庫連接datas.foreach(data=>{dbConnect.insert(data) //循環插入數據})dbConnect.commit() //提交數據庫事務dbConnect.close() //關閉數據庫連接})https://www.cnblogs.com/wbh1000/p/9846527.html
總結
以上是生活随笔為你收集整理的【收藏】spark中map与mapPartitions区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【收藏】Spark之RDD的mapPar
- 下一篇: Scala模拟Spark分布式计算流程示