當前位置：首頁 >

RDD缓存学习

發布時間：2025/4/5 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 RDD缓存学习小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

首先實現rdd緩存

準備了500M的數據 10份,每份 100萬條,存在hdfs 中通過sc.textFile方法讀取

val rdd1 = sc.textFile("hdfs://mini1:9000/spark/input/visitlog").cache

在啟動spark集群模式時分配內存2g,第一次分配1g 只緩存了40% 當數據需要的內存大于實際的內存時spark會盡力的緩存

然后調用cache方法

rdd1.count

第二次調用rdd的count方法就顯示出差距了

默認緩存策略是memory_only ??

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

其他的緩存策略

object StorageLevel { //不緩存val NONE = new StorageLevel(false, false, false, false)//只往磁盤中緩存val DISK_ONLY = new StorageLevel(true, false, false, false)//磁盤中緩存兩份val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)//放在內存中val MEMORY_ONLY = new StorageLevel(false, true, false, true)//內存中保存兩份,多個機器報存val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)//報存一份到內存,并且把數據序列化,序列化之后數據占用內存變小,//但是序列化時需要消耗時間,時間換空間val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)// val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)//內存和磁盤都保存val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)//內存和磁盤都保存序列化兩份val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)val OFF_HEAP = new StorageLevel(false, false, true, false)

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的RDD缓存学习的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

缓存
rdd

上一篇：如何在Linux中恢复一个删除了的文件
下一篇：第1阶段——uboot分析之查找命令ru

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

RDD缓存学习

總結