对 spark RDD 的不持久操作的成本是多少?
How costly is unpersist operation on spark RDDs?
我想知道,在 spark RDD 上进行rdd.unpersist()
操作的成本是多少?存储级别 设置会影响此操作的性能吗?任何benchmark(results/technique)都会对full很有帮助。
unpersist
从缓存(内存和磁盘)中释放RDD并删除其依赖的shuffle文件。为此,它需要向执行者发送消息。它应该是你可以用 RDD 做的最便宜的操作——可能不值得做基准测试。
另请注意,当垃圾收集 RDD 时,会自动调用 unpersist
。所以无论如何你都无法避免这个成本。
我想知道,在 spark RDD 上进行rdd.unpersist()
操作的成本是多少?存储级别 设置会影响此操作的性能吗?任何benchmark(results/technique)都会对full很有帮助。
unpersist
从缓存(内存和磁盘)中释放RDD并删除其依赖的shuffle文件。为此,它需要向执行者发送消息。它应该是你可以用 RDD 做的最便宜的操作——可能不值得做基准测试。
另请注意,当垃圾收集 RDD 时,会自动调用 unpersist
。所以无论如何你都无法避免这个成本。