对 spark RDD 的不持久操作的成本是多少?

How costly is unpersist operation on spark RDDs?

我想知道,在 spark RDD 上进行rdd.unpersist() 操作的成本是多少?存储级别 设置会影响此操作的性能吗?任何benchmark(results/technique)都会对full很有帮助。

unpersist 从缓存(内存和磁盘)中释放RDD并删除其依赖的shuffle文件。为此,它需要向执行者发送消息。它应该是你可以用 RDD 做的最便宜的操作——可能不值得做基准测试。

另请注意,当垃圾收集 RDD 时,会自动调用 unpersist。所以无论如何你都无法避免这个成本。