在 Java 中使用 dataset.persisit() 和 dataset.unpersist()

Using dataset.persisit() and dataset.unpersist() in Java

我有一个 Spark 数据集 dataset。 我需要为数据集的每一列做 .collectAsList()。 如何使用 .persist().unpersist() 来避免大量的操作时间?

由于我是新手,所以我不确定如何使用持久化功能。 我是否需要将其分配给数据集,如 dataset=dataset.persist(); 或仅 dataset.persist() 即可?

如果你只想缓存数据集,那么使用dataset.persist()。同样,dataset.unpersist() 从内存中删除它的所有块。