使用 sc.parallelize() 的 Databricks IO 缓存?

Databricks IO Cache with sc.parallelize()?

我经历了 https://docs.databricks.com/user-guide/databricks-io-cache.html 但是除了将配置设置设置为启用 DBIO 缓存。

我是否假设如果我启用该设置 spark.conf.set("spark.databricks.io.cache.enabled", "true") 那么在我的 spark 作业中我创建的任何 RDD 基本上都将被视为 DBIO 缓存?如果我想在我的代码中区分并同时拥有这两者怎么办?

DBIO 缓存目前仅适用于 Parquet 数据集。因此,只要您从 Parquet 加载 DataFrame,就可以使用缓存。您可以通过查看 Spark UI 中的 Storage 选项卡来确认,该选项卡将显示您到目前为止缓存了多少。此外,为了更简单,只需使用 i3 实例类型,以便默认启用 DBIO 缓存。