使用 sc.parallelize() 的 Databricks IO 缓存？

Databricks IO Cache with sc.parallelize()?

databricks

我经历了 https://docs.databricks.com/user-guide/databricks-io-cache.html 但是除了将配置设置设置为启用 DBIO 缓存。

我是否假设如果我启用该设置 spark.conf.set("spark.databricks.io.cache.enabled", "true") 那么在我的 spark 作业中我创建的任何 RDD 基本上都将被视为 DBIO 缓存？如果我想在我的代码中区分并同时拥有这两者怎么办？

DBIO 缓存目前仅适用于 Parquet 数据集。因此，只要您从 Parquet 加载 DataFrame，就可以使用缓存。您可以通过查看 Spark UI 中的 Storage 选项卡来确认，该选项卡将显示您到目前为止缓存了多少。此外，为了更简单，只需使用 i3 实例类型，以便默认启用 DBIO 缓存。