ORC 文件上的 Spark DataFrame 分区修剪

Spark DataFrame partition pruning on ORC files

我们有一个 DataFrameTransaction Date 列,即 timestamp

当我们将 DF 写成 ORC 文件时,我们在交易日期值 (不是时间戳,只有日期值) 上应用了分区逻辑,我们只创建了一个单独的字段用于在该字段上应用分区。

如果我们再次读取 ORC 文件,并将 where 条件作为交易日期(时间戳)值,它会修剪分区吗?

没有。您需要适当地引用 "separate" 字段。这是有道理的,并且是分区修剪的基本数据库规则。