ORC 文件上的 Spark DataFrame 分区修剪

Spark DataFrame partition pruning on ORC files

我们有一个 DataFrame 和 Transaction Date 列，即 timestamp。

当我们将 DF 写成 ORC 文件时，我们在交易日期值 （不是时间戳，只有日期值） 上应用了分区逻辑，我们只创建了一个单独的字段用于在该字段上应用分区。

如果我们再次读取 ORC 文件，并将 where 条件作为交易日期（时间戳）值，它会修剪分区吗？

没有。您需要适当地引用 "separate" 字段。这是有道理的，并且是分区修剪的基本数据库规则。