ORC 文件上的 Spark DataFrame 分区修剪
Spark DataFrame partition pruning on ORC files
我们有一个 DataFrame
和 Transaction Date
列,即 timestamp
。
当我们将 DF 写成 ORC
文件时,我们在交易日期值 (不是时间戳,只有日期值) 上应用了分区逻辑,我们只创建了一个单独的字段用于在该字段上应用分区。
如果我们再次读取 ORC 文件,并将 where 条件作为交易日期(时间戳)值,它会修剪分区吗?
没有。您需要适当地引用 "separate" 字段。这是有道理的,并且是分区修剪的基本数据库规则。
我们有一个 DataFrame
和 Transaction Date
列,即 timestamp
。
当我们将 DF 写成 ORC
文件时,我们在交易日期值 (不是时间戳,只有日期值) 上应用了分区逻辑,我们只创建了一个单独的字段用于在该字段上应用分区。
如果我们再次读取 ORC 文件,并将 where 条件作为交易日期(时间戳)值,它会修剪分区吗?
没有。您需要适当地引用 "separate" 字段。这是有道理的,并且是分区修剪的基本数据库规则。