加载 table 时从 phoenix 过滤

Filtering from phoenix when loading a table

我想知道这究竟是如何工作的,

df = sqlContext.read \
          .format("org.apache.phoenix.spark") \
          .option("table", "TABLE") \
          .option("zkUrl", "10.0.0.11:2181:/hbase-unsecure") \
          .load()

如果这是加载整个 table,否则它将延迟加载以了解是否应用过滤。

在第一种情况下,如何告诉 phoenix 在加载 spark 数据帧之前过滤 table?

谢谢

在您执行需要它的操作之前,不会加载数据。中间应用的所有过滤器:

df.where($"foo" === "bar").count

如果可能的话,会被Spark压下来。您可以通过 运行 explain()

查看谓词下推的结果