我可以过滤镶木地板 table 吗?

Can I filter a parquet table?

我刚刚开始查看 parquet 文件,因为我的一些数据以该格式提供。我以前没有真正玩过它,所以这是我的问题。

我这样打开镶木地板文件:

import pyarrow.parquet as pq

table1 = pq.read_table('mydatafile.parquet')

此文件包含 10 列。现在是否可以直接从这里过滤掉所有行,例如column3 的值为 1?

我的意思是,我可以这样做:

df = table1.to_pandas()
df = df[df["column3"] != 1] 

但是这可以在本地完成,而不先转换为 Pandas 数据框吗?

您可以使用 documentation

中的语法
import pyarrow.parquet as pq

table1 = pq.read_table('mydatafile.parquet', filters = [('column3',  '!=' , 1)])

来源: