我可以过滤镶木地板 table 吗?
Can I filter a parquet table?
我刚刚开始查看 parquet 文件,因为我的一些数据以该格式提供。我以前没有真正玩过它,所以这是我的问题。
我这样打开镶木地板文件:
import pyarrow.parquet as pq
table1 = pq.read_table('mydatafile.parquet')
此文件包含 10 列。现在是否可以直接从这里过滤掉所有行,例如column3 的值为 1?
我的意思是,我可以这样做:
df = table1.to_pandas()
df = df[df["column3"] != 1]
但是这可以在本地完成,而不先转换为 Pandas 数据框吗?
您可以使用 documentation
中的语法
import pyarrow.parquet as pq
table1 = pq.read_table('mydatafile.parquet', filters = [('column3', '!=' , 1)])
来源:
我刚刚开始查看 parquet 文件,因为我的一些数据以该格式提供。我以前没有真正玩过它,所以这是我的问题。
我这样打开镶木地板文件:
import pyarrow.parquet as pq
table1 = pq.read_table('mydatafile.parquet')
此文件包含 10 列。现在是否可以直接从这里过滤掉所有行,例如column3 的值为 1?
我的意思是,我可以这样做:
df = table1.to_pandas()
df = df[df["column3"] != 1]
但是这可以在本地完成,而不先转换为 Pandas 数据框吗?
您可以使用 documentation
中的语法import pyarrow.parquet as pq
table1 = pq.read_table('mydatafile.parquet', filters = [('column3', '!=' , 1)])