Pyarrow 数据集读取特定列和特定行
Pyarrow Dataset read specific columns and specific rows
有没有办法使用 pyarrow parquet 数据集来读取特定的列,如果可能的话过滤数据而不是将整个文件读入数据框?
从 pyarrow==2.0.0
开始,这至少在 pyarrow.parquet.ParquetDataset
中是可能的。
要读取特定列,它的read
和read_pandas
方法有一个columns
选项。您也可以使用 pandas.read_parquet
.
要读取特定行,它的__init__
方法有一个filters
选项。
有没有办法使用 pyarrow parquet 数据集来读取特定的列,如果可能的话过滤数据而不是将整个文件读入数据框?
从 pyarrow==2.0.0
开始,这至少在 pyarrow.parquet.ParquetDataset
中是可能的。
要读取特定列,它的read
和read_pandas
方法有一个columns
选项。您也可以使用 pandas.read_parquet
.
要读取特定行,它的__init__
方法有一个filters
选项。