如何指定要在 pyarrow.dataset 中加载的列

How to specify which columns to load in pyarrow.dataset

我试图只获取我想要的列,就像我们在 pandas 中所做的那样。

use_cols = ["ArrDelay", "DepDelay"]
df = pd.read_csv(path, usecols=use_cols)
df

有箭头类似的选项吗?

dataset = ds.dataset(path, format="csv")

我猜你想要的是...

table = dataset.to_table(columns=["ArrDelay", "DepDelay"])

数据集方法 scan()to_batches()to_tables() 都采用相同的参数,这些参数记录在 scan() 方法中。