如何指定要在 pyarrow.dataset 中加载的列

Question

我试图只获取我想要的列，就像我们在 pandas 中所做的那样。

use_cols = ["ArrDelay", "DepDelay"]
df = pd.read_csv(path, usecols=use_cols)
df

有箭头类似的选项吗？

dataset = ds.dataset(path, format="csv")

Answer 1

我猜你想要的是...

table = dataset.to_table(columns=["ArrDelay", "DepDelay"])

数据集方法 scan()、to_batches() 和 to_tables() 都采用相同的参数，这些参数记录在 scan() 方法中。

How to specify which columns to load in pyarrow.dataset