如何指定要在 pyarrow.dataset 中加载的列
How to specify which columns to load in pyarrow.dataset
我试图只获取我想要的列,就像我们在 pandas 中所做的那样。
use_cols = ["ArrDelay", "DepDelay"]
df = pd.read_csv(path, usecols=use_cols)
df
有箭头类似的选项吗?
dataset = ds.dataset(path, format="csv")
我猜你想要的是...
table = dataset.to_table(columns=["ArrDelay", "DepDelay"])
数据集方法 scan()
、to_batches()
和 to_tables()
都采用相同的参数,这些参数记录在 scan()
方法中。
我试图只获取我想要的列,就像我们在 pandas 中所做的那样。
use_cols = ["ArrDelay", "DepDelay"]
df = pd.read_csv(path, usecols=use_cols)
df
有箭头类似的选项吗?
dataset = ds.dataset(path, format="csv")
我猜你想要的是...
table = dataset.to_table(columns=["ArrDelay", "DepDelay"])
数据集方法 scan()
、to_batches()
和 to_tables()
都采用相同的参数,这些参数记录在 scan()
方法中。