我可以使用 pyarrow 加载多个 csv 文件吗?
Can I load multiple csv files using pyarrow?
我知道这可以在 R 中完成,如下所示
ds <- open_dataset("nyc-taxi/csv/2019", format = "csv",
partitioning = "month")
但是 python 有办法吗?试过这些但似乎不是一个选择
from pyarrow import csv
table = csv.read_csv("*.csv")
from pyarrow import csv
path = os.getcwd()
table = csv.read_csv(path)
table
有没有办法在 python 中实现?
是的,您也可以使用 pyarrow 执行此操作,与在 R 中类似,使用 pyarrow.dataset
子模块(pyarrow.csv
子模块仅公开处理单个 csv 文件的功能)。
示例代码:
import pyarrow.dataset as ds
dataset = ds.dataset("nyc-taxi/csv/2019", format="csv", partitioning=["month"])
table = dataset.to_table()
然后在 to_table()
方法中您可以指定 row/column 个过滤器。
我知道这可以在 R 中完成,如下所示
ds <- open_dataset("nyc-taxi/csv/2019", format = "csv",
partitioning = "month")
但是 python 有办法吗?试过这些但似乎不是一个选择
from pyarrow import csv
table = csv.read_csv("*.csv")
from pyarrow import csv
path = os.getcwd()
table = csv.read_csv(path)
table
有没有办法在 python 中实现?
是的,您也可以使用 pyarrow 执行此操作,与在 R 中类似,使用 pyarrow.dataset
子模块(pyarrow.csv
子模块仅公开处理单个 csv 文件的功能)。
示例代码:
import pyarrow.dataset as ds
dataset = ds.dataset("nyc-taxi/csv/2019", format="csv", partitioning=["month"])
table = dataset.to_table()
然后在 to_table()
方法中您可以指定 row/column 个过滤器。