使用 usecols 将 CSV 文件读入 Dask DataFrames

Question

我正在快速阅读 CSV 文件，但在阅读时，我想像在 panads 中使用的那样“使用cols”。

我目前使用的 DASK，

df = dd.read_csv('myfiles.csv')  #in dask

我想像在pandas,

中那样使用

df = pd.read_csv('myfiles.csv',usecols=["date", "loc", "x"])

Answer 1

你试过了吗：

df = dd.read_csv('myfiles.csv',names=["date", "loc", "x"])

的定义

名称 array-like, 可选

要使用的列名列表。如果文件包含 header 行，那么您应该显式传递 header=0 以覆盖列名。此列表中不允许重复。

您可以使用 Extra 关键字参数转发到 pandas.read_csv()。 dask.dataframe.read_csv 所以偶数

df = dd.read_csv('myfiles.csv',usecols=["date", "loc", "x"])

会为你工作。

Reading CSV files into Dask DataFrames using usecols