使用 Dask 高效地按部分读取大的 csv 文件
Efficiently read big csv file by parts using Dask
现在我正在使用 Dask 读取大型 csv 文件并对其进行一些后处理(例如,进行一些数学运算,然后通过某些 ML 模型进行预测并将结果写入数据库)。
避免将所有数据加载到内存中,我想按当前大小的块读取:读取第一个块、预测、写入、读取第二个块等。
我使用 skiprows
和 nrows
尝试了下一个解决方案:
import dask.dataframe as dd
read_path = "medium.csv"
# Read by chunk
skiprows = 100000
nrows = 50000
res_df = dd.read_csv(read_path, skiprows=skiprows)
res_df = res_df.head(nrows)
print(res_df.shape)
print(res_df.head())
但是我得到错误:
ValueError: Sample is not large enough to include at least one row of
data. Please increase the number of bytes in sample
in the call to
read_csv
/read_table
此外,据我所知,它每次都会为所有数据计算二进制掩码([False,False,...,True,...])以查找要加载的行。我们如何才能更有效率?
也许使用 dask 的一些分布式或延迟函数?
Dask dataframe 会帮你分片,你不需要使用nrows/skip_rows
df = dd.read_csv(filename)
如果你想挑选出一个特定的分区,那么你可以使用分区访问器
part = df.partitions[i]
但是,您可能还想并行应用您的函数。
df.map_partitions(process).to_csv("data.*.csv")
现在我正在使用 Dask 读取大型 csv 文件并对其进行一些后处理(例如,进行一些数学运算,然后通过某些 ML 模型进行预测并将结果写入数据库)。 避免将所有数据加载到内存中,我想按当前大小的块读取:读取第一个块、预测、写入、读取第二个块等。
我使用 skiprows
和 nrows
尝试了下一个解决方案:
import dask.dataframe as dd
read_path = "medium.csv"
# Read by chunk
skiprows = 100000
nrows = 50000
res_df = dd.read_csv(read_path, skiprows=skiprows)
res_df = res_df.head(nrows)
print(res_df.shape)
print(res_df.head())
但是我得到错误:
ValueError: Sample is not large enough to include at least one row of data. Please increase the number of bytes in
sample
in the call toread_csv
/read_table
此外,据我所知,它每次都会为所有数据计算二进制掩码([False,False,...,True,...])以查找要加载的行。我们如何才能更有效率? 也许使用 dask 的一些分布式或延迟函数?
Dask dataframe 会帮你分片,你不需要使用nrows/skip_rows
df = dd.read_csv(filename)
如果你想挑选出一个特定的分区,那么你可以使用分区访问器
part = df.partitions[i]
但是,您可能还想并行应用您的函数。
df.map_partitions(process).to_csv("data.*.csv")