如何使用 dask/dask-cudf 将单个大型镶木地板文件读入多个分区？

Question

我正在尝试使用 dask_cudf/dask 读取单个大型 parquet 文件（大小 > gpu_size），但它目前正在将其读入单个分区，我猜这是从文档字符串推断的预期行为：

dask.dataframe.read_parquet(path, columns=None, filters=None, categories=None, index=None, storage_options=None, engine='auto', gather_statistics=None, **kwargs):

    Read a Parquet file into a Dask DataFrame
    This reads a directory of Parquet data into a Dask.dataframe, one file per partition. 
    It selects the index among the sorted columns if any exist.

是否有解决方法可以将其读入多个分区？

Answer 1

Parquet 数据集可以保存到单独的文件中。每个文件可能包含单独的行组。 Dask Dataframe 将每个 Parquet 行组读取到一个单独的分区中。

根据您的说法，您的数据集似乎只有一个行组。如果真是这样，那么不幸的是，Dask 在这里无能为力。

您可能想返回数据源以查看数据是如何保存的，并验证保存此数据集的任何进程是否以不会创建非常大的行组的方式进行保存。

如何使用 dask/dask-cudf 将单个大型镶木地板文件读入多个分区？

How to read a single large parquet file into multiple partitions using dask/dask-cudf?

dask

cudf