Dask 读取 CSV,将分区设置为 CSV 长度
Dask reading CSV, setting partition as CSV length
我正在尝试编写将从一组名为 my_file_*.csv
的 CSV 中读取到 Dask 数据帧中的代码。
然后我想根据CSV的长度设置分区。我正在尝试在每个分区上映射一个函数,为此,每个分区都必须是整个 CSV。
我尝试重置索引,然后根据每个 CSV 的长度设置分区,但看起来 Dask 数据帧的索引不是唯一的。
有没有更好的方法根据每个CSV的长度进行分区?
所以一个分区应该只包含一个文件?
你冷吗:
import dask.dataframe as dd
ddf = dd.read_csv(my_file_*.csv, blocksize = None)
将块大小设置为 None 可确保文件不会拆分为多个分区。因此,ddf
将是一个 dask 数据帧,每个分区包含一个文件。
您可能需要查看文档:
- general instructions 如何从数据生成 dask 数据帧
- 有关
read_csv
的详细信息
我正在尝试编写将从一组名为 my_file_*.csv
的 CSV 中读取到 Dask 数据帧中的代码。
然后我想根据CSV的长度设置分区。我正在尝试在每个分区上映射一个函数,为此,每个分区都必须是整个 CSV。
我尝试重置索引,然后根据每个 CSV 的长度设置分区,但看起来 Dask 数据帧的索引不是唯一的。
有没有更好的方法根据每个CSV的长度进行分区?
所以一个分区应该只包含一个文件? 你冷吗:
import dask.dataframe as dd
ddf = dd.read_csv(my_file_*.csv, blocksize = None)
将块大小设置为 None 可确保文件不会拆分为多个分区。因此,ddf
将是一个 dask 数据帧,每个分区包含一个文件。
您可能需要查看文档:
- general instructions 如何从数据生成 dask 数据帧
- 有关
read_csv
的详细信息