Dask - 可以将 dask_key_name 分配给 dask 数据帧任务吗?
Dask - Possible to assign dask_key_name to dask dataframe tasks?
在调试问题的过程中,我发现很难准确破译哪些任务导致了问题。我已经在延迟任务中成功使用 'dask_key_name' kwarg 为那些延迟任务的键分配了一个人类可读的名称(基于此处的文档:https://docs.dask.org/en/latest/delayed-api.html)。我尝试执行以下操作,希望它能对 read_parquet 任务执行相同的操作,但它似乎仍然使用散列值来创建密钥(例如,('read-parquet-ed9e6c4c474e851e176e7eafb8753490', 5 )).
item = 'custom_string'
self.all_pfs_dict['read'][item] = dd.read_parquet(item_to_read, index=False, gather_statistics=False, dask_key_name=item + '-read')
我是不是做错了什么,或者是否有其他方法来命名 dask 数据框任务?
今天无法像这样重命名数据框任务。
我之前也有类似的问题,但是好像不支持这种东西,除了from_pandas()
方法
from_pandas()
有 name
参数,set name, but others like read_parquet()
没有。
所以如果你想这样做,你需要更改上面链接的 Dask 代码。
在调试问题的过程中,我发现很难准确破译哪些任务导致了问题。我已经在延迟任务中成功使用 'dask_key_name' kwarg 为那些延迟任务的键分配了一个人类可读的名称(基于此处的文档:https://docs.dask.org/en/latest/delayed-api.html)。我尝试执行以下操作,希望它能对 read_parquet 任务执行相同的操作,但它似乎仍然使用散列值来创建密钥(例如,('read-parquet-ed9e6c4c474e851e176e7eafb8753490', 5 )).
item = 'custom_string'
self.all_pfs_dict['read'][item] = dd.read_parquet(item_to_read, index=False, gather_statistics=False, dask_key_name=item + '-read')
我是不是做错了什么,或者是否有其他方法来命名 dask 数据框任务?
今天无法像这样重命名数据框任务。
我之前也有类似的问题,但是好像不支持这种东西,除了from_pandas()
方法
from_pandas()
有 name
参数,set name, but others like read_parquet()
没有。
所以如果你想这样做,你需要更改上面链接的 Dask 代码。