如何使用 dask 在并行任务中填充 DataFrame?
How to use dask to populate DataFrame in parallelized task?
我想使用 dask 来并行处理数字运算任务。
此任务仅使用我计算机中的一个内核。
作为该任务的结果,我想通过 shared_df.loc[len(shared_df)] = [x, 'y']
向 DataFrame 添加一个条目。这个 DataFrame 应该由我计算机中的所有(四个)并行工作者/线程来填充。
我必须如何设置 dask 才能执行此操作?
做这样的事情的正确方法,大纲:
创建一个函数,对于给定的参数,returns 总数据的某些部分的数据帧
将此函数包装在 dask.delayed
中,为每个输入参数制作一个调用列表,并使用 dd.from_delayed
[=27 创建一个 dask-dataframe =]
如果您确实需要对索引进行排序,并且需要沿着与您在上一步中应用的分块不同的行对索引进行分区,您可能需要执行 set_index
请阅读每个步骤的文档字符串和示例!
我想使用 dask 来并行处理数字运算任务。
此任务仅使用我计算机中的一个内核。
作为该任务的结果,我想通过 shared_df.loc[len(shared_df)] = [x, 'y']
向 DataFrame 添加一个条目。这个 DataFrame 应该由我计算机中的所有(四个)并行工作者/线程来填充。
我必须如何设置 dask 才能执行此操作?
做这样的事情的正确方法,大纲:
创建一个函数,对于给定的参数,returns 总数据的某些部分的数据帧
将此函数包装在
[=27 创建一个 dask-dataframe =]dask.delayed
中,为每个输入参数制作一个调用列表,并使用dd.from_delayed
如果您确实需要对索引进行排序,并且需要沿着与您在上一步中应用的分块不同的行对索引进行分区,您可能需要执行
set_index
请阅读每个步骤的文档字符串和示例!