更改应用于任务包的操作顺序
Change order of operation applied to a dask bag
我正在使用一个 dask 包来处理从一组实验中收集的痕迹的数据处理的并行化。每个实验的数据文件路径都变成了自定义对象,我对此类数据执行的常见操作是对象方法。
每个对象都有一个与特定实验相关联的标识号。并且在程序的某个时刻我想使用这个 ID 号来删除一些实验。与此任务图中一样,对象是从序列创建的,然后应用去趋势和反卷积函数,然后进行删除操作。
因为实验标识号是静态的,所以可以在任务图中的任何步骤执行删除操作,最终结果将是相同的。但是,如果删除操作是在其他计算成本高的方法之后执行的,则结果会变慢,因为这些计算是在最终将被删除的对象上执行的,这些计算是不必要的。
有没有办法在包的任务图中较早的点插入操作,以便如果有人在任何点添加删除操作,它将是第一个执行的操作?
与其使用 dask 包,不如看看延迟的 dask,这可能会给你更多的灵活性:
http://dask.pydata.org/en/latest/delayed.html
如果你真的想直接处理任务图,那么你应该阅读图规范
我正在使用一个 dask 包来处理从一组实验中收集的痕迹的数据处理的并行化。每个实验的数据文件路径都变成了自定义对象,我对此类数据执行的常见操作是对象方法。
每个对象都有一个与特定实验相关联的标识号。并且在程序的某个时刻我想使用这个 ID 号来删除一些实验。与此任务图中一样,对象是从序列创建的,然后应用去趋势和反卷积函数,然后进行删除操作。
有没有办法在包的任务图中较早的点插入操作,以便如果有人在任何点添加删除操作,它将是第一个执行的操作?
与其使用 dask 包,不如看看延迟的 dask,这可能会给你更多的灵活性:
http://dask.pydata.org/en/latest/delayed.html
如果你真的想直接处理任务图,那么你应该阅读图规范