Dask中延迟函数和正常函数的区别

Difference between delayed functions and normal functions in Dask

我创建了一个 Aggregation 对象来模拟 pandas first 操作,它在 dask 数据帧上运行良好,但在延迟函数中使用时,它给出了 pandas 错误说 'Aggregation' object is not callable,而在这种情况下,仅使用 pandas 首先有效。在后来的检查中,我发现我接收 Dask DataFrame 的操作函数在添加 @delayed 装饰器时接收的是正常的 pandas DataFrame。

很明显,我不明白 dask 和分布式如何与底层数据结构一起工作,我没有在 https://distributed.readthedocs.io/en/latest/manage-computation.html 中看到这种差异的解释。您能否解释一下这些差异的底层细节,或者指出一些文档?

dask.dataframe.Aggregation 对象仅适用于 dask 数据帧,不适用于任何其他类型的 dask 对象。

Dask delayed 通常对正常的内存数据进行操作。根本没有应用复杂性或自动化。使用 dask.delayed.

时,设计自定义算法的所有工作完全由您承担