Dask中延迟函数和正常函数的区别
Difference between delayed functions and normal functions in Dask
我创建了一个 Aggregation
对象来模拟 pandas first
操作,它在 dask 数据帧上运行良好,但在延迟函数中使用时,它给出了 pandas 错误说 'Aggregation' object is not callable
,而在这种情况下,仅使用 pandas 首先有效。在后来的检查中,我发现我接收 Dask DataFrame 的操作函数在添加 @delayed
装饰器时接收的是正常的 pandas DataFrame。
很明显,我不明白 dask 和分布式如何与底层数据结构一起工作,我没有在 https://distributed.readthedocs.io/en/latest/manage-computation.html 中看到这种差异的解释。您能否解释一下这些差异的底层细节,或者指出一些文档?
dask.dataframe.Aggregation 对象仅适用于 dask 数据帧,不适用于任何其他类型的 dask 对象。
Dask delayed 通常对正常的内存数据进行操作。根本没有应用复杂性或自动化。使用 dask.delayed.
时,设计自定义算法的所有工作完全由您承担
我创建了一个 Aggregation
对象来模拟 pandas first
操作,它在 dask 数据帧上运行良好,但在延迟函数中使用时,它给出了 pandas 错误说 'Aggregation' object is not callable
,而在这种情况下,仅使用 pandas 首先有效。在后来的检查中,我发现我接收 Dask DataFrame 的操作函数在添加 @delayed
装饰器时接收的是正常的 pandas DataFrame。
很明显,我不明白 dask 和分布式如何与底层数据结构一起工作,我没有在 https://distributed.readthedocs.io/en/latest/manage-computation.html 中看到这种差异的解释。您能否解释一下这些差异的底层细节,或者指出一些文档?
dask.dataframe.Aggregation 对象仅适用于 dask 数据帧,不适用于任何其他类型的 dask 对象。
Dask delayed 通常对正常的内存数据进行操作。根本没有应用复杂性或自动化。使用 dask.delayed.
时,设计自定义算法的所有工作完全由您承担