在 Dask.distributed 中使用 client.scatter(df) 时引发异常

Exception raised when using client.scatter(df) in Dask.distributed

我正在使用 stable/dask 存储库中的 Helm Chart 在 Kubernetes 上使用 Dask。使用分布式客户端并调用 client.scatter(ddf) 时,我得到如下异常:

异常:没有名为 'pandas.core.internals.managers' 的模块; 'pandas.core.internals' 不是包裹

查看已安装的软件包显示 Pandas==0.24.1 & dask-core==1.1.1 on Python 3.7。

查看 worker 的内存消耗表明没有向 worker 发送任何内容,当我添加关键字 ='broadcast' 时,我可以观察到内存使用量在一秒钟内出现短期上升工人,但后来我得到了上面提到的错误。

任何关于我做错的建议,或者这是 Dask/Pandas 的问题?

谢谢。

我的猜测是您在不同机器上的 Pandas 版本不同。您可以使用以下命令进行检查。

client.get_versions(check=True)