如何运行在多台机器上运行？

How to run dask in multiple machines?

dask

我最近找到了 Dask。我有一些关于 Dask Dataframe 和其他数据结构的非常基本的问题。

Dask Dataframe 是不可变数据类型吗？
Dask数组和Dataframe是惰性数据结构吗？

我不知道我的情况是使用 dask 还是 spark 还是 pandas。我有 200 GB 的数据要计算。使用普通 python 程序计算运算需要 9 个小时。但是利用16核处理器可以在更短的时间内并行处理。如果我在 pandas 中拆分数据框，我需要担心计算的交换和关联属性。另一方面，我可以使用独立的 spark 集群来并行拆分数据和运行。

我是否需要像 Spark 一样在 Dask 中设置任何集群？
如何运行我自己的计算节点中的 Dask 数据帧？
Dask 需要设置主从吗？

我是pandas的粉丝，所以我正在寻找类似于pandas的解决方案。

这里好像有几个问题

问：Dask.dataframes 是不可变的吗？

不严格。他们支持列分配。一般来说，尽管您是正确的，但 Pandas 的大多数变异操作不受支持

问：Dask.dataframe和Dask.array懒惰吗？

是

问：需要搭建集群吗？

不，您可以选择运行集群或单机上的 Dask。

问：如果我想使用集群，我该怎么做？

请特别参阅 Dask.distributed and the setup docs 的文档

问：我应该使用 Dask、Spark 还是 Pandas？

这个问题过于宽泛，要视情况而定