如何运行在多台机器上运行?
How to run dask in multiple machines?
我最近找到了 Dask。我有一些关于 Dask Dataframe 和其他数据结构的非常基本的问题。
- Dask Dataframe 是不可变数据类型吗?
- Dask数组和Dataframe是惰性数据结构吗?
我不知道我的情况是使用 dask 还是 spark 还是 pandas。我有 200 GB 的数据要计算。使用普通 python 程序计算运算需要 9 个小时。但是利用16核处理器可以在更短的时间内并行处理。如果我在 pandas 中拆分数据框,我需要担心计算的交换和关联 属性。另一方面,我可以使用独立的 spark 集群来并行拆分数据和 运行。
我是否需要像 Spark 一样在 Dask 中设置任何集群?
如何 运行 我自己的计算节点中的 Dask 数据帧?
Dask 需要设置主从吗?
我是pandas的粉丝,所以我正在寻找类似于pandas的解决方案。
这里好像有几个问题
问:Dask.dataframes 是不可变的吗?
不严格。他们支持列分配。一般来说,尽管您是正确的,但 Pandas 的大多数变异操作不受支持
问:Dask.dataframe和Dask.array懒惰吗?
是
问:需要搭建集群吗?
不,您可以选择 运行 集群或单机上的 Dask。
问:如果我想使用集群,我该怎么做?
请特别参阅 Dask.distributed and the setup docs 的文档
问:我应该使用 Dask、Spark 还是 Pandas?
这个问题过于宽泛,要视情况而定
我最近找到了 Dask。我有一些关于 Dask Dataframe 和其他数据结构的非常基本的问题。
- Dask Dataframe 是不可变数据类型吗?
- Dask数组和Dataframe是惰性数据结构吗?
我不知道我的情况是使用 dask 还是 spark 还是 pandas。我有 200 GB 的数据要计算。使用普通 python 程序计算运算需要 9 个小时。但是利用16核处理器可以在更短的时间内并行处理。如果我在 pandas 中拆分数据框,我需要担心计算的交换和关联 属性。另一方面,我可以使用独立的 spark 集群来并行拆分数据和 运行。
我是否需要像 Spark 一样在 Dask 中设置任何集群?
如何 运行 我自己的计算节点中的 Dask 数据帧?
Dask 需要设置主从吗?
我是pandas的粉丝,所以我正在寻找类似于pandas的解决方案。
这里好像有几个问题
问:Dask.dataframes 是不可变的吗?
不严格。他们支持列分配。一般来说,尽管您是正确的,但 Pandas 的大多数变异操作不受支持
问:Dask.dataframe和Dask.array懒惰吗?
是
问:需要搭建集群吗?
不,您可以选择 运行 集群或单机上的 Dask。
问:如果我想使用集群,我该怎么做?
请特别参阅 Dask.distributed and the setup docs 的文档
问:我应该使用 Dask、Spark 还是 Pandas?
这个问题过于宽泛,要视情况而定