pandas 的 Dask 就地替换?

Dask in-place replacement of pandas?

我想知道我是否可以使用 dask 而不是 pandas。我可能会遇到哪些问题?

1) 我想对于较小的数据集,dask 会比 pandas 慢。我对此没有意见,因为有时我不知道数据的大小,也不知道服务器配置。

2) 我将不得不学习稍微不同的语法(例如计算)

我会遇到 dask dataframe 不能做 pandas dataframe 可以做的事情的情况吗?

这是一个非常宽泛的问题。一般来说我推荐参考dask.dataframe documentation.

Dask.dataframe 没有实现所有 pandas。这包括以下几种操作:

  1. 变异操作
  2. 难以完全并行执行的操作,例如中位数(尽管通常存在近似解,例如近似分位数)
  3. 遍历数据帧的行
  4. API 的小角落,没有人费心复制过来。

但是,因为 dask 数据框只是许多小数据框的集合,所以在简单的情况下,您通常可以绕过其中的一些限制。