在 AWS 上试用 Dask

Trying Dask on AWS

我是一名科学家,正在探索 Dask 在 Amazon Web Services 上的使用。我有一些使用 Dask 的经验,但 none 使用 AWS。我有几个大型自定义任务图要执行,如果我可以向他们展示如何操作,一些同事可能也想这样做。我相信我应该使用 Kubernetes with Helm because I fall into the "Try out Dask for the first time on a cloud-based system like Amazon, Google, or Microsoft Azure" 类别。

  1. 我也属于"Dynamically create a personal and ephemeral deployment for interactive use"一类。我应该尝试原生的 Dask-Kubernetes 而不是 Helm 吗?看似简单,但权衡利弊却很难判断。
  2. 无论哪种情况,您如何为 Dask 工作人员提供一个包含您自己的 Python 包(不在任何包索引上)的统一环境? The solution I've found 建议包需要在 pipconda 索引上。

感谢您的帮助!

使用 Helm 还是 Dask-Kubernetes?

你可以使用任何一个。一般从Helm入手比较简单

如何包含自定义包

您可以使用 pip 或 conda 安装自定义软件。他们不需要在 PyPI 或 anaconda 默认频道上。您可以将 pip 或 conda 指向其他频道。这是一个使用 pip 从 github

安装软件的示例
pip install git+https://github.com/username/repository@branch

对于小的自定义文件,您也可以使用 Client.upload_file 方法。