在 Azure Kubernetes 服务 (AKS) 中处理 Dask Kubernetes 上的大数据

Working with big data on Dask Kubernetes in Azure Kubernetes Service(AKS)

我想对笔记本电脑硬盘中的 8gb 数据集(如 csv 文件)进行分析。我已经在 AKS 上设置了一个 dask kubernetes 集群,其中有 1 个调度程序和 3 个 worker,每个 7 gb。

如何使用 AKS 上的这个 dask kubernetes 集群处理我的数据集? 在工作人员之间共享数据集的哪个文件系统最适合此目的?

我应该在哪里存储这个数据集以便我可以轻松地处理这个数据集的任何建议。

该方法应该适用于 jupyter notebook 和 python 文件。

您可能希望将数据上传到 Azure blob 存储。这里有更多关于 dask 远程数据(包括 Azure)的信息:

https://docs.dask.org/en/latest/remote-data-services.html