Dask

Question

我刚刚使用 Helm 在 Kubernetes 集群上完成了 Dask 的设置，现在我想在 jupyter notebook 上完成基本教程，我运行遇到以下错误：

我还尝试在另一个笔记本上分析一个 40 GB 的数据集，但是运行以下命令非常慢（我只是从 GCS 导入 40GB，然后在 value_counts二进制列):

import dask.dataframe as ddf
import gcsfs

fs = gcsfs.GCSFileSystem(project='tme-chrome')

fs.ls('tme-churning')

df = dd.read_csv('gs://tme-churning/*.csv')


df['churning'].value_counts().compute()

非常感谢您的帮助。我好像漏掉了什么。

Answer 1

我尝试使用 here 找到的 dask helm 图表重现此问题，但未能成功。这些是我采取的步骤：

1. helm install -n stable-dask stable/dask
2. Go to output Jupyter IP:PORT
3. Run the first few cells in the notebook.

您使用的是不同的舵图吗？

Dask - Kubernetes - 教程示例

Dask - Kubernetes - Tutorial example

dataframe

google-cloud-platform

kubernetes

dask-distributed