聚类算法运行虽然Jupyter Notebook Gateway超时了？

Question

我在 AWS Sagemaker（"ml.t2.medium" 计算实例）上的 Jupyter 笔记本中运行在维度为 300000x50 的数据集上使用 sklearn DBSCAN 算法。数据集包含 1:s 和 0:s.

的特征向量

进入运行单元格后，过一会右上角出现橙色提示"Gateway Timeout"。当您单击该图标时，该图标会消失，不会提供更多信息。在您重新启动笔记本实例之前，笔记本没有响应。

我尝试了参数 eps 和 min_samples 的不同值，但无济于事。

db = DBSCAN(eps = 0.1, min_samples = 100).fit(transformed_vectors)

"Gateway Timeout"是不是笔记本内核崩溃了，还是我可以等待得到结果？

到目前为止，计算已经运行ning 了大约 2 个小时。

Answer 1

您始终可以为笔记本实例选择更大的尺寸（ml.t2.medium 非常小），但我认为更好的方法是在托管 SageMaker 实例上训练您的代码。 Sklearn 在 SageMaker 上 built-in，所以您所要做的就是带上您的脚本，例如：

from sagemaker.sklearn.estimator import SKLearn

sklearn = SKLearn(
    entry_point="my_code.py",
    train_instance_type="ml.c4.xlarge",
    role=role,
    sagemaker_session=sagemaker_session)

这是一个完整的例子：https://github.com/awslabs/amazon-sagemaker-examples/blob/master/sagemaker-python-sdk/scikit_learn_iris/Scikit-learn%20Estimator%20Example%20With%20Batch%20Transform.ipynb

聚类算法运行虽然Jupyter Notebook Gateway超时了？

Is clustering algorithm running although Jupyter Notebook Gateway timed out?

cluster-analysis

dbscan

jupyter-notebook