聚类算法运行虽然Jupyter Notebook Gateway超时了?

Is clustering algorithm running although Jupyter Notebook Gateway timed out?

我在 AWS Sagemaker("ml.t2.medium" 计算实例)上的 Jupyter 笔记本中 运行 在维度为 300000x50 的数据集上使用 sklearn DBSCAN 算法。数据集包含 1:s 和 0:s.

的特征向量

进入运行单元格后,过一会右上角出现橙色提示"Gateway Timeout"。当您单击该图标时,该图标会消失,不会提供更多信息。在您重新启动笔记本实例之前,笔记本没有响应。

我尝试了参数 eps 和 min_samples 的不同值,但无济于事。

db = DBSCAN(eps = 0.1, min_samples = 100).fit(transformed_vectors)

"Gateway Timeout"是不是笔记本内核崩溃了,还是我可以等待得到结果?

到目前为止,计算已经 运行ning 了大约 2 个小时。

您始终可以为笔记本实例选择更大的尺寸(ml.t2.medium 非常小),但我认为更好的方法是在托管 SageMaker 实例上训练您的代码。 Sklearn 在 SageMaker 上 built-in,所以您所要做的就是带上您的脚本,例如:

from sagemaker.sklearn.estimator import SKLearn

sklearn = SKLearn(
    entry_point="my_code.py",
    train_instance_type="ml.c4.xlarge",
    role=role,
    sagemaker_session=sagemaker_session)

这是一个完整的例子:https://github.com/awslabs/amazon-sagemaker-examples/blob/master/sagemaker-python-sdk/scikit_learn_iris/Scikit-learn%20Estimator%20Example%20With%20Batch%20Transform.ipynb