AWS Sagemaker 与 Databricks 的用例差异?
Difference in usecases for AWS Sagemaker vs Databricks?
我之所以关注 Databricks,是因为它与 Kinesis 等 AWS 服务集成,但在我看来 SageMaker 是 Databricks 的直接竞争对手吗?我们正在大量使用 AWS,是否有任何理由将 DataBricks 添加到堆栈中或让 SageMaker 扮演相同的角色?
SageMaker 是一个很棒的部署工具,它简化了很多配置容器的过程,你只需要写 2-3 行就可以将模型部署为端点并使用它。 SageMaker 还提供了支持 Python 和 Scala (sparkmagic kernal) 开发的开发平台 (Jupyter Notebook),我设法在 jupyter notebook 中安装了外部 scala 内核。总体而言,SageMaker 提供端到端的 ML 服务。 Databricks 为 Spark 开发提供了无与伦比的 Notebook 环境。
结论
Databricks 是一个更好的大数据(scala、pyspark)开发平台。(无与伦比的笔记本环境)
SageMaker 更适合部署。如果您不处理大数据,SageMaker 是一个完美的选择(Jupyter notebook + Sklearn + 成熟的容器 + 超级简单的部署)。
SageMaker 提供"real time inference",非常容易构建和部署,令人印象深刻。你可以查看官方的 SageMaker Github。
https://github.com/awslabs/amazon-sagemaker-examples/tree/master/sagemaker-python-sdk/scikit_learn_inference_pipeline
去年在这两种环境中工作过,我特别记得:
Databricks 可以轻松访问存储的 databases/tables 以在 Jupyter 笔记本中查询和使用 Scala/Spark。我记得看到和预览模式并快速查询并开始研究比赛是多么美好。我还记得在笔记本上设置定时作业(每月 re-run)和 re-scale 到作业实例类型(便宜得多)的快速功能,只需点击一些按钮。这些功能可能存在于 AWS 的某个地方,但我记得它在 Databricks 中非常棒。
AWS SageMaker + Lambda + API 网关:今天,我理所当然地完成了 AWS SageMaker + Lambda + [=32 的部署=] 网关,在习惯了 Lambda + API 网关的一些语法和细节之后,它非常简单。进行另一次 AWS 部署不会超过 20 分钟(等待独特的特性)。模型监控和 CloudWatch 等其他功能也很不错。我确实注意到许多语言的 Jupyter Notebook 内核,如 Python(我用的是什么)、R 和 Scala,以及已经 pre-installed 的特定包,如 conda 和 sagemaker ml 包和方法。
我之所以关注 Databricks,是因为它与 Kinesis 等 AWS 服务集成,但在我看来 SageMaker 是 Databricks 的直接竞争对手吗?我们正在大量使用 AWS,是否有任何理由将 DataBricks 添加到堆栈中或让 SageMaker 扮演相同的角色?
SageMaker 是一个很棒的部署工具,它简化了很多配置容器的过程,你只需要写 2-3 行就可以将模型部署为端点并使用它。 SageMaker 还提供了支持 Python 和 Scala (sparkmagic kernal) 开发的开发平台 (Jupyter Notebook),我设法在 jupyter notebook 中安装了外部 scala 内核。总体而言,SageMaker 提供端到端的 ML 服务。 Databricks 为 Spark 开发提供了无与伦比的 Notebook 环境。
结论
Databricks 是一个更好的大数据(scala、pyspark)开发平台。(无与伦比的笔记本环境)
SageMaker 更适合部署。如果您不处理大数据,SageMaker 是一个完美的选择(Jupyter notebook + Sklearn + 成熟的容器 + 超级简单的部署)。
SageMaker 提供"real time inference",非常容易构建和部署,令人印象深刻。你可以查看官方的 SageMaker Github。 https://github.com/awslabs/amazon-sagemaker-examples/tree/master/sagemaker-python-sdk/scikit_learn_inference_pipeline
去年在这两种环境中工作过,我特别记得:
Databricks 可以轻松访问存储的 databases/tables 以在 Jupyter 笔记本中查询和使用 Scala/Spark。我记得看到和预览模式并快速查询并开始研究比赛是多么美好。我还记得在笔记本上设置定时作业(每月 re-run)和 re-scale 到作业实例类型(便宜得多)的快速功能,只需点击一些按钮。这些功能可能存在于 AWS 的某个地方,但我记得它在 Databricks 中非常棒。
AWS SageMaker + Lambda + API 网关:今天,我理所当然地完成了 AWS SageMaker + Lambda + [=32 的部署=] 网关,在习惯了 Lambda + API 网关的一些语法和细节之后,它非常简单。进行另一次 AWS 部署不会超过 20 分钟(等待独特的特性)。模型监控和 CloudWatch 等其他功能也很不错。我确实注意到许多语言的 Jupyter Notebook 内核,如 Python(我用的是什么)、R 和 Scala,以及已经 pre-installed 的特定包,如 conda 和 sagemaker ml 包和方法。