AWS Sagemaker 与 Databricks 的用例差异？

Difference in usecases for AWS Sagemaker vs Databricks?

我之所以关注 Databricks，是因为它与 Kinesis 等 AWS 服务集成，但在我看来 SageMaker 是 Databricks 的直接竞争对手吗？我们正在大量使用 AWS，是否有任何理由将 DataBricks 添加到堆栈中或让 SageMaker 扮演相同的角色？

SageMaker 是一个很棒的部署工具，它简化了很多配置容器的过程，你只需要写 2-3 行就可以将模型部署为端点并使用它。 SageMaker 还提供了支持 Python 和 Scala (sparkmagic kernal) 开发的开发平台 (Jupyter Notebook)，我设法在 jupyter notebook 中安装了外部 scala 内核。总体而言，SageMaker 提供端到端的 ML 服务。 Databricks 为 Spark 开发提供了无与伦比的 Notebook 环境。

结论

Databricks 是一个更好的大数据（scala、pyspark）开发平台。（无与伦比的笔记本环境）
SageMaker 更适合部署。如果您不处理大数据，SageMaker 是一个完美的选择（Jupyter notebook + Sklearn + 成熟的容器 + 超级简单的部署）。
SageMaker 提供"real time inference"，非常容易构建和部署，令人印象深刻。你可以查看官方的 SageMaker Github。 https://github.com/awslabs/amazon-sagemaker-examples/tree/master/sagemaker-python-sdk/scikit_learn_inference_pipeline

去年在这两种环境中工作过，我特别记得：

Databricks 可以轻松访问存储的 databases/tables 以在 Jupyter 笔记本中查询和使用 Scala/Spark。我记得看到和预览模式并快速查询并开始研究比赛是多么美好。我还记得在笔记本上设置定时作业（每月 re-run）和 re-scale 到作业实例类型（便宜得多）的快速功能，只需点击一些按钮。这些功能可能存在于 AWS 的某个地方，但我记得它在 Databricks 中非常棒。
AWS SageMaker + Lambda + API 网关：今天，我理所当然地完成了 AWS SageMaker + Lambda + [=32 的部署=] 网关，在习惯了 Lambda + API 网关的一些语法和细节之后，它非常简单。进行另一次 AWS 部署不会超过 20 分钟（等待独特的特性）。模型监控和 CloudWatch 等其他功能也很不错。我确实注意到许多语言的 Jupyter Notebook 内核，如 Python（我用的是什么）、R 和 Scala，以及已经 pre-installed 的特定包，如 conda 和 sagemaker ml 包和方法。

AWS Sagemaker 与 Databricks 的用例差异？

Difference in usecases for AWS Sagemaker vs Databricks?

apache-spark

pyspark

databricks

amazon-sagemaker