Amazon SageMaker VS 的优缺点。 Amazon EMR,用于部署基于 TensorFlow 的深度学习模型?

Pros and Cons of Amazon SageMaker VS. Amazon EMR, for deploying TensorFlow-based deep learning models?

我想为 NLP 和推荐应用构建一些 神经网络 模型。我想使用的框架是TensorFlow。我计划训练这些模型并对亚马逊网络服务进行预测。该应用程序很可能是分布式计算

我想知道 SageMaker 和 EMR 对于 TensorFlow 应用程序的优缺点是什么?

它们都集成了 TensorFlow。

来自 AWS 文档:

Amazon EMR is a managed cluster platform that simplifies running big data frameworks, such as Apache Hadoop and Apache Spark, on AWS to process and analyze vast amounts of data. By using these frameworks and related open-source projects, such as Apache Hive and Apache Pig, you can process data for analytics purposes and business intelligence workloads. Additionally, you can use Amazon EMR to transform and move large amounts of data into and out of other AWS data stores and databases, such as Amazon Simple Storage Service (Amazon S3) and Amazon DynamoDB.

(...) Amazon SageMaker is a fully-managed platform that enables developers and data scientists to quickly and easily build, train, and deploy machine learning models at any scale. Amazon SageMaker removes all the barriers that typically slow down developers who want to use machine learning.

结论: 如果您想部署 AI 模型,只需使用 AWS SageMaker

一般来说,它们有不同的用途。

EMR 是当你需要处理大量数据并且严重依赖 Spark、Hadoop 和 MapReduce(EMR = Elastic MapReduce)时。本质上,如果您的数据量足够大,可以利用 Spark、Hadoop、Hive、HDFS、HBase 和 Pig 堆栈的效率,那么请使用 EMR。

EMR 优点:

  • 通常,与 EC2 实例相比成本较低
  • 顾名思义,Elastic 意味着您可以在需要时提供所需内容
  • 开箱即用的 Hive、Pig 和 HBase

EMR 缺点:

  • 您需要一个非常具体的用例才能真正受益于 EMR 中的所有产品。大多数人没有利用其全部产品

SageMaker 是一种使机器学习更容易和分布式的尝试。该市场提供开箱即用的算法和模型,以便快速使用。如果您遵守它强制执行的工作流程,它就是一项很棒的服务。意味着创建训练作业,部署推理端点

SageMaker 专家:

  • 容易起床运行笔记本
  • 可快速试用现有模型的丰富市场
  • 流行算法的许多不同示例笔记本
  • 最小化配置的预定义内核
  • 易于部署模型
  • 允许您通过部署端点来分发推理计算

SageMaker 缺点:

  • 贵!
  • 强制执行特定的工作流程,因此很难完全自定义
  • 贵!