使用 Sagemaker notebook 与 Glue (Sagemaker) notebook 的区别
Differences between using Sagemaker notebook vs Glue (Sagemaker) notebook
我有一份机器学习工作,我想 运行 使用 Sagemaker。对于数据准备和转换,我正在使用一些 numpy 和 pandas 步骤来用笔记本转换它们。
我注意到 AWS Glue 都有 Sagemaker and Zeppelin notebook which can be created via development endpoint
网上没有太多信息,我可以找到使用其中一个的区别和好处(即 Sagemaker 笔记本和从 s3 导入与从 Glue 创建笔记本)
根据我的研究和尝试,我似乎可以用两者实现相同的目标:
- Sagemaker notebook 并直接从 s3 导入 + 进一步 python 代码来处理数据
- Glue(需要抓取并创建数据集)如图所示 here,创建开发端点并使用类似的脚本来处理数据。
有人能解释一下吗?
如果您只使用 numpy 和 pandas,就功能而言,它并没有真正的区别。但这也取决于您的数据,如果您想使用 Glue table 中的数据,那么通过端点使用 Zeppelin 笔记本会更容易。
Costwise 我很确定 Sagemaker 更便宜。
问题不清楚,让我解释一下。
启动 Glue 开发端点时,您可以附加 SageMaker 笔记本或 Zeppelin 笔记本。两者都将由 Glue 创建和配置,您的脚本将在 Glue Dev 端点上执行。
如果您的问题是“从 Glue 控制台创建的 SageMaker 笔记本和从 SageMaker 控制台创建的 SageMaker 笔记本有什么区别?
当您从 Glue 控制台创建笔记本实例时,创建的笔记本将始终启用 public 互联网访问。 This blog 解释与 SM 笔记本的网络配置之间的差异。您也无法创建具有特定磁盘大小的笔记本,但您可以在创建笔记本后停止笔记本并增加磁盘大小。
如果您的问题是“SageMaker 笔记本和 Zeppelin 笔记本有什么区别?”
答案是第一个用Jupter(很流行),第二个用Zeppelin。
如果您的问题是“仅使用 SageMaker notebook 与使用 SM notebook + Glue dev Endpoint 有什么区别?”
答案是:如果你是运行普通pandas + numpy而不使用Spark,SM notebook会便宜很多(如果你使用小型实例类型并且你的数据相对较小)。但是,如果您正在尝试处理大型数据集并计划使用 spark,那么 SM notebook + Glue Dev endpoint 将是开发作业的最佳选择,稍后将作为 Glue 作业(转换作业)(服务器更少)。
SM notebook 类似于 运行 python EC2 实例上的代码,而 SM notebook + Glue 用于开发 ETL 作业,您可以启动这些作业来处理增量。
我有一份机器学习工作,我想 运行 使用 Sagemaker。对于数据准备和转换,我正在使用一些 numpy 和 pandas 步骤来用笔记本转换它们。
我注意到 AWS Glue 都有 Sagemaker and Zeppelin notebook which can be created via development endpoint
网上没有太多信息,我可以找到使用其中一个的区别和好处(即 Sagemaker 笔记本和从 s3 导入与从 Glue 创建笔记本)
根据我的研究和尝试,我似乎可以用两者实现相同的目标:
- Sagemaker notebook 并直接从 s3 导入 + 进一步 python 代码来处理数据
- Glue(需要抓取并创建数据集)如图所示 here,创建开发端点并使用类似的脚本来处理数据。
有人能解释一下吗?
如果您只使用 numpy 和 pandas,就功能而言,它并没有真正的区别。但这也取决于您的数据,如果您想使用 Glue table 中的数据,那么通过端点使用 Zeppelin 笔记本会更容易。
Costwise 我很确定 Sagemaker 更便宜。
问题不清楚,让我解释一下。
启动 Glue 开发端点时,您可以附加 SageMaker 笔记本或 Zeppelin 笔记本。两者都将由 Glue 创建和配置,您的脚本将在 Glue Dev 端点上执行。
如果您的问题是“从 Glue 控制台创建的 SageMaker 笔记本和从 SageMaker 控制台创建的 SageMaker 笔记本有什么区别?
当您从 Glue 控制台创建笔记本实例时,创建的笔记本将始终启用 public 互联网访问。 This blog 解释与 SM 笔记本的网络配置之间的差异。您也无法创建具有特定磁盘大小的笔记本,但您可以在创建笔记本后停止笔记本并增加磁盘大小。
如果您的问题是“SageMaker 笔记本和 Zeppelin 笔记本有什么区别?”
答案是第一个用Jupter(很流行),第二个用Zeppelin。
如果您的问题是“仅使用 SageMaker notebook 与使用 SM notebook + Glue dev Endpoint 有什么区别?”
答案是:如果你是运行普通pandas + numpy而不使用Spark,SM notebook会便宜很多(如果你使用小型实例类型并且你的数据相对较小)。但是,如果您正在尝试处理大型数据集并计划使用 spark,那么 SM notebook + Glue Dev endpoint 将是开发作业的最佳选择,稍后将作为 Glue 作业(转换作业)(服务器更少)。
SM notebook 类似于 运行 python EC2 实例上的代码,而 SM notebook + Glue 用于开发 ETL 作业,您可以启动这些作业来处理增量。