何时使用 Amazon Redshift spectrum over AWS Glue ETL 查询 Amazon S3 数据

When to use Amazon Redshift spectrum over AWS Glue ETL to query on Amazon S3 data

由于 AWS Glue ETL 可以是一个 python 脚本,它可用于使用数据库接口执行 SQL 查询,并且可以将数据从 Amazon S3 加载到 DynamicFrame 中。我试图了解何时使用 Amazon Redshift 频谱查询 S3 数据是有利的。

AWS Glue 用于收集元数据(爬网)和 ETL。它不用于报告或分析。它可以应用高度复杂的转换(非常适合复杂的 ETL 要求)。

Redshift Spectrum 主要用于针对存储在 S3 中的数据生成报告和分析,通常与存储在 Redshift 中的数据相结合。然而,CAN 也可用于简单的 ETL。如果您只需要简单类型的 ETL,则设置和使用比 Glue 简单得多。

还有一个您没有提到的选项,那就是 amazon Athena,这是一个很好的工具,可以 运行 直接查询 S3 数据。它类似于 Redshift Spectrum,但通常更快、更便宜,具体取决于您的用例。它不能将 S3 数据与 Redshift 数据结合起来。