AWS S3 ETL 工具选项

AWS S3 ETL tool options

试图了解我将使用什么来安排和 运行 作业将数据移动到 S3,运行 脚本,然后在 s3 周围移动它。

我的要求是能够从 API 以及直接从数据库中摄取。一些要摄取的格式将是 XML,而其他格式可能是平面文件。原始文件需要合并和转换并转换为可以生成图表的格式。

作为 ETL 工具,AWS 胶水是什么样的?我的具体问题是,您能否看到完成的管道在创建后以图形视图显示数据源和处理部分?

我使用过 Azure 数据工厂 - 它有一个图形 UI 来查看和监控我发现非常有用的管道。只是想知道 AWS glue 是否有类似的东西。

如果不是,AWS S3 上的 Nifi 会是一个好方法吗?

谢谢

如果您正在寻找最好的 GUI,我会推荐 NiFi。它通常与 S3 一起使用,并且有许多开箱即用的连接器用于其他数据源。如果你想在 AWS 云之外做事,那就更有趣了。

话虽如此,我认为 Glue 也能完成这项工作。

运行 当您拥有大量 AWS 足迹时,数据工厂感觉像是一种反模式。

完全披露:没有与 Glue/Data Factory 合作并为 Cloudera 工作,NiFi 背后的驱动力

我目前正在使用 AWS Glue 将数据从 DB 提取到 s3,处理数据并将其保存回 Redshift/S3 或通过 API 发送给我的客户。 AWS Glue GUI 不是很好,你不会看到你的流程图表,有时你需要使用其他工具,如 step functions、airflow 来编排你的工作。此外,我的大部分工作都必须使用 PySpark,因为 AWS Glue 方法太有限了。 跟监控相关,可以看看有没有报错,有多少CPU,你的作业消耗了多少内存,s3 bytesread/written。如果您需要其他信息,您需要使用记录器或打印将其发送到日志。