AWS S3 ETL 工具选项
AWS S3 ETL tool options
试图了解我将使用什么来安排和 运行 作业将数据移动到 S3,运行 脚本,然后在 s3 周围移动它。
我的要求是能够从 API 以及直接从数据库中摄取。一些要摄取的格式将是 XML,而其他格式可能是平面文件。原始文件需要合并和转换并转换为可以生成图表的格式。
作为 ETL 工具,AWS 胶水是什么样的?我的具体问题是,您能否看到完成的管道在创建后以图形视图显示数据源和处理部分?
我使用过 Azure 数据工厂 - 它有一个图形 UI 来查看和监控我发现非常有用的管道。只是想知道 AWS glue 是否有类似的东西。
如果不是,AWS S3 上的 Nifi 会是一个好方法吗?
谢谢
如果您正在寻找最好的 GUI,我会推荐 NiFi。它通常与 S3 一起使用,并且有许多开箱即用的连接器用于其他数据源。如果你想在 AWS 云之外做事,那就更有趣了。
话虽如此,我认为 Glue 也能完成这项工作。
运行 当您拥有大量 AWS 足迹时,数据工厂感觉像是一种反模式。
完全披露:没有与 Glue/Data Factory 合作并为 Cloudera 工作,NiFi 背后的驱动力
我目前正在使用 AWS Glue 将数据从 DB 提取到 s3,处理数据并将其保存回 Redshift/S3 或通过 API 发送给我的客户。 AWS Glue GUI 不是很好,你不会看到你的流程图表,有时你需要使用其他工具,如 step functions、airflow 来编排你的工作。此外,我的大部分工作都必须使用 PySpark,因为 AWS Glue 方法太有限了。
跟监控相关,可以看看有没有报错,有多少CPU,你的作业消耗了多少内存,s3 bytesread/written。如果您需要其他信息,您需要使用记录器或打印将其发送到日志。
试图了解我将使用什么来安排和 运行 作业将数据移动到 S3,运行 脚本,然后在 s3 周围移动它。
我的要求是能够从 API 以及直接从数据库中摄取。一些要摄取的格式将是 XML,而其他格式可能是平面文件。原始文件需要合并和转换并转换为可以生成图表的格式。
作为 ETL 工具,AWS 胶水是什么样的?我的具体问题是,您能否看到完成的管道在创建后以图形视图显示数据源和处理部分?
我使用过 Azure 数据工厂 - 它有一个图形 UI 来查看和监控我发现非常有用的管道。只是想知道 AWS glue 是否有类似的东西。
如果不是,AWS S3 上的 Nifi 会是一个好方法吗?
谢谢
如果您正在寻找最好的 GUI,我会推荐 NiFi。它通常与 S3 一起使用,并且有许多开箱即用的连接器用于其他数据源。如果你想在 AWS 云之外做事,那就更有趣了。
话虽如此,我认为 Glue 也能完成这项工作。
运行 当您拥有大量 AWS 足迹时,数据工厂感觉像是一种反模式。
完全披露:没有与 Glue/Data Factory 合作并为 Cloudera 工作,NiFi 背后的驱动力
我目前正在使用 AWS Glue 将数据从 DB 提取到 s3,处理数据并将其保存回 Redshift/S3 或通过 API 发送给我的客户。 AWS Glue GUI 不是很好,你不会看到你的流程图表,有时你需要使用其他工具,如 step functions、airflow 来编排你的工作。此外,我的大部分工作都必须使用 PySpark,因为 AWS Glue 方法太有限了。 跟监控相关,可以看看有没有报错,有多少CPU,你的作业消耗了多少内存,s3 bytesread/written。如果您需要其他信息,您需要使用记录器或打印将其发送到日志。