AWS Glue 和 Python 集成

AWS Glue and Python Integration

我有一个存在于 python 中的数据规范化流程,但现在需要扩展。此过程当前通过特定于作业的配置文件运行,其中包含需要应用于该作业的 table 数据的转换函数列表。转换功能是互斥的,可以按任何顺序应用。所有转换函数都存在于一个库中,只有当它们列在特定于作业的配置文件中时,它们才会被导入并应用于数据。不同的作业将在该作业的配置中列出不同的所需功能,但所有功能都将存在于库中。

在最一般的意义上,AWS Glue 如何处理这样的过程?我不需要技术示例,只需要高级概述。只是想了解一些选项。谢谢!

在使用 AWS glue 时,您需要考虑的最重要的一件事情是,这是一个带有扩展的无服务器 spark-based 环境。这意味着您需要调整您的脚本以使其类似于 pySpark。如果您同意,那么您可以按照 AWS Glue Documentation

中的说明使用外部 python 库

如果您已经 运行ning 了脚本并且不想使用 Spark,您可以随时考虑 AWS Data Pipeline。它是 运行 数据转换的服务,其方式不仅仅是 Spark。不利的一面是,AWS Data Pipeline 是任务驱动的,而不是数据驱动的,这意味着没有目录或模式管理。

如果您想将 AWS Data Pipeline 与 Python 一起使用,当您阅读文档时并不明显,但该过程基本上是将 shell 文件暂存到 S3 中,并附上设置说明您的 python 环境并调用脚本。然后您为管道配置调度,AWS 将负责在需要时启动虚拟机并在之后停止。你有一个 good post at Whosebug about this