AWS Glue 和 Python 集成

AWS Glue and Python Integration

我有一个存在于 python 中的数据规范化流程，但现在需要扩展。此过程当前通过特定于作业的配置文件运行，其中包含需要应用于该作业的 table 数据的转换函数列表。转换功能是互斥的，可以按任何顺序应用。所有转换函数都存在于一个库中，只有当它们列在特定于作业的配置文件中时，它们才会被导入并应用于数据。不同的作业将在该作业的配置中列出不同的所需功能，但所有功能都将存在于库中。

在最一般的意义上，AWS Glue 如何处理这样的过程？我不需要技术示例，只需要高级概述。只是想了解一些选项。谢谢！

在使用 AWS glue 时，您需要考虑的最重要的一件事情是，这是一个带有扩展的无服务器 spark-based 环境。这意味着您需要调整您的脚本以使其类似于 pySpark。如果您同意，那么您可以按照 AWS Glue Documentation

中的说明使用外部 python 库

如果您已经运行ning 了脚本并且不想使用 Spark，您可以随时考虑 AWS Data Pipeline。它是运行数据转换的服务，其方式不仅仅是 Spark。不利的一面是，AWS Data Pipeline 是任务驱动的，而不是数据驱动的，这意味着没有目录或模式管理。

如果您想将 AWS Data Pipeline 与 Python 一起使用，当您阅读文档时并不明显，但该过程基本上是将 shell 文件暂存到 S3 中，并附上设置说明您的 python 环境并调用脚本。然后您为管道配置调度，AWS 将负责在需要时启动虚拟机并在之后停止。你有一个 good post at Whosebug about this

AWS Glue 和 Python 集成

AWS Glue and Python Integration

python

amazon-web-services

aws-glue