如何使用 AWS Glue 从 Web 服务端点提取的数据开始?

How can I use AWS Glue to start with data pulled from web service endpoints?

更多源数据来自我需要定期轮询的 Web 服务端点。获得数据后,我可以使用 pyspark 执行传统的 ETL,并最终将数据写入 S3 和 Redshift。

我不确定如何进行初始提取,甚至不确定我应该在 AWS Glue 文档中查找什么。关于数据目录,"source" Web 服务端点是否可以被视为 table?

有例子就更好了

我认为 'source' 网络服务端点不能被视为 Glue 数据目录中的 table。但是,让它发挥作用应该不会太难。

  1. 设置一些东西来定期轮询此 Web 服务端点以检索您需要的数据。轮询的数据应放入 S3 'source' bucket/location.
  2. 在 Glue 数据目录中设置一个 Table 来描述从步骤 1 中轮询的数据。根据此数据的外观,您可以使用爬虫来创建 table,但我在手动创建 table 方面有更好的经验(最初,最终使用 CloudFormation)。
  3. 使用作业创建向导(通过“作业”视图中的 Add Job 按钮)按照提示创建作业。这里的重要部分是确保将 'source' 设置为步骤 2 中的 table 设置。
  4. 创建作业后,您将能够修改脚本(Python 或 Scala)以应用您选择的 ETL。

This page from the AWS documentation 非常详细地描述了过程。