如何使用 AWS Glue 从 Web 服务端点提取的数据开始？

How can I use AWS Glue to start with data pulled from web service endpoints?

更多源数据来自我需要定期轮询的 Web 服务端点。获得数据后，我可以使用 pyspark 执行传统的 ETL，并最终将数据写入 S3 和 Redshift。

我不确定如何进行初始提取，甚至不确定我应该在 AWS Glue 文档中查找什么。关于数据目录，"source" Web 服务端点是否可以被视为 table？

有例子就更好了

我认为 'source' 网络服务端点不能被视为 Glue 数据目录中的 table。但是，让它发挥作用应该不会太难。

设置一些东西来定期轮询此 Web 服务端点以检索您需要的数据。轮询的数据应放入 S3 'source' bucket/location.
在 Glue 数据目录中设置一个 Table 来描述从步骤 1 中轮询的数据。根据此数据的外观，您可以使用爬虫来创建 table，但我在手动创建 table 方面有更好的经验（最初，最终使用 CloudFormation）。
使用作业创建向导（通过“作业”视图中的 Add Job 按钮）按照提示创建作业。这里的重要部分是确保将 'source' 设置为步骤 2 中的 table 设置。
创建作业后，您将能够修改脚本（Python 或 Scala）以应用您选择的 ETL。

This page from the AWS documentation 非常详细地描述了过程。