AWS Glue 爬虫查询

AWS Glue Crawler query

我设置了一些 AWS Glue 爬虫来爬取 S3 中的 CSV 以填充我在 Athena 中的 table。我的场景和问题：我每天用更新版本替换 S3 中的 .csv 文件。我是否必须再次运行现有的爬虫，也许是为了用最新的内容更新 Athena 上的 table？或者，如果架构发生变化（例如添加了额外的列），爬虫是否只需要运行？我只是想确保我在 Athena 中的 tables 始终根据更新的 CSV 输出所有数据——我很少对 table 结构进行任何架构更改。如果只在实际结构发生变化时才需要爬虫运行那么我宁愿运行它们的频率要低得多

当粘合爬虫运行时，会发生以下操作：

它对数据进行分类以确定原始数据的格式、架构和相关属性
将数据分组到表或分区中
将元数据写入数据目录

Athena 引用数据目录中创建的表架构来查询指定的 S3 数据源。因此，如果架构保持不变，则可以减少爬虫运行的调度。

您还可以参考此处的文档以了解在 Athena 中使用粘合爬虫和 csv 文件：https://docs.aws.amazon.com/athena/latest/ug/glue-best-practices.html

AWS Glue 爬虫查询

AWS Glue Crawler query

amazon-s3

amazon-web-services

amazon-athena

aws-glue