AWS Glue 爬虫查询

AWS Glue Crawler query

我设置了一些 AWS Glue 爬虫来爬取 S3 中的 CSV 以填充我在 Athena 中的 table。 我的场景和问题: 我每天用更新版本替换 S3 中的 .csv 文件。我是否必须再次 运行 现有的爬虫,也许是为了用最新的内容更新 Athena 上的 table?或者,如果架构发生变化(例如添加了额外的列),爬虫是否只需要 运行?我只是想确保我在 Athena 中的 tables 始终根据更新的 CSV 输出所有数据——我很少对 table 结构进行任何架构更改。如果只在实际结构发生变化时才需要爬虫 运行 那么我宁愿 运行 它们的频率要低得多

当粘合爬虫运行时,会发生以下操作:

  • 它对数据进行分类以确定原始数据的格式、架构和相关属性
  • 将数据分组到表或分区中
  • 将元数据写入数据目录

Athena 引用数据目录中创建的表架构来查询指定的 S3 数据源。因此,如果架构保持不变,则可以减少爬虫运行的调度。

您还可以参考此处的文档以了解在 Athena 中使用粘合爬虫和 csv 文件:https://docs.aws.amazon.com/athena/latest/ug/glue-best-practices.html