让 AWS Glue Crawler 重新访问已删除分区的文件夹

Get AWS Glue Crawler to re-visit the folder for a partition that's been deleted

我有一个 AWS Glue 爬网程序,它设置为仅爬网新文件夹。我试图查看删除分区是否会导致它重新访问相应的 S3 文件夹,但事实并非如此。有没有办法强制重新访问文件夹,而不是更改爬虫以爬取所有文件夹?

如果您的分区是“可预测的”,例如基于日期的分区,您可以完全绕过爬虫并使用分区投影。查看文档:

https://docs.aws.amazon.com/athena/latest/ug/partition-projection.html

如果你只想'notice'一个删除的分区,你可以运行 MSCK REPAIR TABLE 表名。

不确定自动化它的最佳方式(也许是 Lambda 到 Athena?)。