运行 AWS Glue 爬虫是否需要在执行 ETL 作业之前检测新数据？

Is it required to run AWS Glue crawler to detect new data before executing an ETL job?

AWS Glue 文档明确指出爬虫从源（JDBS 或 s3）中抓取元数据信息并填充数据目录（creates/updates 数据库和相应的 tables）。

但是，如果我们知道，我们是否需要运行爬虫定期检测源中的新数据（即 s3 上的新对象，db 中的新行 table）尚不清楚没有 scheme/partitioning 变化。

那么，是否需要运行爬虫才能运行执行 ETL 作业才能获取新数据？

AWS Glue 将自动检测 S3 存储桶中的新数据，只要它位于您现有的文件夹（分区）内。

如果数据被添加到新的文件夹（分区），您需要使用MSCK REPAIR TABLE mytable;重新加载您的分区。

在作业之前运行爬虫是必要的。

爬虫替换了 Athena MSCK REPAIR TABLE 并且还使用添加的新列更新了 table。