运行 AWS Glue 爬虫是否需要在执行 ETL 作业之前检测新数据?

Is it required to run AWS Glue crawler to detect new data before executing an ETL job?

AWS Glue 文档明确指出爬虫从源(JDBS 或 s3)中抓取元数据信息并填充数据目录(creates/updates 数据库和相应的 tables)。

但是,如果我们知道,我们是否需要 运行 爬虫定期检测源中的新数据(即 s3 上的新对象,db 中的新行 table)尚不清楚没有 scheme/partitioning 变化。

那么,是否需要 运行 爬虫才能 运行 执行 ETL 作业才能获取新数据?

AWS Glue 将自动检测 S3 存储桶中的新数据,只要它位于您现有的文件夹(分区)内。

如果数据被添加到新的文件夹(分区),您需要使用MSCK REPAIR TABLE mytable;重新加载您的分区。

在作业之前 运行 爬虫是必要的。

爬虫替换了 Athena MSCK REPAIR TABLE 并且还使用添加的新列更新了 table。