运行 AWS Glue 爬虫是否需要在执行 ETL 作业之前检测新数据?
Is it required to run AWS Glue crawler to detect new data before executing an ETL job?
AWS Glue 文档明确指出爬虫从源(JDBS 或 s3)中抓取元数据信息并填充数据目录(creates/updates 数据库和相应的 tables)。
但是,如果我们知道,我们是否需要 运行 爬虫定期检测源中的新数据(即 s3 上的新对象,db 中的新行 table)尚不清楚没有 scheme/partitioning 变化。
那么,是否需要 运行 爬虫才能 运行 执行 ETL 作业才能获取新数据?
AWS Glue 将自动检测 S3 存储桶中的新数据,只要它位于您现有的文件夹(分区)内。
如果数据被添加到新的文件夹(分区),您需要使用MSCK REPAIR TABLE mytable;
重新加载您的分区。
在作业之前 运行 爬虫是必要的。
爬虫替换了 Athena MSCK REPAIR TABLE 并且还使用添加的新列更新了 table。
AWS Glue 文档明确指出爬虫从源(JDBS 或 s3)中抓取元数据信息并填充数据目录(creates/updates 数据库和相应的 tables)。
但是,如果我们知道,我们是否需要 运行 爬虫定期检测源中的新数据(即 s3 上的新对象,db 中的新行 table)尚不清楚没有 scheme/partitioning 变化。
那么,是否需要 运行 爬虫才能 运行 执行 ETL 作业才能获取新数据?
AWS Glue 将自动检测 S3 存储桶中的新数据,只要它位于您现有的文件夹(分区)内。
如果数据被添加到新的文件夹(分区),您需要使用MSCK REPAIR TABLE mytable;
重新加载您的分区。
在作业之前 运行 爬虫是必要的。
爬虫替换了 Athena MSCK REPAIR TABLE 并且还使用添加的新列更新了 table。