AWS Glue：我真的需要爬虫来获取新内容吗？

AWS Glue: Do I really need a Crawler for new content?

我从 AWS Glue 文档中了解到，爬虫程序将帮助爬取和发现新数据。但是，我注意到一旦我爬取一次，如果新数据进入 S3，例如当我从 Athena 查询数据目录时，实际上已经发现了数据。那么，我可以说每次添加新数据时我都不需要爬虫来爬取，除非有新的模式吗？

事实上，如果我知道文件的架构，我可以手动创建 table 而无需爬虫，对吗？

如果数据按某些键进行分区（放置在子文件夹中，例如 /data/year=2018/month=11/day=2），那么您需要一个爬虫来在 Data Catalog 中注册新添加的分区（即 /day=3）可以通过 Athena 查询。

但是，如果数据未分区或进入已注册的分区，则无需运行爬虫。

发现并注册新分区

在 Data Catalog 中创建 table 的最简单方法是运行安装爬虫。但是，如果您知道架构并且有耐心编写 CREATE TABLE Athena query or fill all fields via AWS Glue console 那么您也可以这样做。

如果您有架构，则无需使用爬虫，您可能会获得更好的结果（例如，爬虫假设分区列是字符串）。

正如 Yuriy 所说，记得运行 MSCK REPAIR TABLE 或手动注册新分区。

如果您添加了很多分区，MSCK 可能会超时。如果是，请保持运行ning 直到它正常完成。