AWS Glue - 是否使用爬虫

AWS Glue - using Crawlers or not

对于运行镶木地板格式的 S3 存储桶数据的作业，有两种方法：

创建爬虫以创建架构table，使用glueContext.create_dynamic_frame.from_catalog(dbname, tablename)在Glue 作业中形成动态框架。
使用 glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")

由于我的数据方案不会及时更改，使用爬虫是否有任何优势（性能方面或其他方面）？为什么在那种情况下我需要一个爬虫？

如果您的数据没有分区或者您不想使用 predicate-pushdown 功能，那么您不需要运行爬虫。

但是，如果它已分区并且您希望能够使用谓词下推部分加载数据，则应在 Data Catalog 中注册新分区，而 Crawler 是最简单的方法之一（有虽然)