AWS Glue - 是否使用爬虫

AWS Glue - using Crawlers or not

对于 运行 镶木地板格式的 S3 存储桶数据的作业,有两种方法:

  1. 创建爬虫以创建架构table,使用glueContext.create_dynamic_frame.from_catalog(dbname, tablename)在Glue 作业中形成动态框架。

  2. 使用 glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")

  3. 直接从 S3 读取

由于我的数据方案不会及时更改,使用爬虫是否有任何优势(性能方面或其他方面)?为什么在那种情况下我需要一个爬虫?

如果您的数据没有分区或者您不想使用 predicate-pushdown 功能,那么您不需要 运行 爬虫。

但是,如果它已分区并且您希望能够使用谓词下推部分加载数据,则应在 Data Catalog 中注册新分区,而 Crawler 是最简单的方法之一(有 虽然)