AWS Glue - 是否使用爬虫
AWS Glue - using Crawlers or not
对于 运行 镶木地板格式的 S3 存储桶数据的作业,有两种方法:
创建爬虫以创建架构table,使用glueContext.create_dynamic_frame.from_catalog(dbname, tablename)
在Glue 作业中形成动态框架。
使用 glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")
直接从 S3 读取
由于我的数据方案不会及时更改,使用爬虫是否有任何优势(性能方面或其他方面)?为什么在那种情况下我需要一个爬虫?
如果您的数据没有分区或者您不想使用 predicate-pushdown 功能,那么您不需要 运行 爬虫。
但是,如果它已分区并且您希望能够使用谓词下推部分加载数据,则应在 Data Catalog 中注册新分区,而 Crawler 是最简单的方法之一(有 虽然)
对于 运行 镶木地板格式的 S3 存储桶数据的作业,有两种方法:
创建爬虫以创建架构table,使用
glueContext.create_dynamic_frame.from_catalog(dbname, tablename)
在Glue 作业中形成动态框架。使用
glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")
直接从 S3 读取
由于我的数据方案不会及时更改,使用爬虫是否有任何优势(性能方面或其他方面)?为什么在那种情况下我需要一个爬虫?
如果您的数据没有分区或者您不想使用 predicate-pushdown 功能,那么您不需要 运行 爬虫。
但是,如果它已分区并且您希望能够使用谓词下推部分加载数据,则应在 Data Catalog 中注册新分区,而 Crawler 是最简单的方法之一(有