AWS Glue 爬虫有什么作用

What does an AWS Glue Crawler do

我已经阅读了 AWS glue 文档 re: 此处的爬虫:https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html 但我仍然不清楚 Glue 爬虫 的作用 。爬虫是否会遍历您的 S3 存储桶,并创建指向这些存储桶的指针?

当文档说 "The output of the crawler consists of one or more metadata tables that are defined in your Data Catalog" 这些元数据表的用途是什么?

CRAWLER 创建元数据,允许 GLUE 和 ATHENA 等服务将 S3 信息视为带有表格的数据库。也就是说,它允许您创建 Glue 目录。

这样就可以看到s3作为一个由多个表组成的数据库的信息。

例如,如果您要创建爬虫,则必须指定以下字段:

数据库 --> 数据库名称 服务角色 service-role/AWSGlueServiceRole 选定的分类器 --> 指定分类器 包含路径 --> S3 位置

爬虫需要分析指定 s3 位置的数据和 generate/update Glue 数据目录,它基本上是实际数据的元存储(类似于 Hive metastore)。换句话说,它保留有关数据物理位置、架构、格式和分区的信息,这使得通过 Athena 查询实际数据或将其加载到 Glue 作业中成为可能。

我建议阅读 this 文档以更好地理解 Glue 爬虫,当然也可以做一些实验。