AWS Glue Crawler 在没有 Glue Job 的情况下将所有数据发送到 Glue Catalog 和 Athena
AWS Glue Crawler sends all data to Glue Catalog and Athena without Glue Job
我是 AWS Glue 的新手。我正在使用 AWS Glue Crawler 从两个 S3 存储桶中抓取数据。我在每个桶中有一个文件。
AWS Glue Crawler 在 AWS Glue 数据目录中创建了两个表,我也能够在 AWS Athena 中查询数据。
我的理解是为了在 Athena 中获取数据,我需要创建 Glue 作业,这将在 Athena 中提取数据,但我错了。说 Glue 爬虫不需要 Glue 作业就可以将数据放在 Athena 中是否正确,如果我们需要将数据推送到 SQL、Oracle 等数据库中,那么我们需要 Glue Job?
我如何配置 Glue Crawler,使其仅获取增量数据而不是始终从源存储桶中获取所有数据?
感谢任何帮助?
Glue 爬虫仅用于识别您的数据所在的模式。您的数据位于某个地方(例如 S3),爬虫通过浏览一定比例的文件来识别模式。
然后您可以使用像 Athena(托管的无服务器 Apache Presto)这样的查询引擎来查询数据,因为它已经有一个架构。
如果你想处理/清理/聚合数据,你可以使用 Glue Jobs,它基本上是托管的无服务器 Spark。
我是 AWS Glue 的新手。我正在使用 AWS Glue Crawler 从两个 S3 存储桶中抓取数据。我在每个桶中有一个文件。 AWS Glue Crawler 在 AWS Glue 数据目录中创建了两个表,我也能够在 AWS Athena 中查询数据。
我的理解是为了在 Athena 中获取数据,我需要创建 Glue 作业,这将在 Athena 中提取数据,但我错了。说 Glue 爬虫不需要 Glue 作业就可以将数据放在 Athena 中是否正确,如果我们需要将数据推送到 SQL、Oracle 等数据库中,那么我们需要 Glue Job?
我如何配置 Glue Crawler,使其仅获取增量数据而不是始终从源存储桶中获取所有数据?
感谢任何帮助?
Glue 爬虫仅用于识别您的数据所在的模式。您的数据位于某个地方(例如 S3),爬虫通过浏览一定比例的文件来识别模式。
然后您可以使用像 Athena(托管的无服务器 Apache Presto)这样的查询引擎来查询数据,因为它已经有一个架构。
如果你想处理/清理/聚合数据,你可以使用 Glue Jobs,它基本上是托管的无服务器 Spark。