Glue Crawler 能否爬取 deltalake 文件以在 aws glue catalogue 中创建表?

Can Glue Crawler crawl the deltalake files to create tables in aws glue catalogue?

我们有一个现有的基础设施,我们正在通过 aws 爬虫爬取 S3 目录。这些 S3 目录是作为 AWS datalake 的一部分创建的,并通过 spark 作业转储。 现在为了实现 delta 特性,我们在 deltalake 上做了一个 POC。因此,当我通过我们的 spark-delta 作业在 S3 中写入这些 deltalake 文件时,我的爬虫无法从这些爬虫创建表。

我们可以使用 AWS 爬虫来爬取 delta lake 文件吗?

根据此 doc you should not be using Glue crawler.You should be using manifest files to integrate 与 Athena 的增量文件。

Warning

Do not use AWS Glue Crawler on the location to define the table in AWS Glue. Delta Lake maintains files corresponding to multiple versions of the table, and querying all the files crawled by Glue will generate incorrect results.