AWS Glue Crawler 不追加数据

AWS Glue Crawler does not append data

我创建了 aws 爬虫,它使用分类器将 csv 文件导入数据 table。 哪个工作正常。

问题:每次爬虫都会覆盖旧数据。我想保留以前的数据并附加 csv 文件的新内容。

即我上传了包含 250 条记录的 csv 文件。当我执行该爬虫时,它填充了 table 250 行。

现在,如果我用其他内容替换该 csv 文件,那么它会覆盖旧的 250 行并仅使用最新数据填充 table。

任何人都可以帮助我如何保留旧记录并追加新数据。

谢谢,

Glue 爬虫不会用 rows/records 填充 table。它只是定义有关您的数据的元信息,即推断 table 这些文件在 S3(或其他资源)上的架构和位置等。这意味着如果您想保留旧记录,则需要将这两个文件都保留在 S3 上。

注意,如果您在 S3 上将新文件保存在与旧文件相同的 "folder" 中,则无需重新 运行 爬虫,因为已经定义了查询这些文件所需的信息(例如使用 Athena)。