AWS Glue 对 S3 上不断到达的数据进行增量爬网
AWS Glue Incremental crawl of continually arriving data on S3
我正在寻找一种方法来为 S3 数据设置增量 Glue 爬虫,其中数据连续到达并按捕获日期进行分区(因此包含路径中的 S3 路径包含 date=yyyy-mm-dd)。我担心的是,如果我在一天内 运行 爬虫,将为它创建分区,并且不会在后续爬虫中重新访问。有没有一种方法可以强制对我知道可能仍在接收更新的给定分区进行爬网,同时 运行 爬虫以增量方式爬行而不是在历史数据上浪费资源?
爬网程序将仅访问具有增量爬网的新文件夹(假设您已设置 仅爬网新文件夹 选项)。向现有文件夹添加更多数据会导致问题的唯一情况是,如果您通过将不同格式的文件添加到已爬网的文件夹来更改架构。否则爬虫已经创建分区并知道模式,并准备好提取数据,即使新文件添加到现有文件夹也是如此。
我正在寻找一种方法来为 S3 数据设置增量 Glue 爬虫,其中数据连续到达并按捕获日期进行分区(因此包含路径中的 S3 路径包含 date=yyyy-mm-dd)。我担心的是,如果我在一天内 运行 爬虫,将为它创建分区,并且不会在后续爬虫中重新访问。有没有一种方法可以强制对我知道可能仍在接收更新的给定分区进行爬网,同时 运行 爬虫以增量方式爬行而不是在历史数据上浪费资源?
爬网程序将仅访问具有增量爬网的新文件夹(假设您已设置 仅爬网新文件夹 选项)。向现有文件夹添加更多数据会导致问题的唯一情况是,如果您通过将不同格式的文件添加到已爬网的文件夹来更改架构。否则爬虫已经创建分区并知道模式,并准备好提取数据,即使新文件添加到现有文件夹也是如此。