AWS 胶水增量加载

AWS glue incremental load

amazon-web-services
apache-spark
aws-glue

我有一个 S3 存储桶，用于转储日常文件。 AWS 爬虫在我的胶水作业运行的第一天从这个 location.On 抓取数据，它在第一天第三天获取 AWS crawler.For 示例创建的 table 中存在的所有数据文件在那里。（即file1.txt，file2.txt，file3.txt）并且胶水作业在胶水作业的第一天处理这些文件execution.On，第二天另外两个文件到达S3 location.Now 在 S3 位置这些是存在的文件。（即 file1.txt、file2.txt、file3.txt、file4.txt、file5.txt）。我可以以某种方式设计我的 AWS 爬虫，使其在第二天的作业执行中只读取两个文件（file4.txt、file5.txt）？否则我如何编写 AWS 胶水作业来识别这些增量文件？

您需要为胶水启用 AWS 作业书签，它将能够保留已处理数据的状态。具体操作方法可以参考下面的link

aws glue job bookmark

AWS 胶水增量加载

AWS glue incremental load

amazon-web-services

apache-spark

aws-glue