AWS 胶水增量加载
AWS glue incremental load
我有一个 S3 存储桶,用于转储日常文件。 AWS 爬虫在我的胶水作业运行的第一天从这个 location.On 抓取数据,它在第一天第三天获取 AWS crawler.For 示例创建的 table 中存在的所有数据文件在那里。(即file1.txt,file2.txt,file3.txt)并且胶水作业在胶水作业的第一天处理这些文件execution.On,第二天另外两个文件到达S3 location.Now 在 S3 位置这些是存在的文件。(即 file1.txt、file2.txt、file3.txt、file4.txt、file5.txt)。我可以以某种方式设计我的 AWS 爬虫,使其在第二天的作业执行中只读取两个文件(file4.txt、file5.txt)?否则我如何编写 AWS 胶水作业来识别这些增量文件?
您需要为胶水启用 AWS 作业书签,它将能够保留已处理数据的状态。具体操作方法可以参考下面的link
我有一个 S3 存储桶,用于转储日常文件。 AWS 爬虫在我的胶水作业运行的第一天从这个 location.On 抓取数据,它在第一天第三天获取 AWS crawler.For 示例创建的 table 中存在的所有数据文件在那里。(即file1.txt,file2.txt,file3.txt)并且胶水作业在胶水作业的第一天处理这些文件execution.On,第二天另外两个文件到达S3 location.Now 在 S3 位置这些是存在的文件。(即 file1.txt、file2.txt、file3.txt、file4.txt、file5.txt)。我可以以某种方式设计我的 AWS 爬虫,使其在第二天的作业执行中只读取两个文件(file4.txt、file5.txt)?否则我如何编写 AWS 胶水作业来识别这些增量文件?
您需要为胶水启用 AWS 作业书签,它将能够保留已处理数据的状态。具体操作方法可以参考下面的link