当我再次 运行 Glue Crawler 而它指向的 S3 路径中的文件没有任何变化时会发生什么?
What happens when I run the Glue Crawler again without any change in the files in S3 path it pointed to?
我运行 一个 AWS 爬虫。同样,我 运行 同一个爬虫。第一次和第二次有什么区别?
当我 运行 相同的 AWS 爬虫在 S3 中的文件没有任何变化的情况下获取时,它会爬取所有文件吗?
有时我的存储桶中可能有 500 个文件。 Crawler 会处理所有文件还是什么都不做,因为文件未修改且没有新文件?
如果您的搜寻器 运行 不止一次(可能是按计划),它会在您的数据存储中查找新的或更改的文件或表。爬虫的输出包括自上次 运行 以来找到的新表和分区。
我想它有一种机制可以使用文件的修改日期来跟踪 S3 文件的更改。
我运行 一个 AWS 爬虫。同样,我 运行 同一个爬虫。第一次和第二次有什么区别?
当我 运行 相同的 AWS 爬虫在 S3 中的文件没有任何变化的情况下获取时,它会爬取所有文件吗?
有时我的存储桶中可能有 500 个文件。 Crawler 会处理所有文件还是什么都不做,因为文件未修改且没有新文件?
如果您的搜寻器 运行 不止一次(可能是按计划),它会在您的数据存储中查找新的或更改的文件或表。爬虫的输出包括自上次 运行 以来找到的新表和分区。
我想它有一种机制可以使用文件的修改日期来跟踪 S3 文件的更改。