如何在爬取 Amazon S3 文件夹时排除日期模式。使用 aws 爬虫

How to exclude date patterns while crawling Amazon S3 folders. using aws crawler

我的文件夹结构如下:

s3://foo/table1/2021-06-12/03-35-00/
s3://foo/table1/Current/data
s3://foo/table2/2021-06-12/03-35-00/
s3://foo/table2/Current/data
s3://foo/table3/2021-06-12/03-35-00/
s3://foo/table3/Current/data

...等等

我想排除所有日期和时间戳模式,只抓取 Current/data 个文件夹。如何实现?

考虑到您当前的抓取工具包含路径设置为抓取s3://foo位置,那么您可以使用排除模式 爬虫设置中的配置 像这样:s3://foo/tabel*/2021*/** 如果从日期 2021 开始,它将跳过所有标签的所有文件和文件夹...

同样,您可以在此部分添加其他 glob 模式 以跳过其他文件和文件夹。

为了更好地理解,您可以参考 包含和排除模式 部分 here