胶水爬虫排除模式

Glue crawler exclude patterns

我有一个 s3 存储桶,我正在尝试对其进行爬网和编目。格式是这样的,其中 SQL 文件是 DDL 查询(CREATE TABLE 语句)匹配不同数据文件的模式,即 data1data2 等.)

s3://my-bucket/somedata/20180101/data1/stuff.txt.gz
s3://my-bucket/somedata/20180101/data2/stuff.txt.gz
s3://my-bucket/somedata/20180101/data1.sql
s3://my-bucket/somedata/20180101/data2.sql  
s3://my-bucket/somedata/20180102/data1/stuff.txt.gz
s3://my-bucket/somedata/20180102/data2/stuff.txt.gz
...

我只想编目 data1,所以我正在尝试使用 exclude patterns in the Glue Crawler - 见下文 - 即 *.sqldata2/*.

不幸的是,爬虫仍在对 s3://my-bucket/somedata/ 根路径内的所有内容进行分类。我可以忍受 data2 编目;我最 concerned/annoyed sql 文件。

任何人都有排除模式的经验或能够指出这里有什么问题吗?

排除模式中的 * 不跨目录,但 ** 跨目录。

要排除所有 .sql 个文件,您可以使用:**.sql

您的 data2/* 排除的完整路径是 s3://my-bucket/somedata/data2/*,但它缺少您的日期分区文件夹。这可以通过在前面添加 * 来解决。

要排除 data2/ 目录,请使用:*/data2/*

此外,要排除文件夹模式 -
排除模式:folder_n**/**(排除所有以“folder_n”开头的文件夹)