胶水爬虫排除模式

Question

我有一个 s3 存储桶，我正在尝试对其进行爬网和编目。格式是这样的，其中 SQL 文件是 DDL 查询（CREATE TABLE 语句）匹配不同数据文件的模式，即 data1、data2 等.)

s3://my-bucket/somedata/20180101/data1/stuff.txt.gz
s3://my-bucket/somedata/20180101/data2/stuff.txt.gz
s3://my-bucket/somedata/20180101/data1.sql
s3://my-bucket/somedata/20180101/data2.sql  
s3://my-bucket/somedata/20180102/data1/stuff.txt.gz
s3://my-bucket/somedata/20180102/data2/stuff.txt.gz
...

我只想编目 data1，所以我正在尝试使用 exclude patterns in the Glue Crawler - 见下文 - 即 *.sql 和 data2/*.

不幸的是，爬虫仍在对 s3://my-bucket/somedata/ 根路径内的所有内容进行分类。我可以忍受 data2 编目；我最 concerned/annoyed sql 文件。

任何人都有排除模式的经验或能够指出这里有什么问题吗？

Answer 1

排除模式中的 * 不跨目录，但 ** 跨目录。

要排除所有 .sql 个文件，您可以使用：**.sql

您的 data2/* 排除的完整路径是 s3://my-bucket/somedata/data2/*，但它缺少您的日期分区文件夹。这可以通过在前面添加 * 来解决。

要排除 data2/ 目录，请使用：*/data2/*

Answer 2

此外，要排除文件夹模式 -
排除模式：folder_n**/**（排除所有以“folder_n”开头的文件夹）

胶水爬虫排除模式

Glue crawler exclude patterns

aws-glue