粘附爬虫以读取模式匹配的 s3 文件

Glue crawler to read pattern matched s3 files

在AWS Glue Crawler中指定s3 path时，我们能否提及一些模式，使爬虫只读取s3 folder中具有特定名称的文件，而不是读取路径中的每个文件？

有点像 s3://sample_folder/sample_file%pattern%.csv.

遗憾的是，Glue 不支持包含过滤器的正则表达式。您可以指定文件夹路径并设置排除规则。例如路径为s3://sample_folder，排除模式为*.{txt,avro}，过滤掉所有txt和avro文件。

有关详细信息，请参阅 Include and Exclude Patterns。

您必须编写粘合作业并使用 spark.read 方法才能使用正则表达式。爬虫不支持 include-regex。

嘿，您可以使用排除模式功能来仅选择您想要的文件，例如将您不需要的所有模式保留在排除模式中，然后只考虑您想要的模式。Insert and Exclude pattern