粘附爬虫以读取模式匹配的 s3 文件

Glue crawler to read pattern matched s3 files

AWS Glue Crawler中指定s3 path时,我们能否提及一些模式,使爬虫只读取s3 folder中具有特定名称的文件,而不是读取路径中的每个文件?

有点像 s3://sample_folder/sample_file%pattern%.csv.

遗憾的是,Glue 不支持包含过滤器的正则表达式。您可以指定文件夹路径并设置排除规则。例如路径为s3://sample_folder,排除模式为*.{txt,avro},过滤掉所有txt和avro文件。

有关详细信息,请参阅 Include and Exclude Patterns

您必须编写粘合作业并使用 spark.read 方法才能使用正则表达式。爬虫不支持 include-regex。

嘿,您可以使用排除模式功能来仅选择您想要的文件,例如将您不需要的所有模式保留在排除模式中,然后只考虑您想要的模式。Insert and Exclude pattern