粘附爬虫以读取模式匹配的 s3 文件
Glue crawler to read pattern matched s3 files
在AWS Glue Crawler
中指定s3 path
时,我们能否提及一些模式,使爬虫只读取s3 folder
中具有特定名称的文件,而不是读取路径中的每个文件?
有点像
s3://sample_folder/sample_file%pattern%.csv.
遗憾的是,Glue 不支持包含过滤器的正则表达式。您可以指定文件夹路径并设置排除规则。例如路径为s3://sample_folder
,排除模式为*.{txt,avro}
,过滤掉所有txt和avro文件。
有关详细信息,请参阅 Include and Exclude Patterns。
您必须编写粘合作业并使用 spark.read
方法才能使用正则表达式。爬虫不支持 include-regex。
嘿,您可以使用排除模式功能来仅选择您想要的文件,例如将您不需要的所有模式保留在排除模式中,然后只考虑您想要的模式。Insert and Exclude pattern
在AWS Glue Crawler
中指定s3 path
时,我们能否提及一些模式,使爬虫只读取s3 folder
中具有特定名称的文件,而不是读取路径中的每个文件?
有点像
s3://sample_folder/sample_file%pattern%.csv.
遗憾的是,Glue 不支持包含过滤器的正则表达式。您可以指定文件夹路径并设置排除规则。例如路径为s3://sample_folder
,排除模式为*.{txt,avro}
,过滤掉所有txt和avro文件。
有关详细信息,请参阅 Include and Exclude Patterns。
您必须编写粘合作业并使用 spark.read
方法才能使用正则表达式。爬虫不支持 include-regex。
嘿,您可以使用排除模式功能来仅选择您想要的文件,例如将您不需要的所有模式保留在排除模式中,然后只考虑您想要的模式。Insert and Exclude pattern