AWS Glue 爬虫无法对 CSV 文件进行分类
AWS Glue Crawler Unable to Classify CSV files
我无法获得默认的爬虫分类器,也无法获得自定义分类器来处理我的许多 CSV 文件。分类列为 'UNKNOWN'。我已经尝试重新 运行 现有的分类器,以及创建新的分类器。有人知道适用于任何大小文件的 CSV 文件自定义分类器的特定配置吗?
我也无法在日志中找到与此问题相关的任何错误。
虽然我已经看到有关 JSON 文件大小超过 1MB 的问题的参考资料,但我找不到任何详细说明 CSV 文件的相同问题,也找不到问题的解决方案。
- AWS crawler could not classify the file type stores in S3 if its size >1MB
Glue Crawler 支持的默认 CSV 分类器:
CSV - Checks for the following delimiters: comma (,), pipe (|), tab
(\t), semicolon (;), and Ctrl-A (\u0001). Ctrl-A is the Unicode
control character for Start Of Heading.
如果您有任何其他分隔符,则它将不适用于默认的 CSV 分类器。在这种情况下,您将不得不编写 grok 模式。
我无法获得默认的爬虫分类器,也无法获得自定义分类器来处理我的许多 CSV 文件。分类列为 'UNKNOWN'。我已经尝试重新 运行 现有的分类器,以及创建新的分类器。有人知道适用于任何大小文件的 CSV 文件自定义分类器的特定配置吗?
我也无法在日志中找到与此问题相关的任何错误。
虽然我已经看到有关 JSON 文件大小超过 1MB 的问题的参考资料,但我找不到任何详细说明 CSV 文件的相同问题,也找不到问题的解决方案。
- AWS crawler could not classify the file type stores in S3 if its size >1MB
Glue Crawler 支持的默认 CSV 分类器:
CSV - Checks for the following delimiters: comma (,), pipe (|), tab (\t), semicolon (;), and Ctrl-A (\u0001). Ctrl-A is the Unicode control character for Start Of Heading.
如果您有任何其他分隔符,则它将不适用于默认的 CSV 分类器。在这种情况下,您将不得不编写 grok 模式。