AWS Glue 爬虫无法对 CSV 文件进行分类

AWS Glue Crawler Unable to Classify CSV files

我无法获得默认的爬虫分类器,也无法获得自定义分类器来处理我的许多 CSV 文件。分类列为 'UNKNOWN'。我已经尝试重新 运行 现有的分类器,以及创建新的分类器。有人知道适用于任何大小文件的 CSV 文件自定义分类器的特定配置吗?

我也无法在日志中找到与此问题相关的任何错误。

虽然我已经看到有关 JSON 文件大小超过 1MB 的问题的参考资料,但我找不到任何详细说明 CSV 文件的相同问题,也找不到问题的解决方案。

Glue Crawler 支持的默认 CSV 分类器:

CSV - Checks for the following delimiters: comma (,), pipe (|), tab (\t), semicolon (;), and Ctrl-A (\u0001). Ctrl-A is the Unicode control character for Start Of Heading.

如果您有任何其他分隔符,则它将不适用于默认的 CSV 分类器。在这种情况下,您将不得不编写 grok 模式。