如何使用来自 JSON 的 AWS Glue Crawler 分类器创建 Athena 模式？

Question

我正在使用像这样的简单 JSON 格式：

[{"key":"value"},{"key":"value"}]

当我将 JSON 路径设置为 $[*] 和运行爬虫时，它会正确创建模式但无法正确读取数据。

我试了一下 JSON 文件并删除了外括号 []，它只读取第一行（因为它不再是数组）。 JSON 文件似乎应该如下所示才能在 AWS Athena 中工作：

{"key":"value"}
{"key":"value"}

我是否可以通过在 AWS Glue 中配置 JSON 路径来读取这种格式的 JSON 文件？

Answer 1

我觉得第一次没有正确读取数据，因为你需要把文件放在一个文件夹下。属于同一 table 的所有文件应位于同一文件夹内。如果您将多个不同的文件放在同一个 S3 位置，爬虫将能够正确识别架构；但查询 table 不会 return 任何数据。这是使用 AWS Glue 的众多问题之一。我最近写了一篇关于它的博客。如果有帮助，这里是 link。

如何使用来自 JSON 的 AWS Glue Crawler 分类器创建 Athena 模式？

How to create Athena schema using AWS Glue Crawler classifier from JSON?

json

amazon-web-services

aws-glue