如何使用来自 JSON 的 AWS Glue Crawler 分类器创建 Athena 模式?
How to create Athena schema using AWS Glue Crawler classifier from JSON?
我正在使用像这样的简单 JSON 格式:
[{"key":"value"},{"key":"value"}]
当我将 JSON 路径设置为 $[*] 和 运行 爬虫时,它会正确创建模式但无法正确读取数据。
我试了一下 JSON 文件并删除了外括号 [],它只读取第一行(因为它不再是数组)。 JSON 文件似乎应该如下所示才能在 AWS Athena 中工作:
{"key":"value"}
{"key":"value"}
我是否可以通过在 AWS Glue 中配置 JSON 路径来读取这种格式的 JSON 文件?
我觉得第一次没有正确读取数据,因为你需要把文件放在一个文件夹下。属于同一 table 的所有文件应位于同一文件夹内。如果您将多个不同的文件放在同一个 S3 位置,爬虫将能够正确识别架构;但查询 table 不会 return 任何数据。这是使用 AWS Glue 的众多问题之一。我最近写了一篇关于它的博客。如果有帮助,这里是 link。
我正在使用像这样的简单 JSON 格式:
[{"key":"value"},{"key":"value"}]
当我将 JSON 路径设置为 $[*] 和 运行 爬虫时,它会正确创建模式但无法正确读取数据。
我试了一下 JSON 文件并删除了外括号 [],它只读取第一行(因为它不再是数组)。 JSON 文件似乎应该如下所示才能在 AWS Athena 中工作:
{"key":"value"}
{"key":"value"}
我是否可以通过在 AWS Glue 中配置 JSON 路径来读取这种格式的 JSON 文件?
我觉得第一次没有正确读取数据,因为你需要把文件放在一个文件夹下。属于同一 table 的所有文件应位于同一文件夹内。如果您将多个不同的文件放在同一个 S3 位置,爬虫将能够正确识别架构;但查询 table 不会 return 任何数据。这是使用 AWS Glue 的众多问题之一。我最近写了一篇关于它的博客。如果有帮助,这里是 link。