粘附爬虫以读取 Json 数组

Glue Crawler to read Json Array

我有一个 Json 格式的数组文件:- [[{Key1:Value1},{Key2:Value2},{Key3:Value3}],[{Key1:Value4},{Key2:Value5},{Key3:Value6}]]

我需要使用 AWS glue 抓取上述文件并读取 json 架构,每个键作为架构中的一列。我尝试使用标准 json 分类器,但它似乎不起作用,并且架构作为数组加载。 我需要从 S3 读取 json 文件并将其加载到 RDS 数据库中。关于如何通过粘合作业或分类器进行转换的任何建议都会有所帮助。

创建自定义 JSON 分类器并将 JSON 路径指定为 $[*]

有关详细信息,请参阅 AWS 文档的 link - https://docs.aws.amazon.com/glue/latest/dg/custom-classifier.html#custom-classifier-json

我遇到了同样的问题。我的解决方案是使用 jq 格式化 json 文件,然后将该文件重新上传到 S3。使用任何其他类型的 json 格式化工具也会有所帮助。

其他方法我还不知道,希望对你有帮助!