如何使用 AWS Glue 服务解析 XML 文件？

How to parse an XML file using AWS Glue service?

我被要求解析一个 XML 文件并将其转储到我们的 Database/Warehouse（仍在探索选项）。下面是我完成的步骤

在 S3 存储桶中添加了 XML
选择文件作为 Glue 服务中的源
选择合适的 IAM 用户
运行手动爬虫

爬虫运行成功，但我看不到 Glue 生成的任何 table 结构或数据。

期待一些建议。

检查xml中是否有自闭标签data.If是然后删除。

添加到 user3774905 的评论中，还可以查看是否有包含 xml 数据的开始/结束标记。我有一个 JSON 文件用于处理，爬虫运行成功但 table 没有像您提到的相同情况创建。检查 json 数据文件后，我发现 JSON 文件有 opening/closing 标签“[ ]”，以及 json 文件名以及 json 文件。删除这些额外的行并重新运行爬虫后，table 模式已创建。

所以，可能是您的 xml 数据文件包含一些无效条目。

它认为最好使用 spark-xml 将其转换为另一种格式（例如 parquet），由于文件的 xml 格式存在问题，爬虫无法按预期工作。

您需要将jar上传到s3并发送作业路径：依赖 jars 路径： s3://bucket/jars/spark-xml_2.11-0.4.1.jar

https://github.com/databricks/spark-xml

如何使用 AWS Glue 服务解析 XML 文件？

How to parse an XML file using AWS Glue service?

xml

amazon-web-services

aws-glue