如何使用 AWS Glue 服务解析 XML 文件?
How to parse an XML file using AWS Glue service?
我被要求解析一个 XML 文件并将其转储到我们的 Database/Warehouse(仍在探索选项)。下面是我完成的步骤
- 在 S3 存储桶中添加了 XML
- 选择文件作为 Glue 服务中的源
- 选择合适的 IAM 用户
- 运行手动爬虫
爬虫运行成功,但我看不到 Glue 生成的任何 table 结构或数据。
期待一些建议。
检查xml中是否有自闭标签data.If是然后删除。
添加到 user3774905 的评论中,还可以查看是否有包含 xml 数据的开始/结束标记。我有一个 JSON 文件用于处理,爬虫 运行 成功但 table 没有像您提到的相同情况创建。检查 json 数据文件后,我发现 JSON 文件有 opening/closing 标签“[ ]”,以及 json 文件名以及 json 文件。删除这些额外的行并重新运行爬虫后,table 模式已创建。
所以,可能是您的 xml 数据文件包含一些无效条目。
它认为最好使用 spark-xml 将其转换为另一种格式(例如 parquet),由于文件的 xml 格式存在问题,爬虫无法按预期工作。
您需要将jar上传到s3并发送作业路径:
依赖 jars 路径:
s3://bucket/jars/spark-xml_2.11-0.4.1.jar
我被要求解析一个 XML 文件并将其转储到我们的 Database/Warehouse(仍在探索选项)。下面是我完成的步骤
- 在 S3 存储桶中添加了 XML
- 选择文件作为 Glue 服务中的源
- 选择合适的 IAM 用户
- 运行手动爬虫
爬虫运行成功,但我看不到 Glue 生成的任何 table 结构或数据。
期待一些建议。
检查xml中是否有自闭标签data.If是然后删除。
添加到 user3774905 的评论中,还可以查看是否有包含 xml 数据的开始/结束标记。我有一个 JSON 文件用于处理,爬虫 运行 成功但 table 没有像您提到的相同情况创建。检查 json 数据文件后,我发现 JSON 文件有 opening/closing 标签“[ ]”,以及 json 文件名以及 json 文件。删除这些额外的行并重新运行爬虫后,table 模式已创建。
所以,可能是您的 xml 数据文件包含一些无效条目。
它认为最好使用 spark-xml 将其转换为另一种格式(例如 parquet),由于文件的 xml 格式存在问题,爬虫无法按预期工作。
您需要将jar上传到s3并发送作业路径: 依赖 jars 路径: s3://bucket/jars/spark-xml_2.11-0.4.1.jar