如何在捕获属性时对 aws glue 中的嵌套 xml 标签进行分类
How to classify nested xml tags in aws glue while capturing the attributes
我有以下 xml 示例:
<ParentTag xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ID="68067108" ClientID="1" DocumentCreationDate="2018-04-10T00:00:05" DocumentVersion="9" EventClassID="1987" STBLogCreationDate="2018-04-09T11:38:59" SampleID="496" xsi:noNamespaceSchemaLocation="/opt/web/ams_proxy/webapps/ams_proxy/WEB-INF/amsXmlSchema_DTVPA_Version9.xsd">
<Event EventTime="2018-04-09T11:41:02">
<LiveViewEvent>
<Channel channelObjectId="3062323">
<Stream streamId="40" streamType="Video"/>
<Stream streamId="41" streamType="Audio"/>
<Stream streamId="65535" streamType="Data"/>
</Channel>
</LiveViewEvent>
</Event>
</ParentTag>
我需要 ParentTag 中的 ID、EventTime 和 LiveViewEvent 数据(channelObject 、视频、音频和数据)。我已经到了在 LiveViewEvent(作为结构)和 EventTime 中获取数据的地步,但它似乎跳过了 ParentTag 中的属性.
也许我还应该提到还有其他类型的事件(比 LiveViewEvent 具有不同的数据,但我不需要它们。
非常感谢任何帮助。
谢谢,
我认为唯一的方法是在 AWS Glue 控制台中创建一个分类器,其中行标记为 "ParentTag",然后您将能够 select 使用结构和数组数据类型的必要数据。
我有以下 xml 示例:
<ParentTag xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ID="68067108" ClientID="1" DocumentCreationDate="2018-04-10T00:00:05" DocumentVersion="9" EventClassID="1987" STBLogCreationDate="2018-04-09T11:38:59" SampleID="496" xsi:noNamespaceSchemaLocation="/opt/web/ams_proxy/webapps/ams_proxy/WEB-INF/amsXmlSchema_DTVPA_Version9.xsd">
<Event EventTime="2018-04-09T11:41:02">
<LiveViewEvent>
<Channel channelObjectId="3062323">
<Stream streamId="40" streamType="Video"/>
<Stream streamId="41" streamType="Audio"/>
<Stream streamId="65535" streamType="Data"/>
</Channel>
</LiveViewEvent>
</Event>
</ParentTag>
我需要 ParentTag 中的 ID、EventTime 和 LiveViewEvent 数据(channelObject 、视频、音频和数据)。我已经到了在 LiveViewEvent(作为结构)和 EventTime 中获取数据的地步,但它似乎跳过了 ParentTag 中的属性. 也许我还应该提到还有其他类型的事件(比 LiveViewEvent 具有不同的数据,但我不需要它们。
非常感谢任何帮助。
谢谢,
我认为唯一的方法是在 AWS Glue 控制台中创建一个分类器,其中行标记为 "ParentTag",然后您将能够 select 使用结构和数组数据类型的必要数据。