如何从 XML in Python 中的列表中提取子元素
How to extract sub-elements from a list within an XML in Python
我正在尝试使用 Python etree
库从 XML 列表中提取元素,并使用这些元素完成生成输出 JSON。
想法是给它传递一系列的XPATH来提取我想要的元素。我不想遍历 XML 中的所有元素,因为它们太多了。
XML 看起来与此类似:
<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<Line xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<Data>
<Date>2020-01-02</Date>
<Id>id_1</Id>
<CodDevice>567</CodDevice>
<DataList>
<Item>
<Row>1</Row>
<Value>34.67</Value>
<Description>WHEELS</Description>
<Tag>tag1</Tag>
</Item>
<Item>
<Row>2</Row>
<Value>38.04</Value>
<Description>MOTOR</Description>
<Tag>tag1</Tag>
</Item>
</DataList>
<MetaList>
<Metadata>
<Row>1</Row>
<Value>some value</Value>
</Metadata>
</MetaList>
</Data>
</Line>
我考虑的方法如下:
import xml.etree.ElementTree as ET
import json
data = """<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<Line xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<Data>
<Date>2020-01-02</Date>
<Id>id_1</Id>
<CodDevice>567</CodDevice>
<DataList>
<Item>
<Row>1</Row>
<Value>34.67</Value>
<Description>WHEELS</Description>
<Tag>tag1</Tag>
</Item>
<Item>
<Row>2</Row>
<Value>38.04</Value>
<Description>MOTOR</Description>
<Tag>tag1</Tag>
</Item>
</DataList>
<MetaList>
<Metadata>
<Row>1</Row>
<Value>some value</Value>
</Metadata>
</MetaList>
</Data>
</Line>
"""
tag_list = [
'./Data/Date',
'./Data/Id',
'./Data/CodDevice',
'./Data/DataList/Item/Row',
'./Data/DataList/Item/Value',
'./Data/DataList/Item/Description',
'./Data/MetaList/Metadata/Row',
'./Data/MetaList/Metadata/Value'
]
elem_dict= {}
parser = ET.XMLParser(encoding="utf-8")
root = ET.fromstring(data, parser=parser)
for tag in tag_list:
for item in root.findall(tag):
elem_dict[item.tag] = item.text
print(json.dumps(elem_dict))
如您所见,我尝试生成一个 JSON,当我将 XPATH 传递给列表元素时,它会覆盖它们,生成以下输出:
{"Date": "2020-01-02", "Id": "id_1", "CodDevice": "567", "Row": "1", "Value": "some value", "Description": "MOTOR"}
但我想得到的是类似于:
{"Id":"id_1","CodDevice":"567","DataList":[{"Row":1,"Value":34.67,"Description":"WHEELS"}, {"Row":2,"Value":38.04,"Description":"MOTOR"}],"MetaList":[{"Row":1,"Value":some value}]}
我不太清楚我可以使用该库实现哪些功能,也许有更有效的方法来实现这一点,但我忽略了它...
任何关于如何解决这个问题的想法都会很棒。非常感谢!
您的任务涉及:
- 过滤源 XML 树,
- 更改元素的名称及其结构(例如 Item 元素
到列表的元素)
- 生成“multi-level”(嵌套)输出。
这就是为什么我认为最自然的方法是写一些
自定义代码。
从获取 XML 元素文本的函数开始(它将
进一步使用):
def getTxt(elem):
return elem.text.strip()
然后定义另一个函数将children添加到字典中:
def addChildren(dct, elem, childNames, fn=getTxt):
for it in elem:
tag = it.tag
if tag in childNames:
dct[tag] = fn(it)
参数:
- dct - 要添加内容的词典。
- elem - 源元素。
- childNames - 要在 elem 中查找并提供的 children 的名称。
- fn - 为每个元素生成内容的函数。
要获取两个列表的内容,请定义另一个函数:
def getItems(elem):
lst = []
for it in elem:
dct = {}
addChildren(dct, it, ['Row', 'Value', 'Description'])
lst.append(dct)
return lst
最后一步是主要代码,假设您有 XML
root 中的树:
dct = {}
nd = root.find('Data')
addChildren(dct, nd, ['Date', 'Id', 'CodDevice'])
addChildren(dct, nd, ['DataList', 'MetaList'], getItems)
现在 dct 包含(经过一些重新格式化后):
{
'Date': '2020-01-02',
'Id': 'id_1',
'CodDevice': '567',
'DataList': [
{'Row': '1', 'Value': '34.67', 'Description': 'WHEELS'},
{'Row': '2', 'Value': '38.04', 'Description': 'MOTOR'}
],
'MetaList': [
{'Row': '1', 'Value': 'some value'}
]
}
如果要保存为JSON字符串,运行json.dump或json.dumps.
我不确定输出是否应包含 Date 键(您的 tag_list
包含它,但预期的输出不包含)。
如果不需要,请从第一个 childNames.
中删除 'Date'
通过字典理解考虑dictionary merging:
data = root.find('.//Data')
elem_dict = {
**{d.tag: d.text.strip() for d in data.findall('*') if d.text.strip() != ""},
**{'DataList': [{i.tag: i.text.strip() for i in item.findall('*') if i.tag != 'Tag'}
for item in data.findall('.//DataList/Item')]},
**{'MetalList': [{m.tag: m.text.strip() for m in meta.findall('*')}
for meta in data.findall('.//MetaList/Metadata')]}
}
print(json.dumps(elem_dict))
# {"Date": "2020-01-02", "Id": "id_1", "CodDevice": "567",
# "DataList": [{"Row": "1", "Value": "34.67", "Description": "WHEELS"},
# {"Row": "2", "Value": "38.04", "Description": "MOTOR"}],
# "MetalList": [{"Row": "1", "Value": "some value"}]}
我正在尝试使用 Python etree
库从 XML 列表中提取元素,并使用这些元素完成生成输出 JSON。
想法是给它传递一系列的XPATH来提取我想要的元素。我不想遍历 XML 中的所有元素,因为它们太多了。
XML 看起来与此类似:
<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<Line xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<Data>
<Date>2020-01-02</Date>
<Id>id_1</Id>
<CodDevice>567</CodDevice>
<DataList>
<Item>
<Row>1</Row>
<Value>34.67</Value>
<Description>WHEELS</Description>
<Tag>tag1</Tag>
</Item>
<Item>
<Row>2</Row>
<Value>38.04</Value>
<Description>MOTOR</Description>
<Tag>tag1</Tag>
</Item>
</DataList>
<MetaList>
<Metadata>
<Row>1</Row>
<Value>some value</Value>
</Metadata>
</MetaList>
</Data>
</Line>
我考虑的方法如下:
import xml.etree.ElementTree as ET
import json
data = """<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<Line xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<Data>
<Date>2020-01-02</Date>
<Id>id_1</Id>
<CodDevice>567</CodDevice>
<DataList>
<Item>
<Row>1</Row>
<Value>34.67</Value>
<Description>WHEELS</Description>
<Tag>tag1</Tag>
</Item>
<Item>
<Row>2</Row>
<Value>38.04</Value>
<Description>MOTOR</Description>
<Tag>tag1</Tag>
</Item>
</DataList>
<MetaList>
<Metadata>
<Row>1</Row>
<Value>some value</Value>
</Metadata>
</MetaList>
</Data>
</Line>
"""
tag_list = [
'./Data/Date',
'./Data/Id',
'./Data/CodDevice',
'./Data/DataList/Item/Row',
'./Data/DataList/Item/Value',
'./Data/DataList/Item/Description',
'./Data/MetaList/Metadata/Row',
'./Data/MetaList/Metadata/Value'
]
elem_dict= {}
parser = ET.XMLParser(encoding="utf-8")
root = ET.fromstring(data, parser=parser)
for tag in tag_list:
for item in root.findall(tag):
elem_dict[item.tag] = item.text
print(json.dumps(elem_dict))
如您所见,我尝试生成一个 JSON,当我将 XPATH 传递给列表元素时,它会覆盖它们,生成以下输出:
{"Date": "2020-01-02", "Id": "id_1", "CodDevice": "567", "Row": "1", "Value": "some value", "Description": "MOTOR"}
但我想得到的是类似于:
{"Id":"id_1","CodDevice":"567","DataList":[{"Row":1,"Value":34.67,"Description":"WHEELS"}, {"Row":2,"Value":38.04,"Description":"MOTOR"}],"MetaList":[{"Row":1,"Value":some value}]}
我不太清楚我可以使用该库实现哪些功能,也许有更有效的方法来实现这一点,但我忽略了它...
任何关于如何解决这个问题的想法都会很棒。非常感谢!
您的任务涉及:
- 过滤源 XML 树,
- 更改元素的名称及其结构(例如 Item 元素 到列表的元素)
- 生成“multi-level”(嵌套)输出。
这就是为什么我认为最自然的方法是写一些 自定义代码。
从获取 XML 元素文本的函数开始(它将 进一步使用):
def getTxt(elem):
return elem.text.strip()
然后定义另一个函数将children添加到字典中:
def addChildren(dct, elem, childNames, fn=getTxt):
for it in elem:
tag = it.tag
if tag in childNames:
dct[tag] = fn(it)
参数:
- dct - 要添加内容的词典。
- elem - 源元素。
- childNames - 要在 elem 中查找并提供的 children 的名称。
- fn - 为每个元素生成内容的函数。
要获取两个列表的内容,请定义另一个函数:
def getItems(elem):
lst = []
for it in elem:
dct = {}
addChildren(dct, it, ['Row', 'Value', 'Description'])
lst.append(dct)
return lst
最后一步是主要代码,假设您有 XML root 中的树:
dct = {}
nd = root.find('Data')
addChildren(dct, nd, ['Date', 'Id', 'CodDevice'])
addChildren(dct, nd, ['DataList', 'MetaList'], getItems)
现在 dct 包含(经过一些重新格式化后):
{
'Date': '2020-01-02',
'Id': 'id_1',
'CodDevice': '567',
'DataList': [
{'Row': '1', 'Value': '34.67', 'Description': 'WHEELS'},
{'Row': '2', 'Value': '38.04', 'Description': 'MOTOR'}
],
'MetaList': [
{'Row': '1', 'Value': 'some value'}
]
}
如果要保存为JSON字符串,运行json.dump或json.dumps.
我不确定输出是否应包含 Date 键(您的 tag_list 包含它,但预期的输出不包含)。 如果不需要,请从第一个 childNames.
中删除 'Date'通过字典理解考虑dictionary merging:
data = root.find('.//Data')
elem_dict = {
**{d.tag: d.text.strip() for d in data.findall('*') if d.text.strip() != ""},
**{'DataList': [{i.tag: i.text.strip() for i in item.findall('*') if i.tag != 'Tag'}
for item in data.findall('.//DataList/Item')]},
**{'MetalList': [{m.tag: m.text.strip() for m in meta.findall('*')}
for meta in data.findall('.//MetaList/Metadata')]}
}
print(json.dumps(elem_dict))
# {"Date": "2020-01-02", "Id": "id_1", "CodDevice": "567",
# "DataList": [{"Row": "1", "Value": "34.67", "Description": "WHEELS"},
# {"Row": "2", "Value": "38.04", "Description": "MOTOR"}],
# "MetalList": [{"Row": "1", "Value": "some value"}]}