使用 lxml 库解析 xliff 文件
parsing xliff file using lxml library
我无法解析此 xliff 片段:
<source>text1 <g id="1">text2</g> text3 <x id="2"/><x id="3"/>text4</source>
我想要一个在源标记上运行并填充类似
的迭代方法
parsed_source[0]='text1'
parsed_source[1]='<g id="1">text2</g>'
parsed_source[2]='text3'
parsed_source[3]='<x id="2"/>'
parsed_source[4]='<x id="3"/>'
parsed_source[5]='text4'
以便我可以在需要时再次迭代 xml 片段 [1]、[3] 和 [4]...
例如使用lxml
:
from lxml import etree
tree = etree.iterparse('aFile.xlf')
for action, elem in tree:
print("%s: %s %s" % (action, elem.tag, elem.text))
我得到类似于:
end: source text1
end: g text2
end: x None
end: x None
而且我无法解析 text3
和 text4
...我该怎么做?谢谢
您需要考虑 tail
属性(元素后面的文本)。在这里阅读:http://infohost.nmt.edu/tcc/help/pubs/pylxml/web/etree-view.html.
以下代码片段(对您的代码稍作修改)对此进行了演示:
from lxml import etree
tree = etree.iterparse('aFile.xlf')
for action, elem in tree:
print("%s: %s %s %s" % (action, elem.tag, elem.text, elem.tail))
输出:
end: g text2 text3
end: x None None
end: x None text4
end: source text1 None
我无法解析此 xliff 片段:
<source>text1 <g id="1">text2</g> text3 <x id="2"/><x id="3"/>text4</source>
我想要一个在源标记上运行并填充类似
的迭代方法parsed_source[0]='text1'
parsed_source[1]='<g id="1">text2</g>'
parsed_source[2]='text3'
parsed_source[3]='<x id="2"/>'
parsed_source[4]='<x id="3"/>'
parsed_source[5]='text4'
以便我可以在需要时再次迭代 xml 片段 [1]、[3] 和 [4]...
例如使用lxml
:
from lxml import etree
tree = etree.iterparse('aFile.xlf')
for action, elem in tree:
print("%s: %s %s" % (action, elem.tag, elem.text))
我得到类似于:
end: source text1
end: g text2
end: x None
end: x None
而且我无法解析 text3
和 text4
...我该怎么做?谢谢
您需要考虑 tail
属性(元素后面的文本)。在这里阅读:http://infohost.nmt.edu/tcc/help/pubs/pylxml/web/etree-view.html.
以下代码片段(对您的代码稍作修改)对此进行了演示:
from lxml import etree
tree = etree.iterparse('aFile.xlf')
for action, elem in tree:
print("%s: %s %s %s" % (action, elem.tag, elem.text, elem.tail))
输出:
end: g text2 text3
end: x None None
end: x None text4
end: source text1 None