将非结构化 xml 转换为结构化
Convert unstructured xml to structured
我有一个非结构化的 XML,必须将其转换为结构化的。
我从 Apache Tika 解析并由 Parscit 转换为 xml 的科学 pdf 文件中得到这个。 xml 是这样的:
输入:
<algorithm>
<sectionHeader> Section1 </sectionHeader>
<BodyText>Text goes here</BodyText>
<sectionHeader> Section2 </sectionHeader>
<BodyText>Text goes here</BodyText>
<subsectionHeader>Subsection</subsectionHeader>
<BodyText>Text goes here</BodyText>
<sectionHeader> Section1 </sectionHeader>
<BodyText>Text goes here</BodyText>
</algorithm>
输出:
<algorithm>
<sectionHeader>
<Text> Section1 </Text>
<BodyText>Text goes here</BodyText>
</sectionHeader>
<sectionHeader>
<Text> Section2 </Text>
<BodyText>Text goes here</BodyText>
<subsectionHeader>
<Text>Subsection</Text>
<BodyText>Text goes here</BodyText>
</subsectionHeader>
</sectionHeader>
<sectionHeader>
<text>Section3 </Text>
<BodyText>Text goes here</BodyText>
</sectionHeader>
</algorithm>
我可以使用 java 中的字符串生成器和 xpath 来完成此操作。但它会影响性能,因为我可能必须处理数百万个文档。那么 xslt 是更好的方法吗?
你可以这样做:
XSLT 2.0
<xsl:stylesheet version="2.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="xml" version="1.0" encoding="utf-8" indent="yes"/>
<xsl:template match="/algorithm">
<xsl:copy>
<xsl:for-each-group select="*" group-starting-with="sectionHeader">
<sectionHeader>
<Text>
<xsl:value-of select="." />
</Text>
<xsl:for-each-group select="current-group()" group-starting-with="subsectionHeader">
<xsl:choose>
<xsl:when test="self::subsectionHeader">
<subsectionHeader>
<Text>
<xsl:value-of select="." />
</Text>
<xsl:copy-of select="current-group()[not(self::subsectionHeader)]"/>
</subsectionHeader>
</xsl:when>
<xsl:otherwise>
<xsl:copy-of select="current-group()[not(self::sectionHeader)]"/>
</xsl:otherwise>
</xsl:choose>
</xsl:for-each-group>
</sectionHeader>
</xsl:for-each-group>
</xsl:copy>
</xsl:template>
</xsl:stylesheet>
我有一个非结构化的 XML,必须将其转换为结构化的。 我从 Apache Tika 解析并由 Parscit 转换为 xml 的科学 pdf 文件中得到这个。 xml 是这样的:
输入:
<algorithm>
<sectionHeader> Section1 </sectionHeader>
<BodyText>Text goes here</BodyText>
<sectionHeader> Section2 </sectionHeader>
<BodyText>Text goes here</BodyText>
<subsectionHeader>Subsection</subsectionHeader>
<BodyText>Text goes here</BodyText>
<sectionHeader> Section1 </sectionHeader>
<BodyText>Text goes here</BodyText>
</algorithm>
输出:
<algorithm>
<sectionHeader>
<Text> Section1 </Text>
<BodyText>Text goes here</BodyText>
</sectionHeader>
<sectionHeader>
<Text> Section2 </Text>
<BodyText>Text goes here</BodyText>
<subsectionHeader>
<Text>Subsection</Text>
<BodyText>Text goes here</BodyText>
</subsectionHeader>
</sectionHeader>
<sectionHeader>
<text>Section3 </Text>
<BodyText>Text goes here</BodyText>
</sectionHeader>
</algorithm>
我可以使用 java 中的字符串生成器和 xpath 来完成此操作。但它会影响性能,因为我可能必须处理数百万个文档。那么 xslt 是更好的方法吗?
你可以这样做:
XSLT 2.0
<xsl:stylesheet version="2.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="xml" version="1.0" encoding="utf-8" indent="yes"/>
<xsl:template match="/algorithm">
<xsl:copy>
<xsl:for-each-group select="*" group-starting-with="sectionHeader">
<sectionHeader>
<Text>
<xsl:value-of select="." />
</Text>
<xsl:for-each-group select="current-group()" group-starting-with="subsectionHeader">
<xsl:choose>
<xsl:when test="self::subsectionHeader">
<subsectionHeader>
<Text>
<xsl:value-of select="." />
</Text>
<xsl:copy-of select="current-group()[not(self::subsectionHeader)]"/>
</subsectionHeader>
</xsl:when>
<xsl:otherwise>
<xsl:copy-of select="current-group()[not(self::sectionHeader)]"/>
</xsl:otherwise>
</xsl:choose>
</xsl:for-each-group>
</sectionHeader>
</xsl:for-each-group>
</xsl:copy>
</xsl:template>
</xsl:stylesheet>