使用 XSLT 从 XML 个文档中提取文本内容
Extracting textual content from XML documents using XSLT
如何最好使用 XSLT 提取 XML 文档的文本内容。
对于这样的片段,
<record>
<tag1>textual content</tag1>
<tag2>textual content</tag2>
<tag2>textual content</tag2>
</record>
期望的结果是:
文字,文字,文字
最好的输出格式是什么(table、CSV 等),其中的内容可以为进一步的操作(例如文本挖掘)进行处理?
谢谢
更新
延伸一下问题,如何分别提取每条记录的内容。例如,对于下面的 XML:
<Records>
<record id="1">
<tag1>textual co</tag1>
<tag2>textual con</tag2>
<tag2>textual cont</tag2>
</record>
<record id="2">
<tag1>some text</tag1>
<tag2>some tex</tag2>
<tag2>some te</tag2>
</record>
</Records>
想要的结果应该是这样的:
(textual co, textual con, textual cont) , (some text, some tex, some te)
或以更好的格式进行进一步处理操作。
只是问题第一部分的(更新的)答案 - 针对 XSLT 之后问题中的输入
<?xml version="1.0" encoding="UTF-8" ?>
<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
<xsl:output method="text" doctype-public="XSLT-compat"
omit-xml-declaration="yes" encoding="UTF-8" indent="yes" />
<xsl:template match="record">
<xsl:for-each select="child::*">
<xsl:value-of select="normalize-space()"/>
<xsl:if test="position()!= last()">, </xsl:if>
</xsl:for-each>
</xsl:template>
</xsl:transform>
有结果
textual content, textual content, textual content
模板匹配 record
打印每个子元素的值并添加 ,
以防它不是最后一个元素。
它更短更通用,因为它没有命名任何元素。它还利用 XSLT 的内置模板,这些模板为语言提供默认行为,从而减少您必须编写的代码量。假设 XSLT 1.0
下面是 lingamurthyCS 答案的较短变体,让内置模板规则处理最后一个文本节点。这类似于我之前的回答。
<xsl:transform version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text"/>
<xsl:strip-space elements="*"/>
<xsl:template match="*[position() != last()]">
<xsl:value-of select="."/><xsl:text>,</xsl:text>
</xsl:template>
</xsl:transform>
不过,这项工作更适合 XQuery。
将您的 XML 粘贴到 http://try.zorba.io/queries/xquery 中,然后像这样在其末尾粘贴一个 /string-join(*,',')
<record>
<tag1>textual content</tag1>
<tag2>textual content</tag2>
<tag2>textual content</tag2>
</record>/string-join(*,',')
练习 OP 将其转换为 XSLT 2.0(如果他们正在使用 XSLT 2.0)。
您可以使用以下 XSLT:
<xsl:transform version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" indent="yes"/>
<xsl:strip-space elements="*"/>
<xsl:template match="/">
<xsl:apply-templates select="//text()"/>
</xsl:template>
<xsl:template match="text()">
<xsl:value-of select="."/>
<xsl:if test="position() != last()">, </xsl:if>
</xsl:template>
</xsl:transform>
对于问题中的更新,您可以使用以下 XSLT:
<xsl:transform version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" indent="yes"/>
<xsl:strip-space elements="*"/>
<xsl:template match="/*">
<xsl:apply-templates/>
</xsl:template>
<xsl:template match="*">(<xsl:apply-templates select=".//text()"/>)<xsl:if test="position() != last()">, </xsl:if>
</xsl:template>
<xsl:template match="text()">
<xsl:value-of select="."/>
<xsl:if test="position() != last()">, </xsl:if>
</xsl:template>
</xsl:transform>
如何最好使用 XSLT 提取 XML 文档的文本内容。
对于这样的片段,
<record>
<tag1>textual content</tag1>
<tag2>textual content</tag2>
<tag2>textual content</tag2>
</record>
期望的结果是:
文字,文字,文字
最好的输出格式是什么(table、CSV 等),其中的内容可以为进一步的操作(例如文本挖掘)进行处理?
谢谢
更新
延伸一下问题,如何分别提取每条记录的内容。例如,对于下面的 XML:
<Records>
<record id="1">
<tag1>textual co</tag1>
<tag2>textual con</tag2>
<tag2>textual cont</tag2>
</record>
<record id="2">
<tag1>some text</tag1>
<tag2>some tex</tag2>
<tag2>some te</tag2>
</record>
</Records>
想要的结果应该是这样的:
(textual co, textual con, textual cont) , (some text, some tex, some te)
或以更好的格式进行进一步处理操作。
只是问题第一部分的(更新的)答案 - 针对 XSLT 之后问题中的输入
<?xml version="1.0" encoding="UTF-8" ?>
<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
<xsl:output method="text" doctype-public="XSLT-compat"
omit-xml-declaration="yes" encoding="UTF-8" indent="yes" />
<xsl:template match="record">
<xsl:for-each select="child::*">
<xsl:value-of select="normalize-space()"/>
<xsl:if test="position()!= last()">, </xsl:if>
</xsl:for-each>
</xsl:template>
</xsl:transform>
有结果
textual content, textual content, textual content
模板匹配 record
打印每个子元素的值并添加 ,
以防它不是最后一个元素。
它更短更通用,因为它没有命名任何元素。它还利用 XSLT 的内置模板,这些模板为语言提供默认行为,从而减少您必须编写的代码量。假设 XSLT 1.0
下面是 lingamurthyCS 答案的较短变体,让内置模板规则处理最后一个文本节点。这类似于我之前的回答。
<xsl:transform version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text"/>
<xsl:strip-space elements="*"/>
<xsl:template match="*[position() != last()]">
<xsl:value-of select="."/><xsl:text>,</xsl:text>
</xsl:template>
</xsl:transform>
不过,这项工作更适合 XQuery。
将您的 XML 粘贴到 http://try.zorba.io/queries/xquery 中,然后像这样在其末尾粘贴一个 /string-join(*,',')
<record>
<tag1>textual content</tag1>
<tag2>textual content</tag2>
<tag2>textual content</tag2>
</record>/string-join(*,',')
练习 OP 将其转换为 XSLT 2.0(如果他们正在使用 XSLT 2.0)。
您可以使用以下 XSLT:
<xsl:transform version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" indent="yes"/>
<xsl:strip-space elements="*"/>
<xsl:template match="/">
<xsl:apply-templates select="//text()"/>
</xsl:template>
<xsl:template match="text()">
<xsl:value-of select="."/>
<xsl:if test="position() != last()">, </xsl:if>
</xsl:template>
</xsl:transform>
对于问题中的更新,您可以使用以下 XSLT:
<xsl:transform version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" indent="yes"/>
<xsl:strip-space elements="*"/>
<xsl:template match="/*">
<xsl:apply-templates/>
</xsl:template>
<xsl:template match="*">(<xsl:apply-templates select=".//text()"/>)<xsl:if test="position() != last()">, </xsl:if>
</xsl:template>
<xsl:template match="text()">
<xsl:value-of select="."/>
<xsl:if test="position() != last()">, </xsl:if>
</xsl:template>
</xsl:transform>