如何在 XSLT 遗留代码库中查找无效代码
How to find dead code in XSLT legacy codebase
我从一个 BaseX v9 XQuery 脚本开始,它可以帮助我分析 XSLT 遗留代码库。大约有 100 个 XSL v1.0 文件,多年来有点乱。
代码需要清理。第一步是找到未使用的代码(模板、变量等)。
我的问题是关于查找不再使用的匹配模板:
<xsl:template match="blabla">...</xsl:template>
一般来说,找到永远不会执行的匹配模板(带或不带模式属性)的最佳方法是什么?
模板规则可能永远不会被执行的原因有两个:要么有另一个模板规则将始终被优先选择,要么没有可以想象的源文档具有与其模式匹配的节点。通过样式表的静态分析来检测这两种情况都不太实际。最好的办法是动态地进行一些代码覆盖率分析,使用源文档的代表性样本(以及其他输入条件,例如样式表参数的值)。
"code coverage XSLT" 值得谷歌搜索,尽管它给您的问题多于答案。 XSpec 会进行代码覆盖,但前提是您拥有一套全面的 XSpec 测试,这似乎不太可能。 Saxon 有一个工具 (-TP:profile.html) 可以输出每个模板规则的执行频率,但遗憾的是,它忽略了那些计数为零的规则。将此数据与一些源代码分析相结合以找到未出现在列表中的模板规则并不难(并且将多次运行的输出与不同的源文档相结合。)
针对许多源文档实际执行样式表的替代方法是将匹配模式提取到合成样式表中,该样式表针对每个匹配模式测试每个输入节点。您可以为每个匹配项输出一个元素,然后 post- 处理输出以查找输出中缺少的模式:
第一个:
<xsl:template match="... a sample pattern... ">
<match id="654321"/>
<xsl:apply-templates select="@*|node()"/>
</xsl:template>
(repeated for each pattern in the original stylesheet)
然后进行分析:
<xsl:variable name="data" select="."/>
<xsl:key name="k" match="match" use="@id"/>
<xsl:for-each select="1 to max(//match/@id)[not(key('k', ., $data))]">
No matches for pattern id="{.}"
</xsl:for-each>
但是,对于可以由 xsl:apply-imports
或 xsl:next-match
指令触发的模板规则,或者匹配多个模板规则的节点,这将为您提供错误的 "no matches" 结果(也许在不同的模式下)。我相信这个想法可以改进。
The code requires a cleanup. A first step is to find unused code
(templates, variables etc.).
My question is about finding match templates that are no longer used:
好消息是事情并不像我在另一个答案中看到的那样理论化(并且几乎没有希望)。光靠静态分析就可以得到很多有用的信息。
最近我做了类似的事情。这个简单的转换发现在 530 个 .xsl 或 .xslt 文件中,有 180 个 "Main"(未导入或包含在任何其他样式表中)。
然后一个一个地查看 "Main" 样式表并确定它是否曾经用作主要(独立)转换,允许排除大量此类 XSLT 文件。
<xsl:stylesheet version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xsl:output omit-xml-declaration="yes" indent="yes"/>
<xsl:variable name="vBaseFileUrl" select="'file:///C:/TheDirectoryPathToTheXSLTCode'"/>
<xsl:variable name="vStyleSheets" select=
"collection(concat($vBaseFileUrl, '?select=*.xsl;recurse=yes'))
|
collection(concat($vBaseFileUrl, '?select=*.xslt;recurse=yes'))"/>
<xsl:template match="/">
Number of *.xsl | *.xslt stylesheets: <xsl:value-of select="count($vStyleSheets)"/>
Document URIs:
<xsl:variable name="vdocURIs" select="$vStyleSheets/document-uri(.)"/>
<xsl:value-of select="$vdocURIs" separator="
"/>
<xsl:variable name="vDistinctFilenames" select=
"distinct-values($vStyleSheets/tokenize(document-uri(.), '/')[last()])"/>
<xsl:value-of select="'
','
',
'Distinctly named stylesheets: ', count($vDistinctFilenames)"/>
<xsl:variable name="vMainFilenames" select=
"$vDistinctFilenames
[not(. = $vStyleSheets/*/(xsl:import | xsl:include)/tokenize(@href, '/')[last()])]"/>
<xsl:value-of select="'
','
','Main filenames: ', count($vMainFilenames)"/>
<xsl:variable name="vMainStylesheets" select=
"$vStyleSheets[tokenize(document-uri(.), '/')[last()] = $vMainFilenames]
"/>
<xsl:value-of select="'
','
','Main stylesheets: ', count($vMainStylesheets)"/>
==========================================
Document URIs grouped by name: <xsl:text/>
<xsl:for-each-group select="$vdocURIs" group-by="tokenize(., '/')[last()]">
<xsl:sort select="current-grouping-key()"/>
<xsl:variable name="vStylesheetFilename" select="current-grouping-key()"/>
<xsl:variable name="vImportedOrIncluded" select=
"$vStyleSheets[/*/(xsl:import | xsl:include)[tokenize(@href, '/')[last()]
eq $vStylesheetFilename]][1]"/>
<xsl:value-of select="'
', '
',
$vStylesheetFilename,
if(empty($vImportedOrIncluded)) then ' Main ' else (), ':'"/>
==========================================
<xsl:text/>
<xsl:variable name="vUrisInGroup" as="xs:string*">
<xsl:perform-sort select="current-group()">
<xsl:sort select="."/>
</xsl:perform-sort>
</xsl:variable>
<xsl:for-each select="$vUrisInGroup">
<xsl:value-of select=
"substring-after(., substring-before(., 'nameOfRootDir')), '
'"/>
</xsl:for-each>
</xsl:for-each-group>
</xsl:template>
</xsl:stylesheet>
匹配模板级别:
让我们有:
<xsl:template match="possiblySomepath/someName[PossiblySomePredicate]/possibleTailPath">
我们分析了可能的源 XML 文档集,并确定这些文档从不包含名为 "someName" 的元素——或者在更好的情况下,我们有可用的 XML 架构来源,从中我们可以看到文档中不包含名为 "someName" 的元素。然后我们可以安全地删除该模板。
至于 "Main" 样式表,在我们排除了其中明显的样式表之后,以类似的方式我们可以调查并找到没有匹配的 named 模板<xsl:call-template>
指令 -- 并摆脱所有这些。
代码将是这样的:
==========================================
<xsl:variable name="vTemplateNamesDistinct"
select="distinct-values($vStyleSheets/*/xsl:template/@name)"/>
<xsl:value-of select=
"'
','
','Distinct template names: ', count($vTemplateNamesDistinct)"/>
<xsl:variable name="vnamedTemplatesNeverCalled" select=
"distinct-values($vStyleSheets/*/xsl:template/@name
[not(. = $vStyleSheets//xsl:call-template/@name)])"/>
<xsl:value-of select=
"'
','
','Template names never called: ', count($vnamedTemplatesNeverCalled)"/>
<xsl:value-of select="$vnamedTemplatesNeverCalled" separator="
"/>
==========================================
在我的案例中,大约有 400 个命名模板。其中超过40个命名模板没有被调用。
我从一个 BaseX v9 XQuery 脚本开始,它可以帮助我分析 XSLT 遗留代码库。大约有 100 个 XSL v1.0 文件,多年来有点乱。
代码需要清理。第一步是找到未使用的代码(模板、变量等)。
我的问题是关于查找不再使用的匹配模板:
<xsl:template match="blabla">...</xsl:template>
一般来说,找到永远不会执行的匹配模板(带或不带模式属性)的最佳方法是什么?
模板规则可能永远不会被执行的原因有两个:要么有另一个模板规则将始终被优先选择,要么没有可以想象的源文档具有与其模式匹配的节点。通过样式表的静态分析来检测这两种情况都不太实际。最好的办法是动态地进行一些代码覆盖率分析,使用源文档的代表性样本(以及其他输入条件,例如样式表参数的值)。
"code coverage XSLT" 值得谷歌搜索,尽管它给您的问题多于答案。 XSpec 会进行代码覆盖,但前提是您拥有一套全面的 XSpec 测试,这似乎不太可能。 Saxon 有一个工具 (-TP:profile.html) 可以输出每个模板规则的执行频率,但遗憾的是,它忽略了那些计数为零的规则。将此数据与一些源代码分析相结合以找到未出现在列表中的模板规则并不难(并且将多次运行的输出与不同的源文档相结合。)
针对许多源文档实际执行样式表的替代方法是将匹配模式提取到合成样式表中,该样式表针对每个匹配模式测试每个输入节点。您可以为每个匹配项输出一个元素,然后 post- 处理输出以查找输出中缺少的模式:
第一个:
<xsl:template match="... a sample pattern... ">
<match id="654321"/>
<xsl:apply-templates select="@*|node()"/>
</xsl:template>
(repeated for each pattern in the original stylesheet)
然后进行分析:
<xsl:variable name="data" select="."/>
<xsl:key name="k" match="match" use="@id"/>
<xsl:for-each select="1 to max(//match/@id)[not(key('k', ., $data))]">
No matches for pattern id="{.}"
</xsl:for-each>
但是,对于可以由 xsl:apply-imports
或 xsl:next-match
指令触发的模板规则,或者匹配多个模板规则的节点,这将为您提供错误的 "no matches" 结果(也许在不同的模式下)。我相信这个想法可以改进。
The code requires a cleanup. A first step is to find unused code (templates, variables etc.).
My question is about finding match templates that are no longer used:
好消息是事情并不像我在另一个答案中看到的那样理论化(并且几乎没有希望)。光靠静态分析就可以得到很多有用的信息。
最近我做了类似的事情。这个简单的转换发现在 530 个 .xsl 或 .xslt 文件中,有 180 个 "Main"(未导入或包含在任何其他样式表中)。
然后一个一个地查看 "Main" 样式表并确定它是否曾经用作主要(独立)转换,允许排除大量此类 XSLT 文件。
<xsl:stylesheet version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xsl:output omit-xml-declaration="yes" indent="yes"/>
<xsl:variable name="vBaseFileUrl" select="'file:///C:/TheDirectoryPathToTheXSLTCode'"/>
<xsl:variable name="vStyleSheets" select=
"collection(concat($vBaseFileUrl, '?select=*.xsl;recurse=yes'))
|
collection(concat($vBaseFileUrl, '?select=*.xslt;recurse=yes'))"/>
<xsl:template match="/">
Number of *.xsl | *.xslt stylesheets: <xsl:value-of select="count($vStyleSheets)"/>
Document URIs:
<xsl:variable name="vdocURIs" select="$vStyleSheets/document-uri(.)"/>
<xsl:value-of select="$vdocURIs" separator="
"/>
<xsl:variable name="vDistinctFilenames" select=
"distinct-values($vStyleSheets/tokenize(document-uri(.), '/')[last()])"/>
<xsl:value-of select="'
','
',
'Distinctly named stylesheets: ', count($vDistinctFilenames)"/>
<xsl:variable name="vMainFilenames" select=
"$vDistinctFilenames
[not(. = $vStyleSheets/*/(xsl:import | xsl:include)/tokenize(@href, '/')[last()])]"/>
<xsl:value-of select="'
','
','Main filenames: ', count($vMainFilenames)"/>
<xsl:variable name="vMainStylesheets" select=
"$vStyleSheets[tokenize(document-uri(.), '/')[last()] = $vMainFilenames]
"/>
<xsl:value-of select="'
','
','Main stylesheets: ', count($vMainStylesheets)"/>
==========================================
Document URIs grouped by name: <xsl:text/>
<xsl:for-each-group select="$vdocURIs" group-by="tokenize(., '/')[last()]">
<xsl:sort select="current-grouping-key()"/>
<xsl:variable name="vStylesheetFilename" select="current-grouping-key()"/>
<xsl:variable name="vImportedOrIncluded" select=
"$vStyleSheets[/*/(xsl:import | xsl:include)[tokenize(@href, '/')[last()]
eq $vStylesheetFilename]][1]"/>
<xsl:value-of select="'
', '
',
$vStylesheetFilename,
if(empty($vImportedOrIncluded)) then ' Main ' else (), ':'"/>
==========================================
<xsl:text/>
<xsl:variable name="vUrisInGroup" as="xs:string*">
<xsl:perform-sort select="current-group()">
<xsl:sort select="."/>
</xsl:perform-sort>
</xsl:variable>
<xsl:for-each select="$vUrisInGroup">
<xsl:value-of select=
"substring-after(., substring-before(., 'nameOfRootDir')), '
'"/>
</xsl:for-each>
</xsl:for-each-group>
</xsl:template>
</xsl:stylesheet>
匹配模板级别:
让我们有:
<xsl:template match="possiblySomepath/someName[PossiblySomePredicate]/possibleTailPath">
我们分析了可能的源 XML 文档集,并确定这些文档从不包含名为 "someName" 的元素——或者在更好的情况下,我们有可用的 XML 架构来源,从中我们可以看到文档中不包含名为 "someName" 的元素。然后我们可以安全地删除该模板。
至于 "Main" 样式表,在我们排除了其中明显的样式表之后,以类似的方式我们可以调查并找到没有匹配的 named 模板<xsl:call-template>
指令 -- 并摆脱所有这些。
代码将是这样的:
==========================================
<xsl:variable name="vTemplateNamesDistinct"
select="distinct-values($vStyleSheets/*/xsl:template/@name)"/>
<xsl:value-of select=
"'
','
','Distinct template names: ', count($vTemplateNamesDistinct)"/>
<xsl:variable name="vnamedTemplatesNeverCalled" select=
"distinct-values($vStyleSheets/*/xsl:template/@name
[not(. = $vStyleSheets//xsl:call-template/@name)])"/>
<xsl:value-of select=
"'
','
','Template names never called: ', count($vnamedTemplatesNeverCalled)"/>
<xsl:value-of select="$vnamedTemplatesNeverCalled" separator="
"/>
==========================================
在我的案例中,大约有 400 个命名模板。其中超过40个命名模板没有被调用。