使用复合键删除人员列表重复项
List of Persons duplicates removal with composite key
我有一份重复的人员名单 (10.000)。我想根据名字、姓氏以及出生年份或死亡年份来检查此人是否已经存在。在那种情况下,它应该在第一次出现时写入副本并删除另一个条目。
我的XML:
<?xml version="1.0" encoding="UTF-8"?>
<listperson>
<person>
<persName>
<surname>Shakespeare</surname>
<forename>William</forename>
</persName>
<birth>
<date>1564-04</date>
</birth>
<death>
<date>1616-05-03</date>
</death>
</person>
<person>
<persName>
<surname>Plato</surname>
<forename/>
</persName>
<birth>
<date>-0427</date>
</birth>
<death>
<date>-0347</date>
<placeName/>
</death>
</person>
<person>
<persName>
<surname>Shakespeare</surname>
<forename>William</forename>
</persName>
<birth>
<date>1564</date>
</birth>
<death>
<date>1616-05-03</date>
</death>
</person>
<person>
<persName>
<surname>Tolstoi</surname>
<forename>Leo N.</forename>
</persName>
<birth>
<date>1828-09-28</date>
</birth>
<death>
<date>1910-11-07</date>
</death>
</person>
<person>
<persName>
<surname>Tolstoi</surname>
<forename>Leo N.</forename>
</persName>
<death>
<date>1910-11-20</date>
</death>
</person>
</listperson>
现在是 XSLT。注意我可以使用 XSLT 3。我没有设法正确编写条件。这是我的 XSLT:
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:xs="http://www.w3.org/2001/XMLSchema"
exclude-result-prefixes="xs" version="3.0">
<xsl:mode on-no-match="shallow-copy"/>
<xsl:key name="key-birth" composite="yes" match="person"
use="persName/surname, persName/forename, substring(birth/date, 1, 4)"/>
<xsl:key name="key-death" composite="yes" match="person"
use="persName/surname, persName/forename, substring(death/date, 1, 4)"/>
<xsl:template
match="XXXX">
<xsl:choose>
<xsl:when
test="XXXX forename+surname+year of birth">
<xsl:copy>
<xsl:apply-templates select="@* | node()"/>
<xsl:element name="duplicate">
<xsl:apply-templates select="XXXX"/>
</xsl:element>
</xsl:copy>
</xsl:when>
<xsl:when
test="XXXX forename+surname+year of death">
<xsl:copy>
<xsl:apply-templates select="@* | node()"/>
<xsl:element name="duplicate">
<xsl:apply-templates select="XXXX"/>
</xsl:element>
</xsl:copy>
</xsl:when>
<xsl:otherwise>
<xsl:copy>
<xsl:apply-templates select="@* | node()"/>
</xsl:copy>
</xsl:otherwise>
</xsl:choose>
</xsl:template>
在使用 following-sibling:: 和 preceding-sibling:: 之前,我设法取得了一些结果,但是速度很慢并且产生了一些奇怪的结果,所以我希望这里有人能给我指出一个带键的解决方案,也许使用 generate-id()?
输出当然应该将重复的 Shakespeare 和 Tolstoi 移动到第一个出现的地方。在下一步中,我将合并它们并检查差异,例如两个条目中的 Tolstois 死亡日期不同。
您已经在使用 <xsl:mode on-no-match="shallow-copy"/>
复制现有节点,因此与其考虑复制不同的值,不如考虑从复制中排除重复值。一种方法是使用模板忽略它们。例如,要根据出生日期忽略重复项,请执行此操作。
<xsl:template match="person[. except key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4)))[1]]" />
试试这个 XSLT
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:xs="http://www.w3.org/2001/XMLSchema"
exclude-result-prefixes="xs" version="3.0">
<xsl:mode on-no-match="shallow-copy"/>
<xsl:key name="key-birth" composite="yes" match="person"
use="persName/surname, persName/forename, substring(birth/date, 1, 4)"/>
<xsl:key name="key-death" composite="yes" match="person"
use="persName/surname, persName/forename, substring(death/date, 1, 4)"/>
<xsl:template match="person[. except key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4)))[1]]" />
<xsl:template match="person[. except key('key-death', (persName/surname, persName/forename, substring(death/date, 1, 4)))[1]]" />
</xsl:stylesheet>
编辑:如果要将 duplicates
节点添加到剩余的不同人员元素中,请将此模板添加到 XSLT
<xsl:template match="person">
<xsl:copy>
<xsl:apply-templates select="@*|node()" />
<duplicates>
<xsl:copy-of select="key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4))) except .|key('key-death', (persName/surname, persName/forename, substring(death/date, 1, 4))) except ." />
</duplicates>
</xsl:copy>
</xsl:template>
我有一份重复的人员名单 (10.000)。我想根据名字、姓氏以及出生年份或死亡年份来检查此人是否已经存在。在那种情况下,它应该在第一次出现时写入副本并删除另一个条目。
我的XML:
<?xml version="1.0" encoding="UTF-8"?>
<listperson>
<person>
<persName>
<surname>Shakespeare</surname>
<forename>William</forename>
</persName>
<birth>
<date>1564-04</date>
</birth>
<death>
<date>1616-05-03</date>
</death>
</person>
<person>
<persName>
<surname>Plato</surname>
<forename/>
</persName>
<birth>
<date>-0427</date>
</birth>
<death>
<date>-0347</date>
<placeName/>
</death>
</person>
<person>
<persName>
<surname>Shakespeare</surname>
<forename>William</forename>
</persName>
<birth>
<date>1564</date>
</birth>
<death>
<date>1616-05-03</date>
</death>
</person>
<person>
<persName>
<surname>Tolstoi</surname>
<forename>Leo N.</forename>
</persName>
<birth>
<date>1828-09-28</date>
</birth>
<death>
<date>1910-11-07</date>
</death>
</person>
<person>
<persName>
<surname>Tolstoi</surname>
<forename>Leo N.</forename>
</persName>
<death>
<date>1910-11-20</date>
</death>
</person>
</listperson>
现在是 XSLT。注意我可以使用 XSLT 3。我没有设法正确编写条件。这是我的 XSLT:
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:xs="http://www.w3.org/2001/XMLSchema"
exclude-result-prefixes="xs" version="3.0">
<xsl:mode on-no-match="shallow-copy"/>
<xsl:key name="key-birth" composite="yes" match="person"
use="persName/surname, persName/forename, substring(birth/date, 1, 4)"/>
<xsl:key name="key-death" composite="yes" match="person"
use="persName/surname, persName/forename, substring(death/date, 1, 4)"/>
<xsl:template
match="XXXX">
<xsl:choose>
<xsl:when
test="XXXX forename+surname+year of birth">
<xsl:copy>
<xsl:apply-templates select="@* | node()"/>
<xsl:element name="duplicate">
<xsl:apply-templates select="XXXX"/>
</xsl:element>
</xsl:copy>
</xsl:when>
<xsl:when
test="XXXX forename+surname+year of death">
<xsl:copy>
<xsl:apply-templates select="@* | node()"/>
<xsl:element name="duplicate">
<xsl:apply-templates select="XXXX"/>
</xsl:element>
</xsl:copy>
</xsl:when>
<xsl:otherwise>
<xsl:copy>
<xsl:apply-templates select="@* | node()"/>
</xsl:copy>
</xsl:otherwise>
</xsl:choose>
</xsl:template>
在使用 following-sibling:: 和 preceding-sibling:: 之前,我设法取得了一些结果,但是速度很慢并且产生了一些奇怪的结果,所以我希望这里有人能给我指出一个带键的解决方案,也许使用 generate-id()?
输出当然应该将重复的 Shakespeare 和 Tolstoi 移动到第一个出现的地方。在下一步中,我将合并它们并检查差异,例如两个条目中的 Tolstois 死亡日期不同。
您已经在使用 <xsl:mode on-no-match="shallow-copy"/>
复制现有节点,因此与其考虑复制不同的值,不如考虑从复制中排除重复值。一种方法是使用模板忽略它们。例如,要根据出生日期忽略重复项,请执行此操作。
<xsl:template match="person[. except key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4)))[1]]" />
试试这个 XSLT
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:xs="http://www.w3.org/2001/XMLSchema"
exclude-result-prefixes="xs" version="3.0">
<xsl:mode on-no-match="shallow-copy"/>
<xsl:key name="key-birth" composite="yes" match="person"
use="persName/surname, persName/forename, substring(birth/date, 1, 4)"/>
<xsl:key name="key-death" composite="yes" match="person"
use="persName/surname, persName/forename, substring(death/date, 1, 4)"/>
<xsl:template match="person[. except key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4)))[1]]" />
<xsl:template match="person[. except key('key-death', (persName/surname, persName/forename, substring(death/date, 1, 4)))[1]]" />
</xsl:stylesheet>
编辑:如果要将 duplicates
节点添加到剩余的不同人员元素中,请将此模板添加到 XSLT
<xsl:template match="person">
<xsl:copy>
<xsl:apply-templates select="@*|node()" />
<duplicates>
<xsl:copy-of select="key('key-birth', (persName/surname, persName/forename, substring(birth/date, 1, 4))) except .|key('key-death', (persName/surname, persName/forename, substring(death/date, 1, 4))) except ." />
</duplicates>
</xsl:copy>
</xsl:template>