根据命名空间前缀删除 nokogiri 属性
Remove nokogiri attribute based on namespace prefix
我正在使用 nokogiri 来解析 XML 文件。文件中的一些节点具有特定于命名空间的属性:
<metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:opf="http://www.idpf.org/2007/opf">
<dc:identifier id="iden" opf:scheme="ISBN">xxxx</dc:identifier>
<dc:creator opf:role="aut" opf:file-as="Name">xxxx</dc:creator>
<dc:date opf:event="publication">xxxx</dc:date>
<dc:publisher>xxxx</dc:publisher>
<meta name="cover" content="x"/>
</metadata>
我正在尝试删除任何带有 "opf" 前缀的属性。我遇到过基于部分匹配查找属性 value 的 xpath 解决方案,但是当它是属性名称本身的部分匹配时呢?我尝试了很多没有用的东西。我做了一件简单的事情,只是试图至少提取属性名称,但如果我这样做:
elements = @doc.at_xpath('//xmlns:metadata').children
elements.each { |el|
el.attributes.each { |attribute|
if attribute[1].namespace_scopes[1].prefix == "opf"
puts attribute[0]
end
}
}
我最终得到:
id
scheme
role
file-as
event
name
content
但我只想要带有 "opf" 前缀的那些("opf:scheme"、"opf:role, "opf:file-as"、"opf:event"),这样它们就可以被删除, 不触及任何其他属性。我什至试图通过硬编码我知道存在的属性来强制它:
opf_attributes = ["opf:file-as","opf:scheme","opf:role","opf:event"]
elements.each { |el|
opf_attributes.each { |x|
el.remove_attribute(x) if el[x] != nil
}
}
这不是解决此问题的最明智方法,但这仍然行不通。节点没有任何变化,属性保持原样。 (我不知道这是否值得注意,但如果我改用 remove_attr(x)
方法,我会收到此错误:undefined method 'remove_attr' for #<Nokogiri::XML::Element:0x...>
那么,我的问题是:
有没有更清晰的方法
- 根据部分匹配查找属性 and/or 命名空间前缀,然后
- 从包含它们的节点中删除这些属性?
节点对象有一个 remove
方法将它们从树中删除,所以你可以这样写:
require 'nokogiri'
doc = Nokogiri::XML(DATA)
puts '--- Before'
puts doc.to_s
doc.traverse do |node|
next unless node.respond_to? :attributes
node.attributes.each do |key, val|
val.remove if val&.namespace&.prefix == 'opf'
end
end
puts
puts '--- After'
puts doc.to_s
__END__
<metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:opf="http://www.idpf.org/2007/opf">
<dc:identifier id="iden" opf:scheme="ISBN">xxxx</dc:identifier>
<dc:creator opf:role="aut" opf:file-as="Name">xxxx</dc:creator>
<dc:date opf:event="publication">xxxx</dc:date>
<dc:publisher>xxxx</dc:publisher>
<meta name="cover" content="x"/>
</metadata>
并查看以下输出:
➜ ~ ruby test.rb
--- Before
<?xml version="1.0"?>
<metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:opf="http://www.idpf.org/2007/opf">
<dc:identifier id="iden" opf:scheme="ISBN">xxxx</dc:identifier>
<dc:creator opf:role="aut" opf:file-as="Name">xxxx</dc:creator>
<dc:date opf:event="publication">xxxx</dc:date>
<dc:publisher>xxxx</dc:publisher>
<meta name="cover" content="x"/>
</metadata>
--- After
<?xml version="1.0"?>
<metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:opf="http://www.idpf.org/2007/opf">
<dc:identifier id="iden">xxxx</dc:identifier>
<dc:creator>xxxx</dc:creator>
<dc:date>xxxx</dc:date>
<dc:publisher>xxxx</dc:publisher>
<meta name="cover" content="x"/>
</metadata>
注意 如果您使用的 Ruby 版本不支持 &.
您将需要处理潜在的命名空间 nil
.
我相信这要简单得多:
doc.xpath('//@opf:*', { opf: "http://www.idpf.org/2007/opf" }).each(&:remove)
//
搜索任何后代节点,@
表示它必须是一个属性节点,opf:
结合命名空间定义({ opf: "http://www.idpf.org/2007/opf" }
)表示什么命名空间它必须属于,并且 *
匹配任何名称。
请注意 opf:
本身没有任何意义; "http://www.idpf.org/2007/opf"
确实如此,而 opf
只是其范围内的 shorthand。 .xpath('//@foobar:*', { foobar: "http://www.idpf.org/2007/opf" })
也适用于您的情况。
由于您在根目录上定义了名称空间,并且它在文档中没有更改,因此您可以简化为
doc.xpath('//@opf:*', doc.namespaces).each(&:remove)
但请注意,这通常不安全(例如,可以在子节点上定义命名空间)。 doc.collect_namespaces
更安全一些,但即使那样你也不是完全安全的(例如,如果相同的前缀用于文档不同部分的两个不同 URI)。我会选择第一个(显式 URI),除非我真的亲眼看到了 XML 并且知道前缀的定义和使用位置和方式。
tl;dr:前缀没有任何意义,而是指关联的 URI。
我正在使用 nokogiri 来解析 XML 文件。文件中的一些节点具有特定于命名空间的属性:
<metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:opf="http://www.idpf.org/2007/opf">
<dc:identifier id="iden" opf:scheme="ISBN">xxxx</dc:identifier>
<dc:creator opf:role="aut" opf:file-as="Name">xxxx</dc:creator>
<dc:date opf:event="publication">xxxx</dc:date>
<dc:publisher>xxxx</dc:publisher>
<meta name="cover" content="x"/>
</metadata>
我正在尝试删除任何带有 "opf" 前缀的属性。我遇到过基于部分匹配查找属性 value 的 xpath 解决方案,但是当它是属性名称本身的部分匹配时呢?我尝试了很多没有用的东西。我做了一件简单的事情,只是试图至少提取属性名称,但如果我这样做:
elements = @doc.at_xpath('//xmlns:metadata').children
elements.each { |el|
el.attributes.each { |attribute|
if attribute[1].namespace_scopes[1].prefix == "opf"
puts attribute[0]
end
}
}
我最终得到:
id
scheme
role
file-as
event
name
content
但我只想要带有 "opf" 前缀的那些("opf:scheme"、"opf:role, "opf:file-as"、"opf:event"),这样它们就可以被删除, 不触及任何其他属性。我什至试图通过硬编码我知道存在的属性来强制它:
opf_attributes = ["opf:file-as","opf:scheme","opf:role","opf:event"]
elements.each { |el|
opf_attributes.each { |x|
el.remove_attribute(x) if el[x] != nil
}
}
这不是解决此问题的最明智方法,但这仍然行不通。节点没有任何变化,属性保持原样。 (我不知道这是否值得注意,但如果我改用 remove_attr(x)
方法,我会收到此错误:undefined method 'remove_attr' for #<Nokogiri::XML::Element:0x...>
那么,我的问题是:
有没有更清晰的方法
- 根据部分匹配查找属性 and/or 命名空间前缀,然后
- 从包含它们的节点中删除这些属性?
节点对象有一个 remove
方法将它们从树中删除,所以你可以这样写:
require 'nokogiri'
doc = Nokogiri::XML(DATA)
puts '--- Before'
puts doc.to_s
doc.traverse do |node|
next unless node.respond_to? :attributes
node.attributes.each do |key, val|
val.remove if val&.namespace&.prefix == 'opf'
end
end
puts
puts '--- After'
puts doc.to_s
__END__
<metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:opf="http://www.idpf.org/2007/opf">
<dc:identifier id="iden" opf:scheme="ISBN">xxxx</dc:identifier>
<dc:creator opf:role="aut" opf:file-as="Name">xxxx</dc:creator>
<dc:date opf:event="publication">xxxx</dc:date>
<dc:publisher>xxxx</dc:publisher>
<meta name="cover" content="x"/>
</metadata>
并查看以下输出:
➜ ~ ruby test.rb
--- Before
<?xml version="1.0"?>
<metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:opf="http://www.idpf.org/2007/opf">
<dc:identifier id="iden" opf:scheme="ISBN">xxxx</dc:identifier>
<dc:creator opf:role="aut" opf:file-as="Name">xxxx</dc:creator>
<dc:date opf:event="publication">xxxx</dc:date>
<dc:publisher>xxxx</dc:publisher>
<meta name="cover" content="x"/>
</metadata>
--- After
<?xml version="1.0"?>
<metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:opf="http://www.idpf.org/2007/opf">
<dc:identifier id="iden">xxxx</dc:identifier>
<dc:creator>xxxx</dc:creator>
<dc:date>xxxx</dc:date>
<dc:publisher>xxxx</dc:publisher>
<meta name="cover" content="x"/>
</metadata>
注意 如果您使用的 Ruby 版本不支持 &.
您将需要处理潜在的命名空间 nil
.
我相信这要简单得多:
doc.xpath('//@opf:*', { opf: "http://www.idpf.org/2007/opf" }).each(&:remove)
//
搜索任何后代节点,@
表示它必须是一个属性节点,opf:
结合命名空间定义({ opf: "http://www.idpf.org/2007/opf" }
)表示什么命名空间它必须属于,并且 *
匹配任何名称。
请注意 opf:
本身没有任何意义; "http://www.idpf.org/2007/opf"
确实如此,而 opf
只是其范围内的 shorthand。 .xpath('//@foobar:*', { foobar: "http://www.idpf.org/2007/opf" })
也适用于您的情况。
由于您在根目录上定义了名称空间,并且它在文档中没有更改,因此您可以简化为
doc.xpath('//@opf:*', doc.namespaces).each(&:remove)
但请注意,这通常不安全(例如,可以在子节点上定义命名空间)。 doc.collect_namespaces
更安全一些,但即使那样你也不是完全安全的(例如,如果相同的前缀用于文档不同部分的两个不同 URI)。我会选择第一个(显式 URI),除非我真的亲眼看到了 XML 并且知道前缀的定义和使用位置和方式。
tl;dr:前缀没有任何意义,而是指关联的 URI。