如何使用 Powershell 将 XML 文件拆分成更小的文件
How to split XML file into smaller files using Powershell
我有很大的 XML 文件("ONIX" 标准)我想拆分。基本结构为:
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE ONIXmessage SYSTEM "http://www.editeur.org/onix/2.1/short/onix-international.dtd">
<!-- DOCTYPE is not always present and might look differently -->
<ONIXmessage> <!-- sometimes with an attribute -->
<header>
...
</header> <!-- up to this line every out-file should be identical to source -->
<product> ... </product>
<product> ... </product>
...
<product> ... </product>
<ONIXmessage>
我想做的是将此文件拆分为 n 个大小大致相同的较小文件。为此,我会计算 <product>
个节点的数量,将它们除以 n 并将它们克隆到 n new xml 文件。找了很多,这个任务好像比我想象的要难。
- 到目前为止我无法解决的是克隆一个新的 XML 文档,该文档具有相同的 xml 声明、文档类型、根元素和
<header>
节点,但没有 <product>s
.我可以使用正则表达式来做到这一点,但我宁愿使用 xml 工具。
- 将多个
<product>
节点转移到新的 XML 文档的最聪明的方法是什么?对象表示法,例如 $xml.ONIXmessage.product | % { copy... }
、XPath()
查询(您可以 select n 节点使用 XPath() 吗?)和 CloneNode()
或 XMLReader
/XMLWriter
?
- 节点的内容在格式和编码方面应该相同。如何确保这一点?
如果能在正确的方向上提供一些帮助,我将不胜感激!
只是抛出一个想法供你考虑,它既没有经过测试,也不完整:
将 XML 导入数组。将 array.count 除以 n,然后循环导出到新的 XML 文件的数组。您可能必须在导出前创建 n 个数组。
例如:使用 Import-Clixml 和 Export-Clixml cmdlet。
假设所有 XML 节点都是相同的对象类型。
一种方法是:
- 复制 xml-文件
- 删除副本中的所有产品节点
- 使用循环一次将一个产品从原始文件复制到其中一个副本。
- 当您达到每个文件的产品限制时,保存当前文件(副本)并创建一个新文件。
示例:
param($path, [int]$maxitems)
$file = Get-ChildItem $path
################
#Read file
$xml = [xml](Get-Content -Path $file.FullName | Out-String)
$product = $xml.SelectSingleNode("//product")
$parent = $product.ParentNode
#Create copy-template
$copyxml = [xml]$xml.OuterXml
$copyproduct = $copyxml.SelectSingleNode("//product")
$copyparent = $copyproduct.ParentNode
#Remove all but one product (to know where to insert new ones)
$copyparent.SelectNodes("product") | Where-Object { $_ -ne $copyproduct } | ForEach-Object { $copyparent.RemoveChild($_) } > $null
$allproducts = @($parent.SelectNodes("product"))
$totalproducts = $allproducts.Count
$fileid = 1
$i = 0
foreach ($p in $allproducts) {
#IF beggining or full file, create new file
if($i % $maxitems -eq 0) {
#Create copy of file
$newFile = [xml]($copyxml.OuterXml)
#Get parentnode
$newparent = $newFile.SelectSingleNode("//product").ParentNode
#Remove all products
$newparent.SelectNodes("product") | ForEach-Object { $newparent.RemoveChild($_) } > $null
}
#Copy productnode
$cur = $newFile.ImportNode($p,$true)
$newparent.AppendChild($cur) > $null
#Add 1 to "items moved"
$i++
#IF Full file, save
if(($i % $maxitems -eq 0) -or ($i -eq $totalproducts)) {
$newfilename = $file.FullName.Replace($file.Extension,"$fileid$($file.Extension)")
$newFile.Save($newfilename)
$fileid++
}
}
更新: 由于性能在这里很重要,我创建了一个新版本的脚本,它使用一个 foreach 循环和一个 xml 模板来复制到删除 99% 的读取操作和删除操作。理念还是一样,只是执行方式不同。
基准:
10 items, 3 per xml OLD solution: 0.0448831 seconds
10 items, 3 per xml NEW solution: 0.0138742 seconds
16001 items, 1000 per xml items OLD solution: 73.1934346 seconds
16001 items, 1000 per xml items NEW solution: 5.337443 seconds
我有很大的 XML 文件("ONIX" 标准)我想拆分。基本结构为:
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE ONIXmessage SYSTEM "http://www.editeur.org/onix/2.1/short/onix-international.dtd">
<!-- DOCTYPE is not always present and might look differently -->
<ONIXmessage> <!-- sometimes with an attribute -->
<header>
...
</header> <!-- up to this line every out-file should be identical to source -->
<product> ... </product>
<product> ... </product>
...
<product> ... </product>
<ONIXmessage>
我想做的是将此文件拆分为 n 个大小大致相同的较小文件。为此,我会计算 <product>
个节点的数量,将它们除以 n 并将它们克隆到 n new xml 文件。找了很多,这个任务好像比我想象的要难。
- 到目前为止我无法解决的是克隆一个新的 XML 文档,该文档具有相同的 xml 声明、文档类型、根元素和
<header>
节点,但没有<product>s
.我可以使用正则表达式来做到这一点,但我宁愿使用 xml 工具。 - 将多个
<product>
节点转移到新的 XML 文档的最聪明的方法是什么?对象表示法,例如$xml.ONIXmessage.product | % { copy... }
、XPath()
查询(您可以 select n 节点使用 XPath() 吗?)和CloneNode()
或XMLReader
/XMLWriter
? - 节点的内容在格式和编码方面应该相同。如何确保这一点?
如果能在正确的方向上提供一些帮助,我将不胜感激!
只是抛出一个想法供你考虑,它既没有经过测试,也不完整:
将 XML 导入数组。将 array.count 除以 n,然后循环导出到新的 XML 文件的数组。您可能必须在导出前创建 n 个数组。
例如:使用 Import-Clixml 和 Export-Clixml cmdlet。
假设所有 XML 节点都是相同的对象类型。
一种方法是:
- 复制 xml-文件
- 删除副本中的所有产品节点
- 使用循环一次将一个产品从原始文件复制到其中一个副本。
- 当您达到每个文件的产品限制时,保存当前文件(副本)并创建一个新文件。
示例:
param($path, [int]$maxitems)
$file = Get-ChildItem $path
################
#Read file
$xml = [xml](Get-Content -Path $file.FullName | Out-String)
$product = $xml.SelectSingleNode("//product")
$parent = $product.ParentNode
#Create copy-template
$copyxml = [xml]$xml.OuterXml
$copyproduct = $copyxml.SelectSingleNode("//product")
$copyparent = $copyproduct.ParentNode
#Remove all but one product (to know where to insert new ones)
$copyparent.SelectNodes("product") | Where-Object { $_ -ne $copyproduct } | ForEach-Object { $copyparent.RemoveChild($_) } > $null
$allproducts = @($parent.SelectNodes("product"))
$totalproducts = $allproducts.Count
$fileid = 1
$i = 0
foreach ($p in $allproducts) {
#IF beggining or full file, create new file
if($i % $maxitems -eq 0) {
#Create copy of file
$newFile = [xml]($copyxml.OuterXml)
#Get parentnode
$newparent = $newFile.SelectSingleNode("//product").ParentNode
#Remove all products
$newparent.SelectNodes("product") | ForEach-Object { $newparent.RemoveChild($_) } > $null
}
#Copy productnode
$cur = $newFile.ImportNode($p,$true)
$newparent.AppendChild($cur) > $null
#Add 1 to "items moved"
$i++
#IF Full file, save
if(($i % $maxitems -eq 0) -or ($i -eq $totalproducts)) {
$newfilename = $file.FullName.Replace($file.Extension,"$fileid$($file.Extension)")
$newFile.Save($newfilename)
$fileid++
}
}
更新: 由于性能在这里很重要,我创建了一个新版本的脚本,它使用一个 foreach 循环和一个 xml 模板来复制到删除 99% 的读取操作和删除操作。理念还是一样,只是执行方式不同。
基准:
10 items, 3 per xml OLD solution: 0.0448831 seconds
10 items, 3 per xml NEW solution: 0.0138742 seconds
16001 items, 1000 per xml items OLD solution: 73.1934346 seconds
16001 items, 1000 per xml items NEW solution: 5.337443 seconds