根据标签值的变化将 xml 分成较小的一个
Split the xml into smaller one based on change in tag values
<?xml version="1.0" encoding="UTF-16"?>
<ABC>
<END />
<Tables>
<START>
<row>
<id>111</id>
<name>abc</name>
<deptId>1</deptId>
</row>
<row>
<id>112</id>
<name>abc1</name>
<deptId>1</deptId>
</row>
<row>
<id>113</id>
<name>abc3</name>
<deptId>1</deptId>
</row>
<row>
<id>222</id>
<name>def</name>
<deptId>2</deptId>
</row>
<row>
<id>333</id>
<name>pqr</name>
<deptId>2</deptId>
</row>
<row>
<id>444</id>
<name>xyz</name>
<deptId>2</deptId>
</row>
<row>
<id>555</id>
<name>lmn</name>
<deptId>3</deptId>
</row>
<row>
<id>555</id>
<name>lmn</name>
<deptId>3</deptId>
</row>
</START>
</Tables>
</ABC>
我有一个具有上述结构的xml。我必须根据不同的 deptId
将 xml 拆分为 3 个 xml。
我必须根据标签值的变化将 xml 拆分成较小的一个。我的元素是 deptId
,其值在某些行后发生了变化。
所有具有相同 deptId
的元素都在一个序列中。
所需的输出是:
将 xml 名称作为部门 ID 很好。
第一个xml名字是1.xml
:
<?xml version="1.0" encoding="UTF-16"?>
<ABC>
<END />
<Tables>
<START>
<row>
<id>111</id>
<name>abc</name>
<deptId>1</deptId>
</row>
<row>
<id>112</id>
<name>abc1</name>
<deptId>1</deptId>
</row>
<row>
<id>113</id>
<name>abc3</name>
<deptId>1</deptId>
</row>
</START>
</Tables>
</ABC>
名称为 2.xml 的第二个 xml:
<?xml version="1.0" encoding="UTF-16"?>
<ABC>
<END />
<Tables>
<START>
<row>
<id>222</id>
<name>def</name>
<deptId>2</deptId>
</row>
<row>
<id>333</id>
<name>pqr</name>
<deptId>2</deptId>
</row>
<row>
<id>444</id>
<name>xyz</name>
<deptId>2</deptId>
</row>
</START>
</Tables>
</ABC>
名称为 3.xml 的第三个 xml:
<?xml version="1.0" encoding="UTF-16"?>
<ABC>
<END />
<Tables>
<START>
<row>
<id>113</id>
<name>abc3</name>
<deptId>1</deptId>
</row>
</START>
</Tables>
</ABC>
我曾通过参考几个选项尝试使用 StAXSource
选项
我尝试过的选项是参考以下链接
Split xml
Split large xml
这是已经尝试过的示例代码。
import java.io.File;
import java.io.FileReader;
import javax.xml.stream.XMLInputFactory;
import javax.xml.stream.XMLStreamReader;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.stax.StAXSource;
import javax.xml.transform.stream.StreamResult;
public class Demo2 {
public static void main(String[] args) throws Exception {
XMLInputFactory xif = XMLInputFactory.newInstance();
XMLStreamReader streamReader = xif.createXMLStreamReader(new FileReader("D://SmallXmltoSplit.xml"));
streamReader.nextTag(); // Advance to next element
streamReader.nextTag();
streamReader.nextTag();
streamReader.nextTag();
streamReader.nextTag();
streamReader.nextTag();
TransformerFactory tf = TransformerFactory.newInstance();
Transformer t = tf.newTransformer();
String deptId = null;
File file = new File("D://test" + ".xml");
while (streamReader.hasNext()) {
if (streamReader.isStartElement()) {
if (streamReader.getLocalName().equals("deptId")) {
if (deptId == null) {
deptId = streamReader.getElementText();
file = new File("D://" + deptId + ".xml");
t.transform(new StAXSource(streamReader), new StreamResult(file));
} else if (deptId != streamReader.getElementText()) {
file = new File("D://" + deptId + ".xml");
t.transform(new StAXSource(streamReader), new StreamResult(file));
}
}
t.transform(new StAXSource(streamReader), new StreamResult(file));
}
streamReader.next();
}
}
}
XML 读数应该经过 <row>
,大致如下:
XMLInputFactory xif = XMLInputFactory.newInstance();
// Do not use a Reader, especially not a FileReader. An InputStream leaves the
// encoding of the XML to the XMLStreamReader.
InputStream in = Files.newInputStream(Paths.get("D:/SmallXmltoSplit.xml"));
XMLStreamReader streamReader = xif.createXMLStreamReader(in);
streamReader.nextTag();
String id = "";
String name = "";
String deptId = "";
String oldDeptId = null;
// 文件 file = new 文件("D:/test" + ".xml");
while (streamReader.hasNext()) {
if (streamReader.isStartElement()) {
switch (streamReader.getLocalName()) {
case "row":
id = "";
name = "";
deptId = "";
break;
case "id":
id = streamReader.getElementText();
break;
case "name":
name = streamReader.getElementText();
break;
case "deptId":
deptId = streamReader.getElementText();
break;
}
}
if (streamReader.isEndElement()) {
switch (streamReader.getLocalName()) {
case "START":
if (oldDeptId != null) {
saveDept();
//oldDeptId = deptId;
}
break;
case "row":
if (!deptId.equals(oldDeptId)) {
if (oldDeptId != null) {
saveDept();
oldDeptId = deptId;
}
startDept(deptId);
}
appendDeptRow(id, name, deptId);
break;
}
}
}
写字不变形即可;事实上,它可以作为文本完成。
我把它留作练习。
不应使用 FileReader 和 FileWriter,因为它们使用默认平台编码对字节进行编码。 class Files
有很多不错的文件功能。
这里的另一个特点是 UTF-16 编码,它几乎是 ASCII 文件的两倍大小。正如您提到的有一个大文件,最好将该文件保存为 UTF-8,即使名称是波斯语、希腊语、日语或保加利亚语也是如此。
使用 XSLT 2.0 更容易做到这一点:
<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform version="2.0">
<xsl:template match="/">
<xsl:for-each-group select="//row" group-adjacent="deptId">
<xsl:result-document href="{current-grouping-key()}.xml">
<ABC>
<END />
<Tables>
<START>
<xsl:copy-of select="current-group()"/>
</START>
</Tables>
</ABC>
</xsl:result-document>
</xsl:for-each-group>
</xsl:template>
</xsl:transform>
要从 Java 应用程序 运行 此应用程序,您需要下载 Saxon,然后使用以下逻辑调用它:
Processor proc = new Processor(false);
XsltCompiler comp = proc.newXsltCompiler();
XsltExecutable exp = comp.compile(new StreamSource(new File("my-stylesheet.xsl")));
Serializer out = proc.newSerializer(new File("output.xml"));
Xslt30Transformer trans = exp.load30();
trans.applyTemplates(new StreamSource(new File("input.xml"), out);
此处有更多详细信息:http://www.saxonica.com/documentation/index.html#!using-xsl/embedding/s9api-transformation
<?xml version="1.0" encoding="UTF-16"?>
<ABC>
<END />
<Tables>
<START>
<row>
<id>111</id>
<name>abc</name>
<deptId>1</deptId>
</row>
<row>
<id>112</id>
<name>abc1</name>
<deptId>1</deptId>
</row>
<row>
<id>113</id>
<name>abc3</name>
<deptId>1</deptId>
</row>
<row>
<id>222</id>
<name>def</name>
<deptId>2</deptId>
</row>
<row>
<id>333</id>
<name>pqr</name>
<deptId>2</deptId>
</row>
<row>
<id>444</id>
<name>xyz</name>
<deptId>2</deptId>
</row>
<row>
<id>555</id>
<name>lmn</name>
<deptId>3</deptId>
</row>
<row>
<id>555</id>
<name>lmn</name>
<deptId>3</deptId>
</row>
</START>
</Tables>
</ABC>
我有一个具有上述结构的xml。我必须根据不同的 deptId
将 xml 拆分为 3 个 xml。
我必须根据标签值的变化将 xml 拆分成较小的一个。我的元素是 deptId
,其值在某些行后发生了变化。
所有具有相同 deptId
的元素都在一个序列中。
所需的输出是: 将 xml 名称作为部门 ID 很好。
第一个xml名字是1.xml
:
<?xml version="1.0" encoding="UTF-16"?>
<ABC>
<END />
<Tables>
<START>
<row>
<id>111</id>
<name>abc</name>
<deptId>1</deptId>
</row>
<row>
<id>112</id>
<name>abc1</name>
<deptId>1</deptId>
</row>
<row>
<id>113</id>
<name>abc3</name>
<deptId>1</deptId>
</row>
</START>
</Tables>
</ABC>
名称为 2.xml 的第二个 xml:
<?xml version="1.0" encoding="UTF-16"?>
<ABC>
<END />
<Tables>
<START>
<row>
<id>222</id>
<name>def</name>
<deptId>2</deptId>
</row>
<row>
<id>333</id>
<name>pqr</name>
<deptId>2</deptId>
</row>
<row>
<id>444</id>
<name>xyz</name>
<deptId>2</deptId>
</row>
</START>
</Tables>
</ABC>
名称为 3.xml 的第三个 xml:
<?xml version="1.0" encoding="UTF-16"?>
<ABC>
<END />
<Tables>
<START>
<row>
<id>113</id>
<name>abc3</name>
<deptId>1</deptId>
</row>
</START>
</Tables>
</ABC>
我曾通过参考几个选项尝试使用 StAXSource
选项
我尝试过的选项是参考以下链接
Split xml Split large xml
这是已经尝试过的示例代码。
import java.io.File;
import java.io.FileReader;
import javax.xml.stream.XMLInputFactory;
import javax.xml.stream.XMLStreamReader;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.stax.StAXSource;
import javax.xml.transform.stream.StreamResult;
public class Demo2 {
public static void main(String[] args) throws Exception {
XMLInputFactory xif = XMLInputFactory.newInstance();
XMLStreamReader streamReader = xif.createXMLStreamReader(new FileReader("D://SmallXmltoSplit.xml"));
streamReader.nextTag(); // Advance to next element
streamReader.nextTag();
streamReader.nextTag();
streamReader.nextTag();
streamReader.nextTag();
streamReader.nextTag();
TransformerFactory tf = TransformerFactory.newInstance();
Transformer t = tf.newTransformer();
String deptId = null;
File file = new File("D://test" + ".xml");
while (streamReader.hasNext()) {
if (streamReader.isStartElement()) {
if (streamReader.getLocalName().equals("deptId")) {
if (deptId == null) {
deptId = streamReader.getElementText();
file = new File("D://" + deptId + ".xml");
t.transform(new StAXSource(streamReader), new StreamResult(file));
} else if (deptId != streamReader.getElementText()) {
file = new File("D://" + deptId + ".xml");
t.transform(new StAXSource(streamReader), new StreamResult(file));
}
}
t.transform(new StAXSource(streamReader), new StreamResult(file));
}
streamReader.next();
}
}
}
XML 读数应该经过 <row>
,大致如下:
XMLInputFactory xif = XMLInputFactory.newInstance();
// Do not use a Reader, especially not a FileReader. An InputStream leaves the
// encoding of the XML to the XMLStreamReader.
InputStream in = Files.newInputStream(Paths.get("D:/SmallXmltoSplit.xml"));
XMLStreamReader streamReader = xif.createXMLStreamReader(in);
streamReader.nextTag();
String id = "";
String name = "";
String deptId = "";
String oldDeptId = null;
// 文件 file = new 文件("D:/test" + ".xml");
while (streamReader.hasNext()) {
if (streamReader.isStartElement()) {
switch (streamReader.getLocalName()) {
case "row":
id = "";
name = "";
deptId = "";
break;
case "id":
id = streamReader.getElementText();
break;
case "name":
name = streamReader.getElementText();
break;
case "deptId":
deptId = streamReader.getElementText();
break;
}
}
if (streamReader.isEndElement()) {
switch (streamReader.getLocalName()) {
case "START":
if (oldDeptId != null) {
saveDept();
//oldDeptId = deptId;
}
break;
case "row":
if (!deptId.equals(oldDeptId)) {
if (oldDeptId != null) {
saveDept();
oldDeptId = deptId;
}
startDept(deptId);
}
appendDeptRow(id, name, deptId);
break;
}
}
}
写字不变形即可;事实上,它可以作为文本完成。
我把它留作练习。
不应使用 FileReader 和 FileWriter,因为它们使用默认平台编码对字节进行编码。 class Files
有很多不错的文件功能。
这里的另一个特点是 UTF-16 编码,它几乎是 ASCII 文件的两倍大小。正如您提到的有一个大文件,最好将该文件保存为 UTF-8,即使名称是波斯语、希腊语、日语或保加利亚语也是如此。
使用 XSLT 2.0 更容易做到这一点:
<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform version="2.0">
<xsl:template match="/">
<xsl:for-each-group select="//row" group-adjacent="deptId">
<xsl:result-document href="{current-grouping-key()}.xml">
<ABC>
<END />
<Tables>
<START>
<xsl:copy-of select="current-group()"/>
</START>
</Tables>
</ABC>
</xsl:result-document>
</xsl:for-each-group>
</xsl:template>
</xsl:transform>
要从 Java 应用程序 运行 此应用程序,您需要下载 Saxon,然后使用以下逻辑调用它:
Processor proc = new Processor(false);
XsltCompiler comp = proc.newXsltCompiler();
XsltExecutable exp = comp.compile(new StreamSource(new File("my-stylesheet.xsl")));
Serializer out = proc.newSerializer(new File("output.xml"));
Xslt30Transformer trans = exp.load30();
trans.applyTemplates(new StreamSource(new File("input.xml"), out);
此处有更多详细信息:http://www.saxonica.com/documentation/index.html#!using-xsl/embedding/s9api-transformation