在 Java 中使用 BufferedReader 解析 XML
Parsing XML with BufferedReader in Java
从 XML 文件 2,84GB 开始,SAX 的 none 或 DOM 解析器似乎可以正常工作。我已经尝试过它们,但每次都会崩溃。所以,我选择读取文件并用BufferedReader导出我想要的数据,像解析txt一样解析XML文件。
XML 文件(小部分):
<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE dblp SYSTEM "dblp-2019-11-22.dtd">
<dblp>
<phdthesis mdate="2016-05-04" key="phd/dk/Heine2010">
<author>Carmen Heine</author>
<title>Modell zur Produktion von Online-Hilfen.</title>
<year>2010</year>
<school>Aarhus University</school>
<pages>1-315</pages>
<isbn>978-3-86596-263-8</isbn>
<ee>http://d-nb.info/996064095</ee>
</phdthesis><phdthesis mdate="2020-02-12" key="phd/Hoff2002">
<author>Gerd Hoff</author>
<title>Ein Verfahren zur thematisch spezialisierten Suche im Web und seine Realisierung im Prototypen HomePageSearch</title>
<year>2002</year>
我想从 XML 文件中检索标签 <year>
之间的数据。我还使用 Pattern 和 Matcher 以及 regEx 来查找我想要的信息。到目前为止我的代码:
public class Publications {
public static void main(String[] args) throws IOException {
File file = new File("dblp-2020-04-01.xml");
FileInputStream fileStream = new FileInputStream(file);
InputStreamReader input = new InputStreamReader(fileStream);
BufferedReader reader = new BufferedReader(input);
String line;
String regex = "\d+";
// Reading line by line from the
// file until a null is returned
while ((line = reader.readLine()) != null) {
final Pattern pattern = Pattern.compile("<year>(.+?)</year>", Pattern.DOTALL);
final Matcher matcher = pattern.matcher("<year>"+regex+"</year>");
matcher.find();
System.out.println(matcher.group(1)); // Prints String I want to extract
}
}
}
编译后,结果不是我所期望的。每次解析器找到 ... 标签时,我都不会打印准确的年份,结果如下:
\d+
\d+
\d+
\d+
\d+
\d+
\d+
\d+
\d+
\d+
有什么建议吗?
备注
Regexen 是从 xml(或类似的结构化格式)中提取信息的错误工具。一般做法不推荐。对于正确的处理方式,请参见。迈克尔·凯的回答。
回答
您在构造匹配器时提供了错误的参数。您需要提供当前行而不是代码中的表达式:
// ...
final Matcher matcher = pattern.matcher(line);
if (matcher.find()) {
System.out.println(matcher.group(1)); // Prints String I want to extract
}
// ...
注意检查当前行是否完全匹配的额外条件。
另请注意,您匹配的模式是在 Pattern
构造函数中定义的。因此,要仅匹配包含数值的 <year>
标签,必须将该行更改为
final Pattern pattern = Pattern.compile("<year>(" + regex + ")</year>", Pattern.DOTALL);
请不要尝试使用正则表达式解析 XML。我们在这个论坛上收到了数百个问题,人们试图以特殊格式生成 XML,因为这是接收应用程序唯一可以处理的事情,而接收应用程序有这样的限制的原因是它试图做 XML 解析 "by hand"。您正在为自己、您想要与之交换数据的人以及 Whosebug 上的人们积蓄麻烦,当一切都变成梨形时,您将寻求帮助。 XML 标准的存在是有原因的,当每个人都遵守它们时,标准会非常有效。
在这种情况下,正确的方法是流式 XML 方法,使用 SAX、StAX 或流式 XSLT 3.0,您完全出于虚假原因放弃了这些方法。
从 XML 文件 2,84GB 开始,SAX 的 none 或 DOM 解析器似乎可以正常工作。我已经尝试过它们,但每次都会崩溃。所以,我选择读取文件并用BufferedReader导出我想要的数据,像解析txt一样解析XML文件。
XML 文件(小部分):
<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE dblp SYSTEM "dblp-2019-11-22.dtd">
<dblp>
<phdthesis mdate="2016-05-04" key="phd/dk/Heine2010">
<author>Carmen Heine</author>
<title>Modell zur Produktion von Online-Hilfen.</title>
<year>2010</year>
<school>Aarhus University</school>
<pages>1-315</pages>
<isbn>978-3-86596-263-8</isbn>
<ee>http://d-nb.info/996064095</ee>
</phdthesis><phdthesis mdate="2020-02-12" key="phd/Hoff2002">
<author>Gerd Hoff</author>
<title>Ein Verfahren zur thematisch spezialisierten Suche im Web und seine Realisierung im Prototypen HomePageSearch</title>
<year>2002</year>
我想从 XML 文件中检索标签 <year>
之间的数据。我还使用 Pattern 和 Matcher 以及 regEx 来查找我想要的信息。到目前为止我的代码:
public class Publications {
public static void main(String[] args) throws IOException {
File file = new File("dblp-2020-04-01.xml");
FileInputStream fileStream = new FileInputStream(file);
InputStreamReader input = new InputStreamReader(fileStream);
BufferedReader reader = new BufferedReader(input);
String line;
String regex = "\d+";
// Reading line by line from the
// file until a null is returned
while ((line = reader.readLine()) != null) {
final Pattern pattern = Pattern.compile("<year>(.+?)</year>", Pattern.DOTALL);
final Matcher matcher = pattern.matcher("<year>"+regex+"</year>");
matcher.find();
System.out.println(matcher.group(1)); // Prints String I want to extract
}
}
}
编译后,结果不是我所期望的。每次解析器找到 ... 标签时,我都不会打印准确的年份,结果如下:
\d+
\d+
\d+
\d+
\d+
\d+
\d+
\d+
\d+
\d+
有什么建议吗?
备注
Regexen 是从 xml(或类似的结构化格式)中提取信息的错误工具。一般做法不推荐。对于正确的处理方式,请参见。迈克尔·凯的回答。
回答
您在构造匹配器时提供了错误的参数。您需要提供当前行而不是代码中的表达式:
// ...
final Matcher matcher = pattern.matcher(line);
if (matcher.find()) {
System.out.println(matcher.group(1)); // Prints String I want to extract
}
// ...
注意检查当前行是否完全匹配的额外条件。
另请注意,您匹配的模式是在 Pattern
构造函数中定义的。因此,要仅匹配包含数值的 <year>
标签,必须将该行更改为
final Pattern pattern = Pattern.compile("<year>(" + regex + ")</year>", Pattern.DOTALL);
请不要尝试使用正则表达式解析 XML。我们在这个论坛上收到了数百个问题,人们试图以特殊格式生成 XML,因为这是接收应用程序唯一可以处理的事情,而接收应用程序有这样的限制的原因是它试图做 XML 解析 "by hand"。您正在为自己、您想要与之交换数据的人以及 Whosebug 上的人们积蓄麻烦,当一切都变成梨形时,您将寻求帮助。 XML 标准的存在是有原因的,当每个人都遵守它们时,标准会非常有效。
在这种情况下,正确的方法是流式 XML 方法,使用 SAX、StAX 或流式 XSLT 3.0,您完全出于虚假原因放弃了这些方法。