Java XML 正在解析 - 使用 VTD-XML 的数据字符串版本不正确
Java XML Parsing - incorrect string version of the data with VTD-XML
我正在使用 VTD-XML.
以 Java 解析 UTF-8 编码的 XML 文档
一小段摘录如下:
<literal></literal>
<literal></literal>
<literal></literal>
我想遍历每个文字并将其打印到控制台。然而,我得到的是:
¢
我正确地导航到每个元素。我获取文本值的方法是调用:
private static String toNormalizedString(String name, int val, final VTDNav vn) throws NavException {
String strValue = null;
if (val != -1) {
strValue = vn.toNormalizedString(val);
}
return strValue;
}
我也试过 vn.getXPathStringVal();
,但结果相同。
我知道上面的每个文字都不仅仅是长度为 1 的字符串。相反,它们似乎是由两个字符组成的 unicode "characters"。如果它们的长度只有一个,我能够正确解析和输出汉字字符。
我的问题是 - 如何使用 VTD-XML 正确解析和输出这些字符?有没有办法获取文字标签之间文本的底层字节,以便我自己解析字节?
编辑
处理 XML 每一行的代码 - 将其转换为字节数组,然后再转换回字符串。
try (BufferedReader br = new BufferedReader(new FileReader("res/sample.xml"))) {
String line;
while ((line = br.readLine()) != null) {
byte[] myBytes = null;
try {
myBytes = line.getBytes("UTF-8");
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
System.exit(-1);
}
System.out.println(new String(myBytes));
}
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
您可能正在尝试获取包含大于 0x10000 的字符的字符串。该错误是已知的,正在解决中……修复完成后我会通知您。
这个问题可能与这个问题相同......
Map supplementary Unicode characters to BMP (if possible)
我正在使用 VTD-XML.
以 Java 解析 UTF-8 编码的 XML 文档一小段摘录如下:
<literal></literal>
<literal></literal>
<literal></literal>
我想遍历每个文字并将其打印到控制台。然而,我得到的是:
¢
我正确地导航到每个元素。我获取文本值的方法是调用:
private static String toNormalizedString(String name, int val, final VTDNav vn) throws NavException {
String strValue = null;
if (val != -1) {
strValue = vn.toNormalizedString(val);
}
return strValue;
}
我也试过 vn.getXPathStringVal();
,但结果相同。
我知道上面的每个文字都不仅仅是长度为 1 的字符串。相反,它们似乎是由两个字符组成的 unicode "characters"。如果它们的长度只有一个,我能够正确解析和输出汉字字符。
我的问题是 - 如何使用 VTD-XML 正确解析和输出这些字符?有没有办法获取文字标签之间文本的底层字节,以便我自己解析字节?
编辑
处理 XML 每一行的代码 - 将其转换为字节数组,然后再转换回字符串。
try (BufferedReader br = new BufferedReader(new FileReader("res/sample.xml"))) {
String line;
while ((line = br.readLine()) != null) {
byte[] myBytes = null;
try {
myBytes = line.getBytes("UTF-8");
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
System.exit(-1);
}
System.out.println(new String(myBytes));
}
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
您可能正在尝试获取包含大于 0x10000 的字符的字符串。该错误是已知的,正在解决中……修复完成后我会通知您。 这个问题可能与这个问题相同...... Map supplementary Unicode characters to BMP (if possible)