JTidy 没有正确处理某些字符
JTidy not handling some characters correctly
某些字符在我调用 Tidy.parse 后被损坏。两个示例是:' 而不是 ' 和 ~ 而不是 ~
我猜这些一定来自 Word 或类似的东西,但 tidy 处理得非常糟糕。具体来说,它将它们转换为变音符号的单独实体表示,然后在我的过程中稍后将其转换为无意义的垃圾。我敢肯定还有其他人,但这些是我到目前为止发现的。有什么已知的方法可以预先转换它们或将它们作为整洁的一部分忽略吗?
Tidy tidy = new Tidy();
tidy.setXHTML(true);
tidy.setForceOutput(true);
tidy.parse(inputStream, outputStream);
打印出配置后,我发现输入和输出编码没有像我想的那样设置为 UTF-8,所以我只需要添加以下内容:
tidy.setInputEncoding("UTF-8");
tidy.setOutputEncoding("UTF-8");
某些字符在我调用 Tidy.parse 后被损坏。两个示例是:' 而不是 ' 和 ~ 而不是 ~
我猜这些一定来自 Word 或类似的东西,但 tidy 处理得非常糟糕。具体来说,它将它们转换为变音符号的单独实体表示,然后在我的过程中稍后将其转换为无意义的垃圾。我敢肯定还有其他人,但这些是我到目前为止发现的。有什么已知的方法可以预先转换它们或将它们作为整洁的一部分忽略吗?
Tidy tidy = new Tidy();
tidy.setXHTML(true);
tidy.setForceOutput(true);
tidy.parse(inputStream, outputStream);
打印出配置后,我发现输入和输出编码没有像我想的那样设置为 UTF-8,所以我只需要添加以下内容:
tidy.setInputEncoding("UTF-8");
tidy.setOutputEncoding("UTF-8");