从具有 UTF-16 BOM 字符的文件中读取文本
Reading text from file with UTF-16 BOM character
我正在尝试创建一种从文件中获取文本的通用方法。相当简单,只是要求它应该丢弃前导 BOM 字符。对于 UTF-8,我得到了这个工作。我为此使用了正则表达式模式:
Pattern LEADING_BOM_PATTERN = Pattern.compile("^\uFEFF+");
Charset encoding; // This is given.
InputStream input; // This is created.
// Remove the leading BOM characters.
String text = IOUtils.toString(input, encoding);
text = LEADING_BOM_PATTERN.matcher(text).replaceFirst("");
现在我的问题是:这非常适合 UTF-8 BOM 字符 (EF BB BF),但不适用于任何其他字符。
但是,正如它所说 here:
The exact bytes comprising the BOM will be whatever the Unicode character U+FEFF is converted into by that transformation format.
这让我假设“\uFEFF”字符适用于所有 BOM 字符。事实证明,事实并非如此。
经过更多的研究,发现 "FE FF" 和 "FF FE" BOM 字符都被 Java 读取为 char 65533,而“\uFEFF”字符串解析为char 65279。这确实清楚了为什么没有删除这些字符,但我认为这不是预期的行为。
任何人都可以阐明它为什么这样做,或者更确切地说如何解决它?
谢谢:)
事实证明这只是一个非常愚蠢的错误。我没有将正确的编码传递给 IOUtils。因此它没有返回正确的字符。当传递 UTF-16 字符集时,它工作正常。傻我...
我正在尝试创建一种从文件中获取文本的通用方法。相当简单,只是要求它应该丢弃前导 BOM 字符。对于 UTF-8,我得到了这个工作。我为此使用了正则表达式模式:
Pattern LEADING_BOM_PATTERN = Pattern.compile("^\uFEFF+");
Charset encoding; // This is given.
InputStream input; // This is created.
// Remove the leading BOM characters.
String text = IOUtils.toString(input, encoding);
text = LEADING_BOM_PATTERN.matcher(text).replaceFirst("");
现在我的问题是:这非常适合 UTF-8 BOM 字符 (EF BB BF),但不适用于任何其他字符。 但是,正如它所说 here:
The exact bytes comprising the BOM will be whatever the Unicode character U+FEFF is converted into by that transformation format.
这让我假设“\uFEFF”字符适用于所有 BOM 字符。事实证明,事实并非如此。
经过更多的研究,发现 "FE FF" 和 "FF FE" BOM 字符都被 Java 读取为 char 65533,而“\uFEFF”字符串解析为char 65279。这确实清楚了为什么没有删除这些字符,但我认为这不是预期的行为。
任何人都可以阐明它为什么这样做,或者更确切地说如何解决它? 谢谢:)
事实证明这只是一个非常愚蠢的错误。我没有将正确的编码传递给 IOUtils。因此它没有返回正确的字符。当传递 UTF-16 字符集时,它工作正常。傻我...