UTF encoding/decoding 后不打印重音
Accents aren't print after UTF encoding/decoding
我读过 several articles on the whole topic 但我仍然不明白这里发生了什么。请在下面的工作示例中亲自查看(实际上,没有示例,这是完整的 class 我正在处理一些添加的 main()
)。
public class Console extends JFrame {
private static final long serialVersionUID = 2260047176466126845L;
private static final String ENCODING = "UTF-8";
private BlockingQueue<Integer> inBuffer = new LinkedBlockingQueue<Integer>();
private JTextArea display = new JTextArea();
private JTextField input = new JTextField();
private ActionListener listener = new ActionListener() {
@Override
public void actionPerformed(ActionEvent e) {
System.out.println("Input: " + input.getText());
byte[] bytes = (input.getText() + "\n").getBytes(Charset.forName(ENCODING));
input.setText("");
System.out.println("Bytes: " + Arrays.toString(bytes));
for(byte b : bytes) {
inBuffer.offer((int) b);
}
}
};
public Console() {
super("Debugging");
LayoutManager layout = new BoxLayout(this.getContentPane(), BoxLayout.Y_AXIS);
setLayout(layout);
display.setPreferredSize(new Dimension(420, 210));
display.setEditable(false);
input.addActionListener(listener);
input.setPreferredSize(new Dimension(420, 20));
add(display);
add(input);
pack();
setVisible(true);
}
public final BufferedReader in = new BufferedReader(
new InputStreamReader(
new InputStream() {
boolean lastWasEnd = false;
@Override
public int read() throws IOException {
Integer c;
if(lastWasEnd) {
lastWasEnd = false;
return -1;
}
try {
c = inBuffer.poll(10, TimeUnit.MINUTES);
lastWasEnd = inBuffer.isEmpty();
return c;
} catch (InterruptedException e) {
e.printStackTrace();
}
return -1;
}
}, Charset.forName(ENCODING)
)
);
public final PrintStream out = new PrintStream(new OutputStream() {
@Override
public void write(int b) throws IOException {
display.append(Character.toString((char) b));
}
});
public static void main(String args[]) {
Console cons = new Console();
cons.out.println(">> Console started. Using charset: " + Charset.forName(ENCODING));
while(true) {
System.out.println("Loop");
try {
cons.out.println(">> " + cons.in.readLine());
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
一切顺利,直到我尝试写入标准 ASCII 范围内的任何字符,例如但不限于 áéíóúñ
。在那些情况下,我得到的是 missing character squares。我试过使用其他编码无济于事。
更新:
一些具体问题:
为什么不在 InputStreamReader
的构造函数中指定字符集使其正确解码多字节字符。
InputStream
s 有时会收到超过一个字节的字符。他们如何识别和处理这些字符。
更新 2:
我完全忘记了这段代码:
@Override
public void write(int b) throws IOException {
display.append(Character.toString((char) b));
}
是什么引起了麻烦。我会正确地重写它,希望不会再有 encoding/decoding 问题。
UTF-8 是一种多字节编码。这意味着一个字符的表示可能超过一个字节长,特别是如果它不是 US-ASCII 类型的字符。由于不清楚的原因,您专门将字符串分解为字节,然后附加它们。因此,您将这些字符分解为单独的字节,然后将这些字节视为整个字符。
如果字符长度超过一个字节,这将不起作用。
考虑为什么要尝试将单个字节而不是整个字符入队,如果没有充分的理由,请尝试不将字符串转换为字节,而是将字符转换为字符。
郑重声明,我最终实现了如下所示的基本缓冲 OutputStream.write()
,现在所有 I/O 工作正常。
这是我为修复输出而编写的内容。我想改进端线 ('\n'
) 检测,所以它看起来不那么黑,但我现在还没有找到合适的解决方案,所以与 10 比较就可以了。
public final PrintStream out = new PrintStream(new OutputStream() {
private ByteBuffer buffer = ByteBuffer.allocate(8192);
@Override
public void write(int b) throws IOException {
buffer.put((byte) b);
if(b == 10) {
buffer.flip();
String output = decoder.decode(buffer).toString();
display.append(output);
buffer.clear();
}
}
});
我读过 several articles on the whole topic 但我仍然不明白这里发生了什么。请在下面的工作示例中亲自查看(实际上,没有示例,这是完整的 class 我正在处理一些添加的 main()
)。
public class Console extends JFrame {
private static final long serialVersionUID = 2260047176466126845L;
private static final String ENCODING = "UTF-8";
private BlockingQueue<Integer> inBuffer = new LinkedBlockingQueue<Integer>();
private JTextArea display = new JTextArea();
private JTextField input = new JTextField();
private ActionListener listener = new ActionListener() {
@Override
public void actionPerformed(ActionEvent e) {
System.out.println("Input: " + input.getText());
byte[] bytes = (input.getText() + "\n").getBytes(Charset.forName(ENCODING));
input.setText("");
System.out.println("Bytes: " + Arrays.toString(bytes));
for(byte b : bytes) {
inBuffer.offer((int) b);
}
}
};
public Console() {
super("Debugging");
LayoutManager layout = new BoxLayout(this.getContentPane(), BoxLayout.Y_AXIS);
setLayout(layout);
display.setPreferredSize(new Dimension(420, 210));
display.setEditable(false);
input.addActionListener(listener);
input.setPreferredSize(new Dimension(420, 20));
add(display);
add(input);
pack();
setVisible(true);
}
public final BufferedReader in = new BufferedReader(
new InputStreamReader(
new InputStream() {
boolean lastWasEnd = false;
@Override
public int read() throws IOException {
Integer c;
if(lastWasEnd) {
lastWasEnd = false;
return -1;
}
try {
c = inBuffer.poll(10, TimeUnit.MINUTES);
lastWasEnd = inBuffer.isEmpty();
return c;
} catch (InterruptedException e) {
e.printStackTrace();
}
return -1;
}
}, Charset.forName(ENCODING)
)
);
public final PrintStream out = new PrintStream(new OutputStream() {
@Override
public void write(int b) throws IOException {
display.append(Character.toString((char) b));
}
});
public static void main(String args[]) {
Console cons = new Console();
cons.out.println(">> Console started. Using charset: " + Charset.forName(ENCODING));
while(true) {
System.out.println("Loop");
try {
cons.out.println(">> " + cons.in.readLine());
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
一切顺利,直到我尝试写入标准 ASCII 范围内的任何字符,例如但不限于 áéíóúñ
。在那些情况下,我得到的是 missing character squares。我试过使用其他编码无济于事。
更新:
一些具体问题:
为什么不在
InputStreamReader
的构造函数中指定字符集使其正确解码多字节字符。InputStream
s 有时会收到超过一个字节的字符。他们如何识别和处理这些字符。
更新 2:
我完全忘记了这段代码:
@Override
public void write(int b) throws IOException {
display.append(Character.toString((char) b));
}
是什么引起了麻烦。我会正确地重写它,希望不会再有 encoding/decoding 问题。
UTF-8 是一种多字节编码。这意味着一个字符的表示可能超过一个字节长,特别是如果它不是 US-ASCII 类型的字符。由于不清楚的原因,您专门将字符串分解为字节,然后附加它们。因此,您将这些字符分解为单独的字节,然后将这些字节视为整个字符。
如果字符长度超过一个字节,这将不起作用。
考虑为什么要尝试将单个字节而不是整个字符入队,如果没有充分的理由,请尝试不将字符串转换为字节,而是将字符转换为字符。
郑重声明,我最终实现了如下所示的基本缓冲 OutputStream.write()
,现在所有 I/O 工作正常。
这是我为修复输出而编写的内容。我想改进端线 ('\n'
) 检测,所以它看起来不那么黑,但我现在还没有找到合适的解决方案,所以与 10 比较就可以了。
public final PrintStream out = new PrintStream(new OutputStream() {
private ByteBuffer buffer = ByteBuffer.allocate(8192);
@Override
public void write(int b) throws IOException {
buffer.put((byte) b);
if(b == 10) {
buffer.flip();
String output = decoder.decode(buffer).toString();
display.append(output);
buffer.clear();
}
}
});