将 UTF-8 Unicode 字符串转换为 ASCII Unicode 转义字符串

Convert UTF-8 Unicode string to ASCII Unicode escaped String

我需要将 unicode 字符串转换为具有以 unicode 编码的非 ascii 字符的字符串。例如,字符串“汉字 Max”应显示为“\u6F22\u5B57 Max”。

我尝试过的:

  1. 的不同组合

    新字符串(sourceString.getBytes(编码1),编码2)

  2. Apache StringEscapeUtils 也转义双引号等 ascii 字符

    StringEscapeUtils.escapeJava(来源)

有没有简单的方法来编码这样的字符串?理想情况下,只应使用 Java 6 SE 或 Apache Commons 来获得预期结果。

这是 Jon Skeet 在他的评论中想到的那种简单代码:

final String in = "šđčćasdf";
final StringBuilder out = new StringBuilder();
for (int i = 0; i < in.length(); i++) {
  final char ch = in.charAt(i);
  if (ch <= 127) out.append(ch);
  else out.append("\u").append(String.format("%04x", (int)ch));
}
System.out.println(out.toString());

正如乔恩所说,代理对将表示为一对 \u 转义。

基于 Guava Escaper 的解决方案:

这会将所有非 ASCII 字符转义为 Unicode 转义序列。

import static java.lang.String.format;    
import com.google.common.escape.CharEscaper;

public class NonAsciiUnicodeEscaper extends CharEscaper
{
    @Override
    protected char[] escape(final char c)
    {
        if (c >= 32 && c <= 127) { return new char[]{c}; }
        else { return format("\u%04x", (int) c).toCharArray(); }
    }
}