将 UTF-8 Unicode 字符串转换为 ASCII Unicode 转义字符串
Convert UTF-8 Unicode string to ASCII Unicode escaped String
我需要将 unicode 字符串转换为具有以 unicode 编码的非 ascii 字符的字符串。例如,字符串“汉字 Max”应显示为“\u6F22\u5B57 Max”。
我尝试过的:
- 的不同组合
新字符串(sourceString.getBytes(编码1),编码2)
Apache StringEscapeUtils 也转义双引号等 ascii 字符
StringEscapeUtils.escapeJava(来源)
有没有简单的方法来编码这样的字符串?理想情况下,只应使用 Java 6 SE 或 Apache Commons 来获得预期结果。
这是 Jon Skeet 在他的评论中想到的那种简单代码:
final String in = "šđčćasdf";
final StringBuilder out = new StringBuilder();
for (int i = 0; i < in.length(); i++) {
final char ch = in.charAt(i);
if (ch <= 127) out.append(ch);
else out.append("\u").append(String.format("%04x", (int)ch));
}
System.out.println(out.toString());
正如乔恩所说,代理对将表示为一对 \u
转义。
基于 Guava Escaper 的解决方案:
这会将所有非 ASCII 字符转义为 Unicode 转义序列。
import static java.lang.String.format;
import com.google.common.escape.CharEscaper;
public class NonAsciiUnicodeEscaper extends CharEscaper
{
@Override
protected char[] escape(final char c)
{
if (c >= 32 && c <= 127) { return new char[]{c}; }
else { return format("\u%04x", (int) c).toCharArray(); }
}
}
我需要将 unicode 字符串转换为具有以 unicode 编码的非 ascii 字符的字符串。例如,字符串“汉字 Max”应显示为“\u6F22\u5B57 Max”。
我尝试过的:
- 的不同组合
新字符串(sourceString.getBytes(编码1),编码2)
Apache StringEscapeUtils 也转义双引号等 ascii 字符
StringEscapeUtils.escapeJava(来源)
有没有简单的方法来编码这样的字符串?理想情况下,只应使用 Java 6 SE 或 Apache Commons 来获得预期结果。
这是 Jon Skeet 在他的评论中想到的那种简单代码:
final String in = "šđčćasdf";
final StringBuilder out = new StringBuilder();
for (int i = 0; i < in.length(); i++) {
final char ch = in.charAt(i);
if (ch <= 127) out.append(ch);
else out.append("\u").append(String.format("%04x", (int)ch));
}
System.out.println(out.toString());
正如乔恩所说,代理对将表示为一对 \u
转义。
基于 Guava Escaper 的解决方案:
这会将所有非 ASCII 字符转义为 Unicode 转义序列。
import static java.lang.String.format;
import com.google.common.escape.CharEscaper;
public class NonAsciiUnicodeEscaper extends CharEscaper
{
@Override
protected char[] escape(final char c)
{
if (c >= 32 && c <= 127) { return new char[]{c}; }
else { return format("\u%04x", (int) c).toCharArray(); }
}
}