PDFBox - 无法编码由代理项对组成的字符串
PDFBox - Cannot encode Strings comprised of surrogate pairs
在我的 PDFBox 实现中,我创建了通过测试不同字体以多种语言编写字符串的方法。
PDFont currentFont = PDType0Font.load(pdfDocument, new File("path/to/font/font.ttf"));
for (int offset = 0; offset < sValue.length();) {
int iCodePoint = sValue.codePointAt(offset);
boolean isEncodable = isCodePointEncodable(currentFont, iCodePoint);
//-Further logic here, etc.
offset += Character.charCount(iCodePoint);
}
private boolean isCodePointEncodable (PDFont currentFont, int iCodePoint) throws IOException {
StringBuilder st = new StringBuilder();
st.appendCodePoint(iCodePoint);
try {
currentFont.encode(st.toString());
return true;
} catch (IllegalArgumentException iae) {
return false;
}
}
虽然这适用于基本多语言平面 (BMP) 中的任何内容,但涉及 BMP 以外的 unicode 的任何内容都将无效。我已经下载并使用字形图表广泛查看了涉及的字体,并记录了每个代码。例如,在尝试编码时,它是 U+1F681(或十进制 128641),我跟踪了日志记录并发现它专门尝试将此字符编码为 NotoEmoji-Regular.ttf,这是正确的匹配字符,并且确实有这个角色。不幸的是,它仍然返回 false。
具体来说,我的日志服务器返回了这个:
Code Point 128641 () cannot be encoded in font NotoEmoji
是否有任何解决方法或解决方案?谢谢。
我已经创建并解决了问题 PDFBOX-3997。原因是我们没有使用最好的 cmap 子表。
没有解决方法,但该错误将在几个月后发布的 2.0.9 版中修复。但是您不必等那么久 - 您可以使用 snapshot build.
进行测试
在我的 PDFBox 实现中,我创建了通过测试不同字体以多种语言编写字符串的方法。
PDFont currentFont = PDType0Font.load(pdfDocument, new File("path/to/font/font.ttf"));
for (int offset = 0; offset < sValue.length();) {
int iCodePoint = sValue.codePointAt(offset);
boolean isEncodable = isCodePointEncodable(currentFont, iCodePoint);
//-Further logic here, etc.
offset += Character.charCount(iCodePoint);
}
private boolean isCodePointEncodable (PDFont currentFont, int iCodePoint) throws IOException {
StringBuilder st = new StringBuilder();
st.appendCodePoint(iCodePoint);
try {
currentFont.encode(st.toString());
return true;
} catch (IllegalArgumentException iae) {
return false;
}
}
虽然这适用于基本多语言平面 (BMP) 中的任何内容,但涉及 BMP 以外的 unicode 的任何内容都将无效。我已经下载并使用字形图表广泛查看了涉及的字体,并记录了每个代码。例如,在尝试编码时,它是 U+1F681(或十进制 128641),我跟踪了日志记录并发现它专门尝试将此字符编码为 NotoEmoji-Regular.ttf,这是正确的匹配字符,并且确实有这个角色。不幸的是,它仍然返回 false。
具体来说,我的日志服务器返回了这个:
Code Point 128641 () cannot be encoded in font NotoEmoji
是否有任何解决方法或解决方案?谢谢。
我已经创建并解决了问题 PDFBOX-3997。原因是我们没有使用最好的 cmap 子表。
没有解决方法,但该错误将在几个月后发布的 2.0.9 版中修复。但是您不必等那么久 - 您可以使用 snapshot build.
进行测试