使用 PDFBox 将 unicode 字符串写入 PDF

Using PDFBox to write unicode strings to a PDF

我想使用 Apache PDFBox 1.8.8 创建包含 unicode 字符的 PDF,但我对哪些受支持哪些不受支持感到困惑。

发布的答案 here 表明这是一个已在主干上修复的错误。

发布的另一个答案 here 建议我必须自己进行翻译。

另一个(较旧的)答案已发布 here 谈论嵌入字体。

请有人澄清一下。另外,如果这是一个现在已修复的错误,有人能告诉我 PDFBox 的下一个版本可能是什么时候。

谢谢。

基本上您链接到的所有答案都是正确的。你要记住他们分别指的是哪个PDFBox版本。

关于 this answer:

在 pre-2.0.0 版本(直到当前的 1.8.8)中,文本绘制操作非常有限,甚至不支持完整的 WinAnsi 编码,这些版本生成的字体对象用作编码。

关于 this answer:

目前2.0.0-SNAPSHOT的开发状态有了很大的提升。这意味着文本绘制操作的限制已被移除,它们正确地编码文本并且使用的字体被正确地编码和嵌入。同时,这些改进的早期实施中的错误大部分已得到修复。

关于 this answer:

无论使用哪个 PDFBox 版本,这个答案都指出了需要牢记的一点:特定字体不一定支持整个 Unicode 代码点范围。如果您使用的字体不包含字符的字形定义,您可以随心所欲地进行编码,那么您的字符将无法正确绘制。这尤其涉及每个 PDF 查看器都必须支持的标准 14 种字体:它们只需要支持来自少数拉丁风格编码的字符,到目前为止还不需要完整的 Unicode 集。