在 linux CL 中使用扩展 ascii 字符作为参数的问题

Problems using extended ascii characters as parameters in linux CL

我试图将一些字符串作为参数传递给我在 linux debian 中使用命令行执行的 .jar 文件。部分字符串是扩展的 ascii 字符,如版权符号或字母 ü。

java -jar someJar_CL.jar arg1 arg2 'Lizenziert für foo © foobar' 

在 windows 下使用 powershell 一切正常。 .jar 文件按预期执行。尽管如此,在 linux 中我得到以下异常:

java.lang.IllegalArgumentException: U+FFFD ('.notdef') is not available in this font Helvetica encoding: WinAnsiEncoding
        at org.apache.pdfbox.pdmodel.font.PDType1Font.encode(PDType1Font.java:426)
        at org.apache.pdfbox.pdmodel.font.PDFont.encode(PDFont.java:342)
        at org.apache.pdfbox.pdmodel.font.PDFont.getStringWidth(PDFont.java:373)
        at watermark.app.AddWatermarkToFile.watermarkPdf(AddWatermarkToFile.java:101)
        at watermark.app.AddWatermarkToFile.watermarkPdfs(AddWatermarkToFile.java:51)
        at watermark.gui.BatchWatermarkPDFFile.main(BatchWatermarkPDFFile.java:113)

据我了解,这个异常意味着程序在扩展 ascii 字符方面存在问题。如果我删除它们,它会正确执行(在 linux)。

我无法直接访问 .jar 文件的源代码,但我认为没有必要,因为它在 windows 下正确执行(无论什么都在 jre 中 OS).

我认为这不是解决方案,但我已经使用 apt-get install msttcorefonts 安装了 ms 字体。它没有改变任何东西。

我该如何解决这个问题?它与Helvetica字体有什么关系吗?它可以在 linux 中使用不同的字体吗?我可以联系 .jar 的开发人员要求更改,但前提是确实有必要。

提前致谢。

由于 PdfBox 抱怨 U+FFFD(Unicode 替换字符),我们可以肯定地说在将字符串提供给 PdfBox 库之前出了点问题。

问题似乎是 Java 如何解释通过命令行(参数)传入的字节。在 Linux 上,它将使用语言环境信息来找出如何解释命令行参数(OS 只是作为未注释的字节字符串提供,没有指示它们的编码)。

如果您没有配置语言环境,那么它可能会退回到 POSIX 语言环境并使用 ASCII 编码。您可以通过以下两种方式之一解决此问题

  1. 将您的语言环境(最直接的 LANG 环境变量)设置为使用 UTF-8 编码的语言环境。

    您可以全局执行此操作,也可以仅针对 java.

  2. 的单次调用执行此操作
  3. 设置 sun.jnu.encoding 系统 属性 明确告诉 Java 如何解码命令行参数。

    此选项的文档似乎很少且未标准化,因此它可能不适用于非 Oracle VM。