使用 unoconv 获取奇怪的字符翻译以从 docx/doc 转换为 pdf

Getting strange character translations using unoconv to convert from docx/doc to pdf

我正在使用 unoconv (https://github.com/dagwieers/unoconv) 将 DOCX 和 DOC 文件转换为 PDF,但是当某些字符在 PDF 中呈现时,它们经常会出现奇怪的结果。

一个特殊的问题是数字翻译很奇怪,例如,部分标签:

第 2.3 节(http://note.io/1Q33RX6

Get变成罗马数字:

第 II.3 节(http://note.io/1b6MDs5

我感觉这与安装的字符集有关,但不知道如何调试它。

问题的设置是 Django 应用程序调用 unix shell 脚本来转换磁盘上的文档。

unoconv 只是以编程方式打开文件,然后 saves/exports 将其转换为所需的格式。当您使用 LibreOffice 打开文件并从 GUI 保存它时,我希望会发生同样的情况。

如果是这种情况,您可能想使用最新的 LibreOffice 版本进行测试,如果这不能解决您的问题,请将问题报告给 LibreOffice bug-tracker。